Trong blog trước, chúng tôi đã giải thích vì sao Apache Iceberg đóng vai trò trung tâm cho dữ liệu AI doanh nghiệp. Giờ đây, chúng tôi giới thiệu AIStor Tables – một cách tiếp cận mới giúp loại bỏ điểm nghẽn từ dịch vụ catalog bên ngoài trong triển khai Iceberg.
AIStor Tables là phiên bản native của Iceberg Catalog REST API, được tích hợp trực tiếp trong MinIO AIStor.
Trong bài viết này, chúng ta sẽ khám phá cấu trúc Warehouse → Namespace → Table giúp tổ chức dữ liệu trực quan, tìm hiểu cách nhóm AI có thể làm dữ liệu phi cấu trúc trở nên dễ tìm kiếm hơn qua bảng dữ liệu có cấu trúc, và hướng dẫn các bước thực tế để di chuyển các triển khai hiện có.
WAREHOUSES, NAMESPACES VÀ TABLES
Phương pháp tiếp cận của chúng tôi sử dụng cấu trúc Warehouse → Namespace → Table, phản ánh đúng cách mà các nhóm dữ liệu thường tư duy khi tổ chức thông tin. Mô hình ba tầng này tương đồng với khái niệm database/schema/table mà hầu hết các chuyên gia dữ liệu đã quen thuộc.
- Warehouse: đơn vị tổ chức cao nhất trong AIStor, tương tự một database server hoặc một data warehouse instance.
- Namespace: hoạt động như database schema, giúp tách biệt logic cho các dự án, môi trường hoặc domain dữ liệu khác nhau.
- Table: nơi lưu trữ dữ liệu thực tế trong từng namespace.
Nhờ cấu trúc này, người dùng không còn phải quản lý phức tạp qua bucket name và prefix path, mà thay vào đó có thể dùng tham chiếu trực quan như:
s3://analytics_warehouse.customer.dim_customer
Ngoài ra, chính sách bảo mật có thể áp dụng ở bất kỳ tầng nào trong cấu trúc: từ quyền truy cập toàn bộ warehouse, giới hạn namespace chứa dữ liệu nhạy cảm, cho đến phân quyền chi tiết ở cấp bảng.
Đồng thời, AIStor Tables còn bổ sung các cơ chế bảo vệ thông minh ở cấp bảng (table-aware protections), ngăn việc thao tác trực tiếp có thể làm hỏng metadata và duy trì tính toàn vẹn dữ liệu.
TRƯỜNG HỢP THỰC TẾ: XÂY DỰNG HẠ TẦNG PHÂN TÍCH
Ví dụ, một nhóm phát triển AI cần xây dựng hệ thống agent với quyền truy cập vào video huấn luyện, hình ảnh sản phẩm, và tài liệu lưu trữ trong nhiều bucket khác nhau. Thay vì phải tìm kiếm thủ công trong object storage, nhóm sẽ dùng Iceberg tables như một catalog hợp nhất để trỏ đến tất cả tài sản phi cấu trúc đó.
Thông qua Iceberg REST Catalog API tích hợp sẵn, họ có thể tạo warehouse, namespace, và bảng dữ liệu, sau đó chèn các “pointer” (tham chiếu) đến dữ liệu phi cấu trúc như ảnh, video, PDF.
Khi đó, các agent AI chỉ cần truy vấn bảng Iceberg qua SQL quen thuộc để lấy đường dẫn file cần thiết, thay vì điều hướng thủ công qua bucket. Nhờ đó, dữ liệu phi cấu trúc phân tán được biến thành một catalog có thể truy vấn, dễ khám phá.
LỘ TRÌNH MIGRATION (DI CHUYỂN HỆ THỐNG)
Chuyển đổi từ triển khai Iceberg hiện có sang AIStor Tables diễn ra theo quy trình từng bước, bao gồm:
- Khám phá metadata và tái tạo: kiểm kê cấu trúc catalog hiện tại bằng Iceberg REST API, xuất toàn bộ metadata (schema, partition, snapshot) và tái tạo chúng trong AIStor.
- Linh hoạt trong triển khai: doanh nghiệp có thể chọn lộ trình chuyển đổi dần dần, tiếp tục dùng external catalog trong thời gian đầu, sau đó chuyển sang AIStor Tables khi sẵn sàng.
SẴN SÀNG CHO KỶ NGUYÊN DỮ LIỆU AI
AIStor Tables mang lại Iceberg Catalog API native ngay trong object storage, loại bỏ nhu cầu quản lý hệ thống catalog ngoài. Kết quả là một lớp dữ liệu hợp nhất, nơi các agent AI có thể dễ dàng khám phá cả dữ liệu phân tích có cấu trúc lẫn tài sản huấn luyện phi cấu trúc qua cùng một giao diện bảng.
Với lộ trình migration rõ ràng và tùy chọn triển khai linh hoạt, các nhóm AI có thể chuyển đổi dần mà không gián đoạn quy trình hiện có.
Tính năng này hiện đang trong giai đoạn tech preview. Nếu bạn muốn trao đổi chi tiết hoặc thử nghiệm với case thực tế, hãy liên hệ để được kết nối trực tiếp cùng kỹ sư của chúng tôi.
Unitas cam kết đồng hành cùng doanh nghiệp, cung cấp các giải pháp và phân tích an ninh mạng tiên tiến nhất. Để nhận được tư vấn chuyên sâu hoặc hỗ trợ nhanh chóng, vui lòng liên hệ với chúng tôi qua email: info@unitas.vn hoặc Hotline: (+84) 939 586 168.