Tăng tốc xử lý sự cố với data lakehouse hiện đại trên MinIO AIStor

Tóm tắt điều hành

AMD, tập đoàn toàn cầu hàng đầu trong lĩnh vực điện toán hiệu năng cao, đồ họa và công nghệ bán dẫn, đã gặp nhiều thách thức trong các hệ thống kỹ thuật nội bộ. Những hệ thống này bao gồm ServiceNow, Jira, kho mã nguồn GitHub, pipeline telemetry và log hạ tầng. Chúng được phát triển độc lập theo thời gian nhưng lại có mức độ phụ thuộc lẫn nhau rất cao.

Sự phân mảnh này tạo ra các “ốc đảo dữ liệu”, che khuất mối liên hệ xuyên suốt vòng đời kỹ thuật, làm giảm khả năng linh hoạt trong phát triển, vận hành và quản trị – những yếu tố then chốt để đáp ứng yêu cầu thay đổi liên tục từ doanh nghiệp và thị trường.

Để giải quyết vấn đề, AMD đã triển khai một nền tảng Data Intelligence cấp doanh nghiệp. Nền tảng này tự động liên kết các sự cố trong hệ thống về đúng nguyên nhân gốc, cho phép truy vết toàn bộ chuỗi vấn đề, từ ticket ban đầu, commit trên GitHub, thành phần hạ tầng liên quan, lịch sử người phụ trách, cho đến điểm phát sinh lỗi cuối cùng.

Giải pháp được xây dựng trên một kiến trúc data lakehouse hiện đại sử dụng MinIO AIStor, kết hợp với GraphRAG engine. Hệ thống này kết nối ticket, mã nguồn, log và telemetry vào một lớp data intelligence có khả năng hiểu ngữ cảnh theo dạng đồ thị, giúp cả con người lẫn AI agent suy luận xuyên suốt các hệ thống khác nhau, từ đó rút ngắn thời gian xử lý sự cố, giảm chi phí vận hành và nâng cao năng suất tổng thể của doanh nghiệp.

Kết quả đạt được

Kiến trúc zero-ETL giúp giảm đáng kể độ phức tạp của pipeline và loại bỏ các kho dữ liệu trùng lặp. Một lớp Iceberg OTF duy nhất, kết hợp với nền tảng Object-Native Storage vững chắc, hiện phục vụ đồng thời cho phân tích SQL và phân tích đồ thị, mang lại kết quả nhanh hơn và chính xác hơn.

Các agent và workflow có thể suy luận trực tiếp trên dữ liệu doanh nghiệp đang hoạt động. Hệ thống không chỉ thu thập dữ liệu mà còn kết nối trí tuệ xuyên suốt các hệ thống, từ đó đẩy nhanh đáng kể quá trình xử lý sự cố.

MinIO AIStor đóng vai trò là nền tảng dữ liệu cốt lõi của kiến trúc lakehouse, lưu trữ dữ liệu thô, log và telemetry, đồng thời cung cấp các bảng Iceberg phục vụ SQL, đồ thị và suy luận của agent mà không cần sao chép dữ liệu.

Bài toán thách thức

Các doanh nghiệp lớn vận hành trên những quy trình liên kết chặt chẽ, nơi thông tin liên tục chảy qua hàng chục hệ thống khác nhau ở mọi giai đoạn: từ công cụ quản lý ticket như ServiceNow, nền tảng mã nguồn như GitHub, pipeline CI/CD, hệ thống giám sát, kiểm kê hạ tầng, danh bạ định danh, cho đến log và cảnh báo.

Mỗi hệ thống chỉ phản ánh một phần nhỏ của “sự thật tổng thể”, khiến việc phân tích nguyên nhân gốc hoặc truy vết các lỗi dây chuyền trở nên vô cùng khó khăn. Một sự cố nhỏ trong một hệ thống có thể lan rộng sang nhiều nhóm và công nghệ khác, buộc đội ngũ kỹ thuật phải thủ công ghép nối ngữ cảnh từ log, commit, incident, người phụ trách và thành phần hạ tầng rời rạc.

Sự phân mảnh này làm chậm thời gian phản hồi, gia tăng rủi ro vận hành và đẩy tổ chức vào trạng thái xử lý sự cố bị động thay vì chủ động dựa trên trí tuệ dữ liệu.

Một số điểm nghẽn cụ thể mà AMD gặp phải bao gồm việc các phép join quan hệ truyền thống gặp khó khăn với những câu hỏi nhiều bước, làm độ phức tạp và độ trễ tăng mạnh. Các cơ sở dữ liệu đồ thị truyền thống lại yêu cầu ETL và sao chép dữ liệu ra khỏi data lake, kèm theo hạ tầng riêng, điều không phù hợp cho môi trường sản xuất.

Theo chia sẻ từ Rajdeep Sengupta, Giám đốc Kỹ thuật Hệ thống tại AMD, họ có đầy đủ dữ liệu nhưng lại thiếu ngữ cảnh để kết nối chúng thành một bức tranh có ý nghĩa.

Tầm nhìn

AMD đặt mục tiêu xây dựng một nền tảng Data Intelligence cấp doanh nghiệp, nơi một sự cố phát sinh trong một hệ thống như ServiceNow sẽ tự động liên kết đến commit tương ứng trên GitHub, thành phần hạ tầng liên quan và lịch sử người phụ trách, từ đó rút ngắn thời gian xử lý sự cố.

Trạng thái mong muốn của hệ thống bao gồm khả năng truy vấn dữ liệu tại chỗ, độ trễ duyệt đồ thị dưới một giây và tích hợp trực tiếp với LangChain để hỗ trợ các workflow dựa trên agent. Một “knowledge graph” cấp doanh nghiệp sẽ biến dữ liệu nội bộ của AMD thành ngữ cảnh sống, giúp con người và AI làm việc hiệu quả hơn.

Nền tảng cũng hướng tới suy luận dựa trên AI xuyên suốt các hệ thống như ticket, log, telemetry, mã nguồn, thành phần và người phụ trách, cho phép chuyển đổi câu hỏi ngôn ngữ tự nhiên thành câu trả lời vận hành mà không cần di chuyển dữ liệu.

Giải pháp triển khai

AMD đã sử dụng GraphRAG engine trên kiến trúc data lakehouse xây dựng bằng MinIO AIStor, kết hợp lớp lưu trữ object-native và open table format dựa trên Apache Iceberg. Cách tiếp cận này cho phép kết nối ticket, mã nguồn, log và telemetry vào một lớp data intelligence nhận thức được cấu trúc đồ thị, giúp cả đội ngũ kỹ thuật và AI agent suy luận nhanh hơn với ít độ phức tạp hơn.

Toàn bộ dữ liệu được giữ nguyên tại chỗ, loại bỏ hoàn toàn kho dữ liệu trùng lặp. MinIO AIStor đóng vai trò là object store hợp nhất, Apache Iceberg (thông qua Nessie catalog) quản lý bảng mở, Dremio xử lý SQL, PuppyGraph cung cấp GraphRAG trực tiếp trên Iceberg, còn LangChain và Microsoft AutoGen điều phối các agent, sử dụng Claude Opus 4 làm mô hình suy luận chính và GPT-4o làm mô hình phản biện.

Kiến trúc và luồng dữ liệu

MinIO AIStor hoạt động như data lakehouse lưu trữ dữ liệu thô, log và telemetry. Apache Iceberg cung cấp các bảng mở với khả năng tiến hóa schema và time travel, trong khi Nessie đảm nhiệm vai trò catalog REST với khả năng versioning và branching.

Spark được dùng để tối ưu và tiền xử lý dữ liệu, Dremio cung cấp khả năng truy vấn SQL và thao tác copy/merge. PuppyGraph kết nối trực tiếp với Iceberg, thực thi truy vấn Cypher tại chỗ mà không cần ETL hay cơ sở dữ liệu đồ thị riêng biệt.

LangChain chuyển đổi câu hỏi ngôn ngữ tự nhiên thành truy vấn Cypher, còn Microsoft AutoGen điều phối các workflow đa agent. Claude Opus 4 và GPT-4o đảm nhiệm suy luận và kiểm chứng, trả về các câu trả lời có ngữ cảnh cho dashboard hoặc giao diện chat.

Kết quả và tác động

Việc loại bỏ hoàn toàn ETL và kho dữ liệu trùng lặp giúp đơn giản hóa kiến trúc và giảm chi phí vận hành. Một lớp Iceberg thống nhất giờ đây phục vụ đồng thời cho SQL của Dremio và truy vấn đồ thị Cypher, tạo nên một nền tảng chung cho phân tích, suy luận đồ thị và AI.

Các agent AI hoạt động trong vòng lặp phản hồi liên tục giữa Claude Opus 4 và GPT-4o, đảm bảo kết quả được xác thực và tinh chỉnh trước khi hiển thị cho người dùng. Tất cả những lợi ích này đạt được nhờ mô hình truy vấn tại chỗ trên các bảng mở lưu trữ trong AIStor, nơi dữ liệu luôn được version hóa, hiểu schema và phục vụ đồng thời cho SQL lẫn đồ thị mà không cần sao chép.

Giải pháp này giúp AMD rút ngắn đáng kể thời gian xử lý sự cố, tăng tính chủ động trong vận hành và biến dữ liệu phân mảnh thành trí tuệ kết nối xuyên suốt toàn bộ vòng đời kỹ thuật.

Unitas cam kết đồng hành cùng doanh nghiệp, cung cấp các giải pháp và phân tích an ninh mạng tiên tiến nhất. Để nhận được tư vấn chuyên sâu hoặc hỗ trợ nhanh chóng, vui lòng liên hệ với chúng tôi qua email: info@unitas.vn hoặc Hotline: (+84) 939 586 168.