Hãy tưởng tượng việc phát hiện ra rằng 40% cơ sở hạ tầng đám mây của bạn không được giám sát trong một tuần vì các tác nhân giám sát không triển khai được trong sự kiện tự động mở rộng quy mô. Kịch bản này không chỉ là giả thuyết—nó là một thực tế ngày càng tăng đối với các tổ chức dựa vào giám sát dựa trên tác nhân truyền thống trong môi trường đám mây động.
Máy ảo (VM) cung cấp năng lượng cho các ứng dụng và dịch vụ quan trọng trong doanh nghiệp, vì vậy việc giữ cho chúng hoạt động trơn tru là rất quan trọng. Giám sát cung cấp khả năng hiển thị cần thiết để duy trì hiệu suất, khắc phục sự cố và mang lại trải nghiệm người dùng liền mạch. Tuy nhiên, các giải pháp giám sát dựa trên tác nhân truyền thống thường gặp khó khăn trong việc theo kịp tính chất động của đám mây. Điều này tạo ra khoảng trống giám sát, tăng thêm độ phức tạp và tiêu tốn tài nguyên trong khi có khả năng ảnh hưởng đến hiệu suất VM.
Trong bài viết này, chúng ta sẽ xem xét những thách thức của giám sát dựa trên tác nhân và trình bày một phương pháp thay thế tốt hơn: giám sát không tác nhân. Trong một bài viết tiếp theo, chúng ta sẽ thảo luận về cách giám sát không tác nhân giải quyết nhiều vấn đề được giới thiệu ở đây.
Giám sát dựa trên tác nhân và các vấn đề
Giám sát dựa trên tác nhân truyền thống bao gồm việc cài đặt các tác nhân phần mềm trên mỗi máy hoặc ứng dụng bạn muốn giám sát. Các tác nhân này thu thập dữ liệu cục bộ và gửi lại cho hệ thống giám sát trung tâm để phân tích.
Mặc dù phương pháp này mang lại lợi ích, chẳng hạn như giám sát thời gian thực và thông tin chi tiết chi tiết, nhưng nó cũng đặt ra những thách thức đáng kể, đặc biệt là trong môi trường đám mây động cao.
Các phương pháp giám sát dựa trên tác nhân hiện tại
Trước khi chúng ta thảo luận về các vấn đề với giám sát dựa trên tác nhân, hãy nhanh chóng xem xét các phương pháp phổ biến nhất. Tùy thuộc vào nhu cầu giám sát cụ thể của bạn hoặc giải pháp được sử dụng, giám sát dựa trên tác nhân có thể được phân loại thành các loại sau: giám sát hiệu suất hệ thống, giám sát hiệu suất ứng dụng, giám sát bảo mật, giám sát nhật ký và giám sát cơ sở dữ liệu.
Giám sát hiệu suất hệ thống
Giám sát hiệu suất hệ thống, còn được gọi là giám sát cơ sở hạ tầng, liên quan đến việc triển khai một tác nhân trên tài nguyên hệ thống (ví dụ: máy chủ, máy trạm hoặc thiết bị mạng) để theo dõi cả số liệu truyền thống và số liệu đám mây hiện đại. Tác nhân thu thập dữ liệu theo các khoảng thời gian đều đặn bằng cách truy vấn API hệ thống hoặc truy cập bộ đếm hiệu suất do hệ điều hành máy chủ cung cấp. Sau đó, nó gửi dữ liệu đã thu thập đến hệ thống hoặc bảng điều khiển giám sát trung tâm để phân tích và trực quan hóa.
-
Ví dụ về các số liệu hiệu suất hệ thống
- Số liệu truyền thống
- Thời gian hoạt động của hệ thống
- Mức sử dụng CPU
- Mức sử dụng RAM
- I/O đĩa
- Lưu lượng mạng
- Số liệu đám mây gốc
- Trạng thái sức khỏe container
- Mức sử dụng hạn ngạch dịch vụ đám mây
- Triển khai cơ sở hạ tầng dưới dạng mã
- Số liệu truyền thống
Mặc dù điều này cung cấp thông tin chi tiết cơ sở hạ tầng quan trọng, nhưng nó lại giới thiệu chi phí hoạt động đáng kể. Các tác nhân yêu cầu cập nhật liên tục trong các sự kiện mở rộng quy mô và có thể gặp vấn đề về khả năng tương thích trên các hệ điều hành khác nhau, gây rủi ro cho khoảng trống giám sát.
Giám sát hiệu suất ứng dụng
Giám sát hiệu suất ứng dụng theo dõi sức khỏe, tính khả dụng và hiệu suất của ứng dụng phần mềm thông qua các tác nhân được nhúng trong ứng dụng hoặc môi trường thời gian chạy (ví dụ: Java, .NET). Các tác nhân này ghi lại các chỉ số hiệu suất chính.
-
Ví dụ về các số liệu hiệu suất ứng dụng
- Số liệu phản hồi
- Thời gian phản hồi cho yêu cầu của người dùng
- Tỷ lệ lỗi trên các dịch vụ
- Thông lượng giao dịch
- Thời gian chờ giữa các thành phần
- Thời gian phản hồi truy vấn cơ sở dữ liệu
- Theo dõi sự phụ thuộc
- Sự phụ thuộc dịch vụ
- Thời gian phản hồi API bên ngoài
- Sức khỏe kết nối cơ sở dữ liệu
- Hiệu suất bộ nhớ đệm
- Độ trễ hàng đợi tin nhắn
- Số liệu phản hồi
Các tác nhân nâng cao có thể lập trình mã hoặc thực hiện theo dõi phân tán để theo dõi các yêu cầu trên nhiều dịch vụ. Điều này giúp đảm bảo hoạt động ứng dụng trơn tru, chẩn đoán các vấn đề về hiệu suất (như điểm cuối chậm) và tối ưu hóa trải nghiệm người dùng.
Thách thức nằm ở độ phức tạp tích hợp. Việc tích hợp các tác nhân, đặc biệt là trong các hệ thống cũ, có thể yêu cầu cấu hình và chuyên môn đáng kể. Thêm vào độ phức tạp này, một số công cụ có thể không hỗ trợ tất cả các môi trường hoặc khung ứng dụng, dẫn đến khoảng trống trong giám sát hoặc nhu cầu sử dụng nhiều công cụ trên toàn tổ chức. Ví dụ: AppDynamics hỗ trợ đầy đủ Java, PHP, .NET, Node.js, Python và C++ nhưng không hỗ trợ các ứng dụng Rust, Elixir hoặc Dart, điều này thường buộc các tổ chức phải duy trì nhiều giải pháp giám sát để có phạm vi phủ sóng đầy đủ.
Giám sát bảo mật
Các tác nhân được triển khai để quan sát các hoạt động hệ thống và các sự kiện bảo mật tiềm ẩn trong thời gian thực. Chúng có thể tích hợp với các hệ thống quản lý thông tin và sự kiện bảo mật (SIEM) để cung cấp cái nhìn toàn diện về các sự kiện bảo mật như phát hiện truy cập trái phép, giám sát tuân thủ, phản ứng với mối đe dọa thời gian thực, xác định phần mềm độc hại và cảnh báo nỗ lực xâm nhập, cùng một số sự kiện khác.
- Khả năng giám sát cốt lõi
- Giám sát tính toàn vẹn tệp
- Phân tích nhật ký truy cập
- Mẫu lưu lượng mạng
- Theo dõi hoạt động người dùng
- Thay đổi cấu hình hệ thống
- Phương pháp phát hiện mối đe dọa
- Thuật toán phát hiện dị thường
- Quét dựa trên chữ ký
- Phân tích hành vi
- Thông tin tình báo về mối đe dọa thời gian thực
- Kiểm tra quy tắc tuân thủ
Một hạn chế chính xuất hiện trong quá trình triển khai. Các tác nhân này thường yêu cầu quyền truy cập đặc quyền (thường là quyền root/admin) để hoạt động chính xác, tạo ra các lỗ hổng bảo mật tiềm ẩn nếu bị xâm phạm. Độ phức tạp tăng lên trong các thiết lập đa đám mây, nơi các tổ chức phải đảm bảo các chính sách bảo mật nhất quán trong khi quản lý bề mặt tấn công mở rộng trên các nền tảng đa dạng. Các hệ điều hành cũ hoặc không được hỗ trợ đặt ra những thách thức bổ sung, vì các tác nhân này có thể không cung cấp phạm vi phủ sóng lỗ hổng toàn diện.
Giám sát nhật ký
Giám sát nhật ký liên quan đến việc thu thập và phân tích các tệp nhật ký được tạo trên toàn bộ môi trường CNTT của bạn. Các tác nhân giám sát được cài đặt trên các hệ thống tổng hợp nhật ký từ nhiều nguồn và chuyển tiếp chúng đến một nền tảng trung tâm để xử lý.
- Các loại nguồn nhật ký
- Nhật ký ứng dụng
- Nhật ký hệ thống
- Theo dõi kiểm tra bảo mật
- Nhật ký thiết bị mạng
- Nhật ký giao dịch cơ sở dữ liệu
- Khả năng của tác nhân
- Thu thập nhật ký thời gian thực
- Nhận dạng mẫu
- Phát hiện dị thường
- Kích hoạt cảnh báo
- Chuyển tiếp nhật ký
- Tính năng nền tảng trung tâm
- Lập chỉ mục nhật ký
- Chức năng tìm kiếm
- Trực quan hóa dữ liệu
- Quản lý cảnh báo
- Chính sách lưu giữ
Những thách thức thực tế trở nên rõ ràng ở quy mô lớn. Nhật ký có thể tăng trưởng theo cấp số nhân, đòi hỏi tài nguyên lưu trữ đáng kể và gây khó khăn cho việc mở rộng quy mô cho cơ sở hạ tầng đám mây lớn và phân tán. Ngoài ra, việc thiết lập phân tích cú pháp nhật ký, bộ lọc và quy tắc cảnh báo hiệu quả đòi hỏi đầu tư thời gian đáng kể và chuyên môn sâu về miền.
Giám sát cơ sở dữ liệu
Giám sát cơ sở dữ liệu tập trung vào việc theo dõi hiệu suất, tính khả dụng và tính toàn vẹn của hệ thống cơ sở dữ liệu. Các tác nhân tương tác với hệ thống quản lý cơ sở dữ liệu (DBMS) để thu thập các số liệu như số liệu hiệu suất quan trọng và các chỉ số hoạt động.
- Triển khai và bảo trì
- Quy trình cài đặt tác nhân phức tạp
- Yêu cầu cấu hình tốn thời gian
- Quản lý cập nhật liên tục
- Kiểm soát phiên bản trên các môi trường
- Bảo trì tốn nhiều tài nguyên
- Thách thức mở rộng quy mô
- Can thiệp thủ công trong quá trình tự động mở rộng quy mô
- Triển khai tác nhân chậm trễ
- Phạm vi phủ sóng không đầy đủ trong quá trình mở rộng quy mô nhanh chóng
- Các biến chứng khám phá tài nguyên
- Trôi cấu hình
- Tác động hiệu suất
- Chi phí tài nguyên tích lũy
- Tăng chi phí tính toán đám mây
- Mức sử dụng bộ nhớ cao hơn
- Lưu lượng mạng bổ sung
- Suy giảm dịch vụ tiềm năng
Theo Orca Security, các giải pháp bảo mật dựa trên tác nhân truyền thống thường không bao phủ quá 50% tài sản đám mây do những khó khăn trong việc triển khai tác nhân trên các môi trường thay đổi nhanh chóng. Những thách thức tương tự cũng áp dụng cho các tác nhân giám sát.
-
Các nút thắt hoạt động
- Thời gian cài đặt tác nhân 30-60 giây
- Vòng đời container ngắn hơn thời gian triển khai
- Quản lý phiên bản trên các hệ thống phân tán
- Phối hợp cập nhật giữa các nhóm
- Xung đột phân bổ tài nguyên
Các tổ chức thường phải đối mặt với kịch bản “chết vì tác nhân”, đặc biệt là trong kiến trúc vi dịch vụ, nơi các container bật và tắt trong vòng vài giây. Khi cài đặt tác nhân mất nhiều thời gian hơn vòng đời của container, việc giám sát hiệu quả trở nên không thể.
Giải pháp cho máy ảo trong môi trường đám mây: Giám sát không tác nhân
Giám sát không tác nhân áp dụng một cách tiếp cận mới đối với khả năng quan sát bằng cách loại bỏ nhu cầu cài đặt và quản lý các tác nhân phần mềm trên mỗi thiết bị được giám sát. Thay vào đó, nó khai thác các giao thức giao tiếp và API hiện có để thu thập dữ liệu hiệu suất từ VM và ứng dụng. Cách tiếp cận hợp lý này làm giảm chi phí của các phương pháp dựa trên tác nhân truyền thống, làm cho nó đặc biệt hiệu quả đối với môi trường đám mây động.
Hãy nghĩ về nó như thế này: thay vì gửi một sứ giả (tác nhân) đến từng VM để thu thập thông tin, giám sát không tác nhân sử dụng các kênh giao tiếp hiện có của VM để truy xuất dữ liệu cần thiết. Điều này loại bỏ nhu cầu về các sứ giả (tác nhân) và giảm đáng kể độ phức tạp quản lý của các sứ giả đó. Nó cũng giảm các rủi ro bảo mật liên quan đến việc triển khai và quản lý tác nhân, vì không cần mở thêm cổng hoặc cấp quyền nâng cao.
Đây là một sơ đồ đơn giản minh họa cách giám sát không tác nhân hoạt động:
Bộ thu hệ thống giám sát giao tiếp trực tiếp với VM hoặc ứng dụng bằng cả giao thức tiêu chuẩn như Giao thức quản lý mạng đơn giản (SNMP), Giao thức thông báo điều khiển Internet (ICMP) và các phương pháp hiện đại như API đám mây gốc, lưới dịch vụ (chẳng hạn như Istio) và cuộc gọi thủ tục từ xa (gRPC). Điều này cho phép khả năng quan sát toàn diện mà không cần chi phí bổ sung. VM phản hồi bằng dữ liệu được yêu cầu, sau đó được xử lý và trực quan hóa bởi bảng điều khiển của hệ thống giám sát, cung cấp thông tin chi tiết theo thời gian thực về tình trạng và hiệu suất cơ sở hạ tầng của bạn.
Các nền tảng sử dụng phương pháp không tác nhân, như LogicMonitor Envision, sử dụng các kỹ thuật khác nhau để thu thập dữ liệu. Một số trong số này bao gồm những điều sau:
- Tích hợp API: Các nền tảng và ứng dụng đám mây hiện đại cung cấp các API cho phép truy xuất dữ liệu an toàn. Các công cụ giám sát không tác nhân thu thập các số liệu hiệu suất và thông tin liên quan khác bằng các API này.
- Giao thức tiêu chuẩn: Các giao thức như SNMP và Windows Management Instrumentation (WMI) thường được sử dụng để thu thập thông tin từ các thiết bị mạng và máy chủ Windows.
- Secure Shell: Secure Shell (SSH) có thể được sử dụng để thực thi các lệnh từ xa trên thiết bị và thu thập đầu ra để phân tích. Điều này có nghĩa là các hệ thống giám sát có thể kết nối với các thiết bị mục tiêu (máy chủ, thiết bị mạng, v.v.) và thực thi các lệnh thu thập thông tin hệ thống cho các số liệu khác nhau, chẳng hạn như mức sử dụng CPU, mức tiêu thụ bộ nhớ, dung lượng đĩa, thống kê mạng và các quy trình đang chạy.
Tương lai của quản lý VM đám mây bắt đầu ngay bây giờ
Các tổ chức thường thấy ROI từ giám sát không tác nhân trong vòng ba đến sáu tháng thông qua chi phí bảo trì giảm và phạm vi phủ sóng được cải thiện. Điều này làm cho nó không chỉ là một nâng cấp kỹ thuật mà còn là một quyết định kinh doanh chiến lược.
Giám sát không tác nhân là tương lai của quản lý VM đám mây. Nó cung cấp khả năng mở rộng quy mô liền mạch cho cơ sở hạ tầng hiện đại, động, dựa trên đám mây. Với bảo trì tối thiểu và cách tiếp cận đơn giản hóa để giám sát các hệ thống đa dạng, đây là một giải pháp hiệu quả và có tầm nhìn xa.