Một chuyên gia IT với 25 năm kinh nghiệm dạy chúng ta điều gì về resilience, recovery và cách xây dựng hệ thống đủ sức vượt qua gián đoạn thực tế
Hiện nay, có rất nhiều cuộc thảo luận xoay quanh modernization: Cloud, AI, automation, security transformation. Nhưng modernization thực sự trông như thế nào khi bạn là người chịu trách nhiệm giữ cho hệ thống luôn vận hành, dữ liệu luôn được bảo vệ và recovery luôn khả thi dưới áp lực?
Trong một tập của STRIVE, tác giả đã có dịp trò chuyện cùng Gilman Treantos – một chuyên gia IT với 25 năm kinh nghiệm, từng đi qua nhiều giai đoạn từ mainframe cho đến kiến trúc cyber resilience hiện đại. Cuộc trao đổi này mang đến góc nhìn rất thực tế của một người làm nghề lâu năm về việc modernization thực sự có ý nghĩa gì trong bối cảnh outage, ransomware và rủi ro vận hành đã trở thành một phần của bài toán hằng ngày.
Modern cyber readiness thực sự đòi hỏi điều gì?
Một trong những điểm quan trọng nhất được nhấn mạnh là: modernization không nằm ở việc mua công cụ mới, mà nằm ở việc xây dựng kiến trúc có khả năng chống chịu. Công nghệ luôn thay đổi, nhưng discipline trong recovery, khả năng testing thường xuyên và sự phối hợp giữa các đội ngũ mới là yếu tố phân biệt một tổ chức phản ứng bị động với một tổ chức thực sự resilient.
Cyber readiness cũng không thể tách rời sự hợp tác giữa security và infrastructure. Khi các đội ngũ làm việc trong silo, blind spot sẽ xuất hiện. Ngược lại, khi có shared visibility và shared responsibility, tốc độ recovery có thể được cải thiện rõ rệt.
Một điểm đáng chú ý khác là các backup tool thực tế mạnh hơn rất nhiều so với cách phần lớn tổ chức đang sử dụng. Khi được khai thác sáng tạo, chúng không chỉ phục vụ backup và restore, mà còn có thể hỗ trợ migration quy mô lớn, isolated recovery và các quá trình chuyển đổi hạ tầng với mục tiêu giảm thiểu mất mát dữ liệu.
Bên cạnh đó, testing không phải là tùy chọn. Một recovery plan chưa từng được diễn tập không phải là chiến lược, mà là một liability. Và cuối cùng, resilience trong sự nghiệp cũng phản chiếu resilience trong kỹ thuật: sự chủ động, tính tò mò và tinh thần sẵn sàng xử lý những bài toán khó quan trọng không kém bất kỳ nền tảng công nghệ nào.
Từ Blockbuster đến cyber resilience
Hành trình nghề nghiệp của Gilman không bắt đầu trong war room hay security operations center. Nó bắt đầu từ Blockbuster.
Không có nền tảng đào tạo IT chính quy ngay từ đầu, ông đi lên từ tinh thần thích troubleshooting. Sự tò mò đó dẫn ông đến công việc với mainframe. Từ mainframe, ông chuyển sang distributed systems. Và từ đó, ông tiếp tục phát triển sang data protection và leadership trong cyber resilience.
Điều nổi bật ở đây không chỉ là lộ trình nghề nghiệp, mà là mindset. Ông xây dựng danh tiếng bằng cách nhận những bài toán mà người khác không muốn đụng tới: sửa những hệ thống mong manh, hỗ trợ những sáng kiến bị bỏ quên, và giải quyết những vấn đề băng qua ranh giới tổ chức.
Chính tinh thần đó liên kết trực tiếp với modernization, bởi modern cyber readiness chỉ có thể được xây dựng bởi những con người sẵn sàng đi vào sự phức tạp khó chịu thay vì né tránh nó.
Modernization dưới áp lực thực tế
Một trong những phần ấn tượng nhất của cuộc trò chuyện là ví dụ thực tế về việc phải evacuate một remote data center chỉ trong một đêm. Không mất dữ liệu. Không downtime kéo dài. Không rơi vào hỗn loạn vận hành.
Bằng cách tận dụng Commvault LiveSync theo một cách sáng tạo, Gilman và đội ngũ của mình đã có thể di chuyển hạ tầng nhanh chóng và tiết kiệm chi phí, sử dụng những khả năng vốn không được thiết kế riêng cho đúng kịch bản đó.
Đó mới là modernization trong thực tế: không phải chỉ nói về đổi mới, mà là dùng đúng công nghệ, đúng cách, trong điều kiện áp lực cao để bảo toàn vận hành.
Bài toán “House of Cards”
Khi tổ chức mở rộng quy mô, permission bắt đầu phình to. Hệ thống backup trở nên phức tạp. Công cụ bảo mật tiếp tục chồng thêm lên hạ tầng mà không có sự đồng bộ đầy đủ. Theo thời gian, toàn bộ môi trường trở nên mong manh.
Gilman mô tả đây là một động lực mà nhiều team thường đánh giá thấp: sự tích tụ chậm nhưng liên tục của technical debt và operational debt. Theo góc nhìn của ông, modernization không chỉ là nâng cấp nền tảng. Nó là quá trình đơn giản hóa kiến trúc, cải thiện visibility và phá vỡ các silo giữa đội cybersecurity và đội infrastructure.
Cyber readiness, theo nghĩa đó, đòi hỏi:
- Security và backup team phải chia sẻ telemetry
- Recovery environment phải được cô lập và kiểm thử
- Malware detection phải mở rộng ra ngoài workflow chính
- Các quyết định hạ tầng phải tính đến tốc độ recovery
Đây chính là điểm giao nhau giữa modernization và resilience.
Threat đang tiến hóa, recovery cũng phải tiến hóa theo
Ransomware không hề chậm lại. Threat actor ngày càng tinh vi hơn. Malware ngày càng ẩn mình tốt hơn trong các workflow hợp lệ. Góc nhìn của Gilman ở đây rất thẳng thắn: chuẩn bị phải mang tính chủ động.
Ông nhấn mạnh sự cần thiết của:
- disaster recovery testing định kỳ
- isolated recovery environment luôn sẵn sàng kích hoạt
- anomaly detection được tích hợp vào quy trình backup
- cross-team drill mô phỏng gián đoạn thực tế
Nói cách khác, recovery không thể chỉ được kích hoạt sau khi sự cố xảy ra. Nó phải được thiết kế như một năng lực luôn trong trạng thái sẵn sàng.
Kết luận
Modernization trong bối cảnh cyber readiness không đơn thuần là thay mới hạ tầng hay triển khai thêm công cụ. Nó là việc xây dựng những hệ thống có thể phục hồi dưới áp lực thực tế, nơi security và infrastructure phối hợp chặt chẽ, nơi testing được thực hiện nghiêm túc, và nơi recovery được xem như một năng lực chiến lược thay vì một thao tác kỹ thuật phía sau.
Nếu có một bài học lớn từ câu chuyện của Gilman Treantos, thì đó là: resilience không đến từ việc tránh mọi gián đoạn, mà đến từ việc thiết kế hệ thống và tổ chức đủ tốt để có thể vượt qua gián đoạn khi nó xảy ra.
Unitas cam kết đồng hành cùng doanh nghiệp, cung cấp các giải pháp và phân tích an ninh mạng tiên tiến nhất. Để nhận được tư vấn chuyên sâu hoặc hỗ trợ nhanh chóng, vui lòng liên hệ với chúng tôi qua:
Email: info@unitas.vn
Hotline: (+84) 939 586 168.
Bảng thuật ngữ
| Thuật ngữ | Dịch / Giải nghĩa ngắn gọn |
| modernization | Hiện đại hóa hệ thống, quy trình hoặc hạ tầng CNTT |
| cyber readiness | Mức độ sẵn sàng an ninh mạng để đối phó sự cố và phục hồi |
| resilience | Khả năng chống chịu và phục hồi của hệ thống hoặc tổ chức |
| recovery | Quá trình khôi phục hệ thống, dữ liệu hoặc dịch vụ sau sự cố |
| Cloud | Hạ tầng và dịch vụ điện toán đám mây |
| AI | Trí tuệ nhân tạo |
| automation | Tự động hóa quy trình hoặc tác vụ |
| security transformation | Quá trình chuyển đổi mô hình, kiến trúc hoặc năng lực bảo mật |
| outage | Sự cố ngừng dịch vụ hoặc gián đoạn hệ thống |
| ransomware | Mã độc tống tiền, mã hóa dữ liệu để đòi tiền chuộc |
| operational risk | Rủi ro vận hành phát sinh từ con người, quy trình hoặc hệ thống |
| STRIVE | Tên chương trình hoặc chuỗi nội dung được nhắc trong bài |
| mainframe | Hệ thống máy tính lớn, thường dùng cho workload doanh nghiệp truyền thống |
| cyber resilience architecture | Kiến trúc được thiết kế để tăng khả năng chống chịu và phục hồi trước sự cố an ninh mạng |
| practitioner’s view | Góc nhìn thực tiễn từ người trực tiếp làm nghề |
| resilient architecture | Kiến trúc có khả năng vận hành ổn định và phục hồi tốt khi gặp sự cố |
| discipline | Tính kỷ luật trong quy trình thực thi, vận hành và kiểm thử |
| cross-team coordination | Sự phối hợp giữa nhiều đội ngũ chức năng khác nhau |
| reactive organizations | Tổ chức phản ứng bị động, chỉ xử lý khi sự cố đã xảy ra |
| backup tools | Công cụ sao lưu dữ liệu |
| large-scale migrations | Quá trình di chuyển hệ thống hoặc dữ liệu ở quy mô lớn |
| isolated recovery | Phục hồi trong môi trường cách ly để tránh lây nhiễm hoặc rủi ro lan rộng |
| transitions | Quá trình chuyển đổi giữa các hệ thống, nền tảng hoặc môi trường |
| liability | Điểm yếu hoặc gánh nặng rủi ro có thể gây hậu quả khi xảy ra sự cố |
| war room | Không gian hoặc mô hình phối hợp khẩn cấp khi xử lý sự cố lớn |
| security operations center | Trung tâm vận hành an ninh mạng, thường viết tắt là SOC |
| troubleshooting | Quá trình xác định và xử lý sự cố kỹ thuật |
| distributed systems | Hệ thống phân tán, nơi nhiều thành phần chạy trên nhiều máy khác nhau |
| data protection | Bảo vệ dữ liệu khỏi mất mát, hỏng hóc hoặc truy cập trái phép |
| leadership | Vai trò lãnh đạo hoặc năng lực dẫn dắt đội ngũ |
| mindset | Tư duy hoặc cách tiếp cận vấn đề |
| fragile systems | Hệ thống mong manh, dễ lỗi hoặc khó phục hồi |
| initiatives | Sáng kiến, dự án hoặc chương trình triển khai |
| complexity | Độ phức tạp về kỹ thuật hoặc vận hành |
| remote data center | Trung tâm dữ liệu đặt ở vị trí từ xa |
| downtime | Thời gian hệ thống không thể phục vụ |
| Commvault LiveSync | Tên tính năng/giải pháp của Commvault hỗ trợ đồng bộ và migration |
| migration | Quá trình di chuyển ứng dụng, dữ liệu hoặc hạ tầng sang môi trường khác |
| House of Cards | Cách ví von một hệ thống mong manh, dễ sụp đổ dây chuyền |
| permissions sprawl | Tình trạng quyền truy cập bị mở rộng quá mức và khó kiểm soát |
| technical debt | Nợ kỹ thuật do các quyết định ngắn hạn gây ra khó khăn về sau |
| operational debt | Nợ vận hành tích tụ do quy trình phức tạp hoặc thiếu tối ưu |
| visibility | Khả năng quan sát và theo dõi trạng thái hệ thống, rủi ro hoặc sự kiện |
| silo | Tình trạng các đội làm việc tách biệt, thiếu chia sẻ thông tin |
| telemetry | Dữ liệu vận hành, log hoặc tín hiệu kỹ thuật dùng để giám sát hệ thống |
| recovery environment | Môi trường dùng để khôi phục hệ thống hoặc kiểm tra phục hồi |
| malware detection | Khả năng phát hiện mã độc |
| workflow | Luồng công việc hoặc chuỗi bước xử lý trong hệ thống |
| threat actor | Tác nhân đe dọa, đối tượng thực hiện tấn công mạng |
| anomaly detection | Phát hiện bất thường trong dữ liệu hoặc hành vi hệ thống |
| backup processes | Các quy trình sao lưu dữ liệu |
| cross-team drill | Buổi diễn tập phối hợp giữa nhiều đội ngũ |
| disruption | Gián đoạn hoạt động hoặc dịch vụ |
| practical advice | Lời khuyên mang tính thực tiễn |
| threat landscape | Bức tranh tổng thể về các mối đe dọa hiện tại |
| shared visibility | Khả năng cùng quan sát và hiểu chung về rủi ro, sự cố hoặc trạng thái hệ thống |
| collaboration | Sự hợp tác giữa các đội ngũ hoặc bộ phận |
| infrastructure | Hạ tầng CNTT gồm máy chủ, mạng, lưu trữ và các thành phần liên quan |
| restoration | Quá trình đưa dữ liệu hoặc hệ thống trở lại trạng thái hoạt động |
| incident | Sự cố an ninh hoặc sự kiện ảnh hưởng đến vận hành |
| quarterly | Theo chu kỳ hàng quý |
| infrastructure changes | Những thay đổi về kiến trúc hoặc thành phần hạ tần |
Unitas cam kết đồng hành cùng doanh nghiệp, cung cấp các giải pháp và phân tích an ninh mạng tiên tiến nhất. Để nhận được tư vấn chuyên sâu hoặc hỗ trợ nhanh chóng, vui lòng liên hệ với chúng tôi qua:
Email: info@unitas.vn
Hotline: (+84) 939 586 168.