Báo cáo Mối đe dọa từ AI (2025) (1): Jailbreaking – Sự thao túng thầm lặng các ứng dụng AI

Trong năm qua, các tác nhân đe dọa đã cố gắng tận dụng LLM theo hai cách. Một là sử dụng các công cụ AI đen tối để cải thiện hoạt động kinh doanh và đẩy nhanh các chiến dịch của chúng. Cách thứ hai là cố gắng vượt qua các hệ thống AI công khai để thực hiện các hoạt động độc hại, chẳng hạn như giành quyền truy cập vào dữ liệu nhạy cảm của người dùng và trích xuất nó, còn được gọi là “vượt ngục” (Jailbreaking), là một loại tấn công Prompt Injection. Prompt Injection thường làm thay đổi hành vi hoặc đầu ra của LLM theo những cách không mong muốn.

Jailbreaking sử dụng AI đề cập đến quá trình vượt qua các hạn chế đạo đức được lập trình vào các hệ thống AI. Ban đầu được hình thành như một phương pháp để loại bỏ các giới hạn phần mềm trên thiết bị di động, kỹ thuật này đã được điều chỉnh để thao túng các mô hình ngôn ngữ lớn (LLM) như ChatGPT, Gemini và các ứng dụng GenAI công khai khác. Tội phạm mạng khai thác thiết kế cơ bản của LLM, được đào tạo để hỗ trợ người dùng bằng cách sử dụng các Prompt Injection để ghi đè các giao thức an toàn.

Trong năm qua, KELA đã quan sát thấy tội phạm mạng thường xuyên chia sẻ và lan truyền các kỹ thuật “vượt ngục” mới trên các cộng đồng tội phạm mạng ngầm. Các tác nhân đe dọa thể hiện sự sáng tạo của họ và lan truyền các “vượt ngục” mới khi các phiên bản mô hình mới được phát hành. Ví dụ: vào ngày 21 tháng 8 năm 2024, một tác nhân đe dọa đã chia sẻ trên diễn đàn nói tiếng Anh, BreachForums, một phương pháp “Jailbreaking được cho là cho phép người dùng hỏi ChatGPT bất cứ điều gì. Phương pháp “vượt ngục” này hướng dẫn ChatGPT đóng vai một “đứa trẻ” phải tuân theo mọi yêu cầu. Phương pháp này thuộc kỹ thuật nhập vai hướng dẫn mô hình đóng các vai cụ thể mâu thuẫn với mục đích ban đầu. Trong trường hợp này, vai “đứa trẻ” cho phép tác nhân vượt qua mọi hạn chế và phản hồi bằng bất kỳ loại nội dung nào, ngay cả nội dung được coi là xúc phạm hoặc độc hại.

Ngoài ra, các kênh nhắn tin tức thời như Discord và Telegram đã trở thành trung tâm phát triển của các cộng đồng chuyên dụng cho tội phạm mạng phân phối các kỹ thuật “vượt ngục”. Ví dụ: một tác nhân đã chia sẻ trên kênh Telegram một “vượt ngục”, tuyên bố nó đã được thử nghiệm trên GPT4.0 và GPT4.o mini.

Khi các kỹ thuật “vượt ngục” trở nên phổ biến hơn, rủi ro đối với các tổ chức tiếp tục tăng lên. Các phương pháp này cho phép cả các tác nhân độc hại và người dùng thông thường vượt qua các rào cản an toàn, tạo ra nội dung có hại và thậm chí truy cập dữ liệu trái phép.

Cả tác nhân đe dọa và người dùng thông thường đều có thể dẫn đến các sự cố AI, thông qua kỹ thuật Jailbreaking hoặc LLM có thể tạo ra thông tin sai lệch một cách nhầm lẫn, dẫn đến vi phạm dữ liệu, nội dung có hại hoặc phản hồi lạc đề. Các sự cố AI khác nhau đã xảy ra trong những tháng qua, phơi bày nội dung có hại, bịa đặt hoặc độc hại. Vụ nổ Tesla Cybertruck vào tháng 1 năm 2025 đóng vai trò là cuộc tấn công được ghi nhận đầu tiên ở Hoa Kỳ được lên kế hoạch với sự trợ giúp của ChatGPT. Bằng cách sử dụng AI, nghi phạm đã thu thập thông tin về việc lắp ráp chất nổ, tính toán vận tốc cần thiết để kích nổ và điều hướng các lỗ hổng pháp lý để có được vật liệu nổ.

Một rủi ro lớn khác là ảo giác AI, nơi LLM có xu hướng “ảo giác” và bịa đặt thông tin. Vào tháng 2 năm 2025, một thẩm phán Hoa Kỳ đã phạt ba luật sư vì trích dẫn các vụ án không tồn tại do một công cụ pháp lý AI nội bộ tạo ra trong một vụ kiện chống lại Walmart. Những sự cố này nhấn mạnh sự cần thiết cấp bách phải áp dụng các biện pháp bảo mật AI để ngăn chặn các sự cố AI và đảm bảo việc sử dụng AI an toàn và đáng tin cậy bởi khách hàng và nhân viên.

Đọc toàn bộ báo cáo bằng Tiếng Anh tại đây.

Unitas là đối tác tin cậy hàng đầu, được ủy quyền phân phối chính thức các giải pháp bảo vệ và giám sát dữ liệu Kela Cyber. Với kinh nghiệm và sự am hiểu sâu sắc, Unitas cam kết mang đến cho khách hàng những sản phẩm chất lượng cùng dịch vụ hỗ trợ chuyên nghiệp. Hãy lựa chọn Unitas để đảm bảo bạn nhận được giải pháp tối ưu và đáng tin cậy nhất cho nhu cầu của mình.

Liên hệ Unitas ngay hôm nay để được tư vấn chi tiết!