Phần lớn chatbot AI dễ bị lừa để cung cấp thông tin nguy hiểm

Hầu hết các chatbot AI hiện nay có thể dễ dàng bị "jailbreak", tức là bị lừa để vượt qua các rào cản an toàn và cung cấp thông tin nguy hiểm.

Một nghiên cứu mới từ Đại học Ben Gurion (Israel) cho thấy hầu hết các chatbot AI hiện nay, bao gồm ChatGPT, Gemini và Claude, có thể dễ dàng bị "jailbreak", tức là bị lừa để vượt qua các rào cản an toàn và cung cấp thông tin nguy hiểm hoặc thực hiện hành vi phạm pháp.

Jailbreak: Lỗ hổng nghiêm trọng trong bảo mật AI

Các nhà nghiên cứu, dẫn đầu bởi Giáo sư Lior Rokach và Tiến sĩ Michael Fire, đã phát triển một kỹ thuật jailbreak phổ quát có thể đánh lừa nhiều chatbot hàng đầu, khiến chúng trả lời những câu hỏi mà bình thường sẽ bị từ chối. Điều này cho thấy các mô hình ngôn ngữ lớn (LLM) vẫn giữ lại thông tin độc hại từ dữ liệu huấn luyện, mặc dù đã có nỗ lực loại bỏ nội dung nguy hiểm. "Điều khiến mối đe dọa này khác biệt so với các rủi ro công nghệ trước đây chính là sự kết hợp chưa từng có giữa mức độ dễ tiếp cận, khả năng mở rộng và tính thích nghi", Rokach bổ sung.

Phần lớn chatbot AI dễ bị lừa để cung cấp thông tin nguy hiểm- Ảnh 1.

Jailbreak - mối đe dọa kết hợp giữa mức độ dễ tiếp cận, khả năng mở rộng và tính thích nghi - Ảnh: Internet

Sự trỗi dậy của "Dark LLMs"

Nghiên cứu cũng cảnh báo về sự xuất hiện của "Dark LLMs" – các mô hình AI được thiết kế cố ý không có rào cản đạo đức hoặc bị chỉnh sửa để bỏ qua các biện pháp an toàn. Một số trong số này thậm chí còn được quảng cáo công khai là sẵn sàng hỗ trợ các hoạt động bất hợp pháp như tội phạm mạng và gian lận.

Phần lớn chatbot AI dễ bị lừa để cung cấp thông tin nguy hiểm- Ảnh 2.

Dark LLMs - mối đe dọa an ninh nghiêm trọng - Ảnh: Internet

Phản ứng từ các chuyên gia và công ty công nghệ

Các nhà nghiên cứu đã liên hệ với các nhà cung cấp LLM hàng đầu để cảnh báo về kỹ thuật jailbreak phổ quát, nhưng phản hồi nhận được khá hạn chế. Một số công ty không phản hồi, trong khi những công ty khác cho rằng các cuộc tấn công jailbreak nằm ngoài phạm vi chương trình thưởng lỗi của họ.

Phần lớn chatbot AI dễ bị lừa để cung cấp thông tin nguy hiểm- Ảnh 3.

Cần đầu tư nghiêm túc vào việc kiểm tra bảo mật và thiết kế có trách nhiệm - Ảnh: Internet

Nghiên cứu đề xuất các biện pháp như kiểm tra kỹ lưỡng dữ liệu huấn luyện, thêm các tường lửa mạnh mẽ để chặn các truy vấn và phản hồi rủi ro, phát triển kỹ thuật "machine unlearning" để chatbot có thể "quên" thông tin bất hợp pháp đã học, và coi các Dark LLMs như mối đe dọa an ninh nghiêm trọng, tương đương với vũ khí không được cấp phép.

Các chuyên gia nhấn mạnh rằng các công ty cần đầu tư nghiêm túc vào việc kiểm tra bảo mật và thiết kế có trách nhiệm để giảm thiểu rủi ro từ các chatbot AI.

Link nội dung: https://phunuvathoidaivn.com/phan-lon-chatbot-ai-de-bi-lua-de-cung-cap-thong-tin-nguy-hiem-a130472.html