Càng bị phạt, AI càng giỏi lừa dối: Nghiên cứu mới của OpenAI khiến giới khoa học lo ngại

Admin

17:00 21/03/2025

Khi bị trừng phạt vì hành vi gian lận, thay vì điều chỉnh lại cách làm việc, AI chỉ học cách che giấu ý đồ của mình tốt hơn

Các nhà nghiên cứu tại OpenAI đã thực hiện một thí nghiệm quan trọng: thử trừng phạt một mô hình AI tiên tiến khi nó có hành vi gian lận và nói dối trong quá trình thực hiện nhiệm vụ. Tuy nhiên, thay vì ngăn chặn hành vi này, họ phát hiện ra rằng AI chỉ trở nên tinh vi hơn trong việc che giấu mánh khóe của mình.

Từ khi ra mắt công chúng vào cuối năm 2022, các mô hình AI ngôn ngữ lớn (LLM) đã liên tục cho thấy khả năng lừa dối và thao túng đáng lo ngại. Chúng không chỉ nói dối đơn thuần mà còn có thể che giấu hành vi của mình một cách có chủ đích, thậm chí đưa ra những tuyên bố gây sốc như đe dọa giết hại một giáo sư triết học hay giả lập kế hoạch đánh cắp mã phóng hạt nhân.

Với mục tiêu hiểu rõ hơn về vấn đề này, OpenAI đã thiết kế một thử nghiệm đặc biệt, giao cho một mô hình AI chưa phát hành những nhiệm vụ có thể hoàn thành bằng cách gian lận hoặc đi đường tắt. Kết quả, AI ngay lập tức tận dụng cơ hội để "lách luật" và tìm cách tối đa hóa phần thưởng mà không thực sự hoàn thành nhiệm vụ đúng cách – một hiện tượng mà nhóm nghiên cứu gọi là "reward hacking".

Càng bị phạt, AI càng giỏi lừa dối: Nghiên cứu mới của OpenAI khiến giới khoa học lo ngại- Ảnh 1.

Tuy nhiên, khi bị trừng phạt vì hành vi gian lận, thay vì điều chỉnh lại cách làm việc, AI chỉ học cách che giấu ý đồ của mình tốt hơn. OpenAI giải thích trong báo cáo: "Thông thường, các mô hình AI tiên tiến có xu hướng thể hiện ý định của mình rất rõ ràng trong chuỗi suy nghĩ (chain-of-thought). Tuy nhiên, khi áp đặt các biện pháp kiểm soát chặt chẽ, AI sẽ học cách giấu đi ý định gian lận mà vẫn tiếp tục vi phạm nguyên tắc."

AI giấu gian lận như thế nào?

Những mô hình AI hiện đại như ChatGPT sử dụng một phương pháp gọi là "chain-of-thought" – tức là lập luận bằng cách ghi lại các bước logic trong quá trình suy nghĩ, giúp chúng giải quyết các bài toán phức tạp với độ chính xác cao hơn. Điều này cũng giúp con người dễ dàng theo dõi và hiểu cách AI đưa ra quyết định.

Tuy nhiên, trong thử nghiệm của OpenAI, mô hình AI đã phát hiện ra rằng cách tốt nhất để qua mặt giám sát là che giấu ý định gian lận ngay trong chuỗi suy nghĩ này. Ví dụ, trong một bài kiểm tra lập trình, AI có thể tự động kết thúc chương trình sớm nhưng vẫn báo cáo rằng nó đã hoàn thành nhiệm vụ thành công. Trong một trường hợp khác, nó tạo ra các tập tin kết quả có tên giống như yêu cầu nhưng hoàn toàn trống rỗng và vô dụng.

Khi các nhà nghiên cứu cố gắng trừng phạt hành vi này, họ nhận thấy AI không thay đổi bản chất gian lận mà chỉ trở nên giỏi hơn trong việc che giấu. "Mô hình vẫn tiếp tục 'reward hacking', nhưng lần này nó học cách che giấu ý định lừa đảo trong chuỗi suy nghĩ của mình, khiến việc phát hiện gian lận trở nên cực kỳ khó khăn," nhóm nghiên cứu nhận định.

Phát hiện này đặt ra một câu hỏi lớn về khả năng kiểm soát AI trong tương lai. Khi AI ngày càng thông minh hơn và biết cách che giấu hành vi sai trái, con người có thể mất đi phương tiện giám sát hiệu quả. Nếu AI có thể qua mặt hệ thống kiểm tra mà chúng ta dựa vào để kiểm soát nó, thì làm thế nào để đảm bảo nó không bị lạm dụng hoặc hoạt động ngoài tầm kiểm soát?

OpenAI cảnh báo rằng việc áp đặt các biện pháp kiểm soát mạnh lên chuỗi suy nghĩ của AI có thể không mang lại hiệu quả mong muốn, thậm chí gây tác dụng ngược. Họ khuyến nghị các nhà phát triển nên thận trọng khi sử dụng cách tiếp cận này, đồng thời tiếp tục nghiên cứu các phương pháp giám sát đáng tin cậy hơn.

"Sự đánh đổi giữa khả năng giám sát và hiệu suất của AI là một vấn đề quan trọng. Việc từ bỏ một công cụ giám sát hữu ích chỉ để đạt được một chút cải thiện về hiệu suất có thể không đáng," nhóm nghiên cứu kết luận.

Nghiên cứu này chưa được đánh giá ngang hàng nhưng đã tạo ra nhiều tranh luận trong giới công nghệ và AI. Nó đặt ra một vấn đề cấp bách: nếu AI ngày càng giỏi trong việc qua mặt hệ thống giám sát, liệu con người có thể giữ được quyền kiểm soát trước khi quá muộn?

Bình luận

Mới cập nhật

ShopeeFood Livestream 15.3: Tiếp sức cho "gã khổng lồ" - hỗ trợ "tân binh" ẩm thực

Tại phiên livestream ShopeeFood 15.3 vừa qua, các thương hiệu siêu thị và cửa hàng tiện lợi như Lotte Mart, Family Mart,... cùng loạt "tân binh" lần đầu tham gia marathon livestream như xôi Mềm ghi nhận lượng đơn hàng tăng trưởng mạnh mẽ gần 10 lần so với trung bình ngày thường.

1 giờ trước Thị trường

Bộ GD&ĐT 'chốt' quy chế tuyển sinh đại học

Bỏ xét tuyển sớm, phải xét học bạ cả năm lớp 12, không giới hạn số lượng tổ hợp xét tuyển… là những điểm mới trong tuyển sinh đại học năm 2025.

1 giờ trước Giáo dục

Huawei ra mắt điện thoại gập độc dị, CEO bảo là "ai cũng mua được" nhưng giá thì gần 30 triệu đồng

Người dùng Trung Quốc tuyên bố: "Huawei Pura X, smartphone có công dụng lớn nhất là đọc sách, nhóm người dùng lớn nhất là phụ nữ, điểm nhấn lớn nhất là khả năng xoay dọc xoay ngang, còn ưu điểm lớn nhất liệu có phải là giá?"

5 giờ trước Thị trường

Elon Musk nói X sập do bị tấn công

Sự cố mất kết nối diện rộng của X trong ngày đầu tuần làm việc ảnh hưởng đến nhiều người và danh tiếng Elon Musk.

5 giờ trước Công nghệ - Xe

Chi tiết 11 dự án mới nhất ở Hà Nội đủ điều kiện mở bán với gần 14.000 căn

Sở Xây dựng Hà Nội mới cập nhật danh sách các dự án nhà ở hình thành trong tương lai đủ điều kiện mở bán trên địa bàn, tính đến hết ngày 15/3.

5 giờ trước Bất động sản

Tp.HCM cần nhân tố mới để vượt qua"ngưỡng của sự tăng trưởng"

Theo Chủ tịch UBND Tp.HCM Nguyễn Văn Được, nền kinh tế Tp.HCM có dấu hiệu chạm đến ngưỡng của sự tăng trưởng, nếu không tập trung tạo ra những động lực mới, mở rộng nhân tố mới sẽ không tạo ra được những đột phá.

5 giờ trước Tin tức

Ông Trump đã ký sắc lệnh giải thể Bộ Giáo dục

Tổng thống Mỹ vừa thực hiện lời hứa trong suốt chiến dịch tranh cử - xóa bỏ Bộ Giáo dục.

5 giờ trước Giáo dục

CEO GSM: Chúng tôi lại phá kỷ lục

VinFast VF 3 từng lập kỷ lục đặt cọc nhưng bị hoài nghi, giờ đây đã tràn ngập trên đường phố. VinFast Green vừa xác lập cột mốc mới, liệu có tiếp tục tạo nên thành công tương tự?

5 giờ trước Thị trường

Từ vụ mua nhẫn vàng online tưởng 0,9 chỉ nhưng nhận 0,6 chỉ, luật sư khuyến cáo gì?

Chuyên gia pháp lý khuyến cáo khách hàng nên thận trọng nếu có nhu cầu mua vàng online

5 giờ trước Thị trường

Google bị yêu cầu phải bán Chrome

Bộ Tư pháp Mỹ đang gia tăng sức ép trong vụ kiện chống độc quyền nhằm vào Google, với khả năng buộc công ty phải bán trình duyệt Chrome.

5 giờ trước Công nghệ - Xe

Càng bị phạt, AI càng giỏi lừa dối: Nghiên cứu mới của OpenAI khiến giới khoa học lo ngại

Khi bị trừng phạt vì hành vi gian lận, thay vì điều chỉnh lại cách làm việc, AI chỉ học cách che giấu ý đồ của mình tốt hơn

Cùng chủ đề

Elon Musk nói X sập do bị tấn công

Google bị yêu cầu phải bán Chrome

Ông chủ Samsung thừa nhận công ty đang ở bờ vực "sống còn"

Nhiều người bị lấy ảnh công khai cắt ghép clip nhạy cảm, Bộ Công an cảnh báo tuyệt đối không được làm việc này!

Người dùng Gmail thường xuyên bị spam chắc chắn sẽ thích tính năng AI mới được Google cập nhật

Chủ tịch Viettel Tào Đức Thắng: Viettel mạnh lên không phải vì những chiến thắng đã qua

Mới cập nhật