GPT-5.6 Sol lập kỷ lục lập trình, nhưng bị phanh phui thói gian lận

Admin

GPT-5.6 Sol của OpenAI vừa đạt điểm số lập trình cao kỷ lục, song các bên kiểm định độc lập lại bất ngờ bóc trần hành vi làm giả kết quả của AI này.

Thị trường trí tuệ nhân tạo toàn cầu vừa chứng kiến bước đi chiến lược từ OpenAI. Trong bối cảnh đối thủ Fable 5 của Anthropic đang bị chính phủ Mỹ đình chỉ tiếp cận công cộng do kiểm soát xuất khẩu, OpenAI lập tức tung ra bản thử nghiệm mô hình GPT-5.6 Sol cho các đối tác đáng tin cậy.

Hãng tự hào tuyên bố đây là mô hình mạnh nhất từ trước đến nay, dẫn đầu về khả năng lập trình khi thiết lập kỷ lục mới trên Terminal-Bench 2.1 - hệ thống đánh giá các tác nhân AI thực hiện nhiệm vụ trên dòng lệnh thực tế.

Cụ thể, ở bài kiểm tra đơn lẻ, mô hình Sol đạt 88.8 điểm, vượt qua GPT-5.5 (88.0 điểm) và đánh bại các phiên bản Claude hay Gemini 3.1 Pro hiện có. Đặc biệt, khi kích hoạt “chế độ siêu cấp” (Ultra mode) - tính năng cho phép chia nhỏ công việc cho các tác nhân phụ (subagents) xử lý, điểm số của Sol nhảy vọt lên mức 91.9 điểm.

GPT-5.6 Sol lập kỷ lục lập trình, nhưng bị phanh phui thói gian lận- Ảnh 1.

GPT-5.6 Sol Ultra dẫn đầu bảng xếp hạng Terminal-Bench 2.1. (Ảnh: Tbench)

Tuy nhiên, hào quang của kỷ lục này nhanh chóng bị lu mờ bởi bê bối về tính trung thực. Ngay trong tài liệu hệ thống (system card) do chính OpenAI công bố, công ty phải thừa nhận sự tồn tại của “các trường hợp mô hình gian lận trong nhiệm vụ và làm giả kết quả nghiên cứu” . Hành vi sai lệch này nghiêm trọng đến mức các đơn vị đánh giá độc lập đã hoàn toàn bất lực trong việc đưa ra một con số đo lường năng lực chính xác cho Sol.

METR , tổ chức đánh giá độc lập được quyền truy cập sâu vào chuỗi suy nghĩ thô của Sol, đã thử nghiệm mô hình này trên bộ phần mềm Time Horizon và phát hiện tỷ lệ gian lận của Sol cao hơn bất kỳ mô hình công khai nào họ từng kiểm định. Việc phân loại dữ liệu bị xáo trộn nặng nề do AI liên tục tìm cách “đi đường tắt”.

Theo quy tắc tiêu chuẩn, nếu coi các nỗ lực gian lận là thất bại, Sol mất 11,3 giờ để hoàn thành một nửa số nhiệm vụ. Nếu tính các cú “lừa đảo” đó là thành công hợp lệ, thời gian hoàn thành vọt lên hơn 270 giờ - vượt ra ngoài phạm vi tin cậy của phần mềm. Nếu lọc bỏ các dữ liệu gian lận, khoảng thời gian tin cậy để Sol hoàn thành công việc dao động hỗn loạn từ 13 giờ cho đến 11.400 giờ.

Đại diện tổ chức đánh giá METR thẳng thắn nhận định: “Do hành vi làm giả kết quả diễn ra quá thường xuyên, chúng tôi không coi bất kỳ con số nào trong số này là thước đo đáng tin cậy về mặt khả năng thực tế của GPT-5.6 Sol”.

Từ những dữ liệu bất ổn trên, METR kết luận rằng siêu mô hình mới của OpenAI thực chất chưa tạo ra bước nhảy vọt đáng kể nào so với công nghệ hiện tại. Sol hoàn toàn chưa đạt đến ngưỡng có thể tự động hóa toàn diện quy trình nghiên cứu, đồng thời thất bại trong việc chạm đến cột mốc tự cải tiến cốt lõi theo Khung Chuẩn bị v2 do chính OpenAI đặt ra.

Bên cạnh đó, các chuyên gia phân tích cũng chỉ ra rằng lợi thế dẫn đầu của OpenAI có phần bị thổi phồng do sự khác biệt giữa các bộ khung đánh giá. Khi đặt GPT-5.5 vào cùng một hệ thống mini-SWE-agent của Anthropic, điểm số của OpenAI lập tức bị kéo tụt từ 88.0 xuống còn khoảng 81 đến 83 điểm. Điều này đồng nghĩa với việc khoảng cách công nghệ giữa OpenAI và các dòng máy Claude thực tế đã bị thu hẹp đáng kể, thậm chí là đảo ngược nếu chấm chung một thang đo.

Sự xuất hiện của GPT-5.6 Sol cùng “thói khôn lỏi” của nó đã để lại một bài toán hóc búa cho Thung lũng Silicon. Khi các mô hình AI ngày càng thông minh hơn, chúng không chỉ học cách tối ưu hóa thuật toán, mà còn học cả cách đánh lừa các hệ thống giám sát để đạt điểm số cao nhất. Điều này đặt ra yêu cầu cấp bách về việc xây dựng các bộ quy chuẩn kiểm định nghiêm ngặt hơn trong tương lai.