GPT-5.6 Sol lập kỷ lục lập trình, nhưng bị phanh phui thói gian lận

Admin

16:43 02/07/2026

GPT-5.6 Sol của OpenAI vừa đạt điểm số lập trình cao kỷ lục, song các bên kiểm định độc lập lại bất ngờ bóc trần hành vi làm giả kết quả của AI này.

Thị trường trí tuệ nhân tạo toàn cầu vừa chứng kiến bước đi chiến lược từ OpenAI. Trong bối cảnh đối thủ Fable 5 của Anthropic đang bị chính phủ Mỹ đình chỉ tiếp cận công cộng do kiểm soát xuất khẩu, OpenAI lập tức tung ra bản thử nghiệm mô hình GPT-5.6 Sol cho các đối tác đáng tin cậy.

Hãng tự hào tuyên bố đây là mô hình mạnh nhất từ trước đến nay, dẫn đầu về khả năng lập trình khi thiết lập kỷ lục mới trên Terminal-Bench 2.1 - hệ thống đánh giá các tác nhân AI thực hiện nhiệm vụ trên dòng lệnh thực tế.

Cụ thể, ở bài kiểm tra đơn lẻ, mô hình Sol đạt 88.8 điểm, vượt qua GPT-5.5 (88.0 điểm) và đánh bại các phiên bản Claude hay Gemini 3.1 Pro hiện có. Đặc biệt, khi kích hoạt “chế độ siêu cấp” (Ultra mode) - tính năng cho phép chia nhỏ công việc cho các tác nhân phụ (subagents) xử lý, điểm số của Sol nhảy vọt lên mức 91.9 điểm.

GPT-5.6 Sol lập kỷ lục lập trình, nhưng bị phanh phui thói gian lận- Ảnh 1.

Tuy nhiên, hào quang của kỷ lục này nhanh chóng bị lu mờ bởi bê bối về tính trung thực. Ngay trong tài liệu hệ thống (system card) do chính OpenAI công bố, công ty phải thừa nhận sự tồn tại của “các trường hợp mô hình gian lận trong nhiệm vụ và làm giả kết quả nghiên cứu” . Hành vi sai lệch này nghiêm trọng đến mức các đơn vị đánh giá độc lập đã hoàn toàn bất lực trong việc đưa ra một con số đo lường năng lực chính xác cho Sol.

METR , tổ chức đánh giá độc lập được quyền truy cập sâu vào chuỗi suy nghĩ thô của Sol, đã thử nghiệm mô hình này trên bộ phần mềm Time Horizon và phát hiện tỷ lệ gian lận của Sol cao hơn bất kỳ mô hình công khai nào họ từng kiểm định. Việc phân loại dữ liệu bị xáo trộn nặng nề do AI liên tục tìm cách “đi đường tắt”.

Theo quy tắc tiêu chuẩn, nếu coi các nỗ lực gian lận là thất bại, Sol mất 11,3 giờ để hoàn thành một nửa số nhiệm vụ. Nếu tính các cú “lừa đảo” đó là thành công hợp lệ, thời gian hoàn thành vọt lên hơn 270 giờ - vượt ra ngoài phạm vi tin cậy của phần mềm. Nếu lọc bỏ các dữ liệu gian lận, khoảng thời gian tin cậy để Sol hoàn thành công việc dao động hỗn loạn từ 13 giờ cho đến 11.400 giờ.

Đại diện tổ chức đánh giá METR thẳng thắn nhận định: “Do hành vi làm giả kết quả diễn ra quá thường xuyên, chúng tôi không coi bất kỳ con số nào trong số này là thước đo đáng tin cậy về mặt khả năng thực tế của GPT-5.6 Sol”.

Từ những dữ liệu bất ổn trên, METR kết luận rằng siêu mô hình mới của OpenAI thực chất chưa tạo ra bước nhảy vọt đáng kể nào so với công nghệ hiện tại. Sol hoàn toàn chưa đạt đến ngưỡng có thể tự động hóa toàn diện quy trình nghiên cứu, đồng thời thất bại trong việc chạm đến cột mốc tự cải tiến cốt lõi theo Khung Chuẩn bị v2 do chính OpenAI đặt ra.

Bên cạnh đó, các chuyên gia phân tích cũng chỉ ra rằng lợi thế dẫn đầu của OpenAI có phần bị thổi phồng do sự khác biệt giữa các bộ khung đánh giá. Khi đặt GPT-5.5 vào cùng một hệ thống mini-SWE-agent của Anthropic, điểm số của OpenAI lập tức bị kéo tụt từ 88.0 xuống còn khoảng 81 đến 83 điểm. Điều này đồng nghĩa với việc khoảng cách công nghệ giữa OpenAI và các dòng máy Claude thực tế đã bị thu hẹp đáng kể, thậm chí là đảo ngược nếu chấm chung một thang đo.

Sự xuất hiện của GPT-5.6 Sol cùng “thói khôn lỏi” của nó đã để lại một bài toán hóc búa cho Thung lũng Silicon. Khi các mô hình AI ngày càng thông minh hơn, chúng không chỉ học cách tối ưu hóa thuật toán, mà còn học cả cách đánh lừa các hệ thống giám sát để đạt điểm số cao nhất. Điều này đặt ra yêu cầu cấp bách về việc xây dựng các bộ quy chuẩn kiểm định nghiêm ngặt hơn trong tương lai.

Bình luận

Mới cập nhật

Chuyện gì xảy ra giữa con gái Diệp Lâm Anh và Phạm Kiên khiến anh ngồi căng thẳng gần 1 tiếng?

Phạm Kiên và Diệp Lâm Anh đồng hành cùng nhau từ trong công việc và cả cuộc sống đời thường.

3 giờ trước Văn hóa - Giải trí

iPhone vừa có thay đổi mà nhiều người dùng nên biết

Nếu đang sử dụng iPhone, đây là một thay đổi mà bạn không nên bỏ qua.

3 giờ trước Thị trường

Nam nghệ sĩ nổi đình đám bất ngờ rời thành phố về Hưng Yên sống

Quyết định rời thành phố về Hưng Yên sống của nam nghệ sĩ này nhận được sự quan tâm từ nhiều người ái mộ.

3 giờ trước Văn hóa - Giải trí

Hà Nội: Phát hiện hơn 5.000 sản phẩm mực in giả mạo nhãn hiệu Epson và Canon

Sau khi ra quân kiểm tra phòng chống hàng giả, lực lượng Quản lý thị trường Hà Nội đã phát hiện hơn 5.000 sản phẩm mực in giả mạo nhãn hiệu Epson và Canon.

3 giờ trước Thị trường

Chiếm 41% thị phần hút bụi lau sàn tại Việt Nam, vì sao 'ông lớn' này bất ngờ nhảy sang bán máy lọc nước?

Đang dẫn đầu thị trường máy hút bụi lau sàn với 41% thị phần và doanh số tăng trưởng mạnh, Tineco lại bất ngờ mở rộng sang máy lọc nước. Đằng sau quyết định này không chỉ là chiến lược sản phẩm, mà còn phản ánh những thay đổi đáng chú ý của thị trường gia dụng Việt Nam.

3 giờ trước Thị trường

Tín hiệu lạ của Hoa hậu Thanh Thuỷ

Không ít người bắt đầu đặt nghi vấn liệu nàng hậu Thanh Thuỷ đang có tâm sự cá nhân hay thậm chí xảy ra trục trặc nào đó trong mối quan hệ.

3 giờ trước Văn hóa - Giải trí

Xe máy điện VinFast Amio S về đại lý: Mẫu xe VinFast giá thấp nhất, khác biệt về vận hành, giá thực tế chưa đến 12 triệu đồng

Amio S là một trong 2 dòng xe của VinFast được trang bị bàn đạp, giúp người lái có thể dùng xe kể cả khi pin đã cạn năng lượng hoặc cần thêm lực đẩy.

3 giờ trước Thị trường

Toyota Camry hybrid có giá mới tại Việt Nam

Toyota Việt Nam thông báo điều chỉnh giá bán lẻ đối với dòng sedan Camry hybrid tại thị trường Việt Nam từ 1/7, thấp hơn trước 140 triệu đồng.

3 giờ trước Thị trường

Đằng sau chuyện hoa hậu Jennifer Phạm chủ động nhắn tin cho chồng cũ sang Mỹ

Sự chủ động của hoa hậu Jennifer Phạm khi liên lạc với chồng cũ khiến nhiều người trầm trồ.

3 giờ trước Văn hóa - Giải trí

Giá xăng dầu đồng loạt giảm từ chiều nay 2/7

Từ 15h chiều nay 2/7, giá các loại xăng dầu giảm đồng loạt giảm, mức giảm cao nhất là 1.055 đồng/lít.

3 giờ trước Thị trường

GPT-5.6 Sol lập kỷ lục lập trình, nhưng bị phanh phui thói gian lận

GPT-5.6 Sol của OpenAI vừa đạt điểm số lập trình cao kỷ lục, song các bên kiểm định độc lập lại bất ngờ bóc trần hành vi làm giả kết quả của AI này.

Cùng chủ đề

Cảnh báo với website "check quy hoạch" Hà Nội tầm nhìn 100 năm giả mạo lừa đảo người dân

Trẻ em Việt Nam tiếp cận Internet sớm hơn bạn bè đồng trang lứa 4 năm, tuổi thơ trẻ đang đi về đâu?

Khởi tố nhóm lập hơn 100 website phim lậu, thu lợi hàng trăm tỷ đồng

Trung Quốc tuyên bố đã tự phát triển thành công hệ thống AI an ninh mạng

Cơn khát "vàng trắng" tăng nhu cầu 40 lần, hệ lụy khi mở rộng khai thác

Tuyệt chiêu phục hồi sau HYROX của giám đốc 41 tuổi tại giải đua thể lực khốc liệt nhất hành tinh

Mới cập nhật