Chứng kiến những khả năng độc đáo của các mô hình Ngôn ngữ lớn – các LLMs – công nghệ nền tảng cho những chatbot AI đình đám hiện nay như ChatGPT, Gemini và Copilot, nhiều người đang lo ngại về một tương lai u ám khi các cỗ máy này có thể suy nghĩ như con người. Tuy nhiên, những nhà nghiên cứu AI tại Apple lại không nghĩ vậy. Theo một nghiên cứu của họ mới được công bố, các LLMs hiện tại còn xa mới đạt tới khả năng suy luận như con người.
Thay vì các công cụ thông thường, người đứng đầu nghiên cứu này của Apple, ông Samy Bengio, đã sử dụng một công cụ mới có tên GSM-Symbolic. Phương pháp này được xây dựng dựa trên các tập dữ liệu như GSM8K, nhưng bổ sung thêm các mẫu ký hiệu phức tạp hơn để đánh giá hiệu năng AI.
Bài kiểm tra được các nhà nghiên cứu AI của Apple thực hiện đối với cả những mô hình mã nguồn mở như Llama của hãng Meta cũng như các mô hình độc quyền như dòng o1 mới của OpenAI. Kết quả cho thấy, ngay cả mô hình có điểm chuẩn cao nhất như o1 của OpenAI cũng không đạt được các kỹ năng suy luận thông thường.
Một điều thú vị mà nhóm nghiên cứu nhận thấy là khả năng trả lời câu hỏi của các mô hình này có thể dễ dàng bị phá hỏng chỉ với một số thay đổi nhỏ. Ví dụ họ chỉ cần thêm vào một câu vu vơ nào đó vào bài toán – một tinh chỉnh nhỏ nào đó – cũng có thể làm hỏng câu trả lời của hầu hết các mô hình, bao gồm cả o1 mới của OpenAI.
Trưởng nhóm dự án, ông Mehrdad Farajtabar, nhấn mạnh rằng ngay cả một thay đổi nhỏ như vậy cũng gây ra sự sụt giảm đáng kể về độ chính xác. Ông Farajtabar cho biết điều này sẽ không thể xảy ra trong suy luận của con người - việc thay đổi tên trong một bài toán không ảnh hưởng đến khả năng giải bài của học sinh. Tuy nhiên, đối với các mô hình AI này, những thay đổi như vậy dẫn đến sự sụt giảm độ chính xác từ 10% trở lên, gây ra những lo ngại nghiêm trọng về tính ổn định của chúng.
Nói cách khác, khó có thể gọi các mô hình LLMs hiện nay là có khả năng suy luận, chúng chỉ đơn thuần làm theo các khuôn mẫu phức tạp có sẵn trong kho dữ liệu mà thôi.
Những phát hiện này đặt ra một số vấn đề đáng lo ngại cho các ứng dụng AI trong các lĩnh vực như chăm sóc sức khỏe, ra quyết định và giáo dục, nơi tính nhất quán logic là điều bắt buộc. Nếu không cải thiện khả năng suy luận logic, các hệ thống AI hiện tại có thể gặp khó khăn khi hoạt động trong môi trường phức tạp hoặc quan trọng hơn.
Nghiên cứu cũng đặt câu hỏi về độ tin cậy của các tiêu chuẩn như GSM8K, nơi các mô hình AI như GPT-4o đạt điểm cao tới 95%, một bước nhảy vọt so với 35% của GPT-3 chỉ vài năm trước đây. Tuy nhiên, theo nhóm nghiên cứu của Apple, những cải tiến này có thể do việc đưa dữ liệu huấn luyện vào các bộ kiểm tra.
Sự bất đồng giữa hai tổ chức nghiên cứu AI hàng đầu là đáng chú ý. Hiện tại OpenAI coi mô hình o1 của mình là một bước đột phá trong suy luận, tuyên bố đây là một trong những bước đầu tiên hướng tới việc phát triển các tác nhân AI thực sự có logic. Trong khi đó, nhóm của Apple, được hỗ trợ bởi các nghiên cứu khác, lập luận rằng có rất ít bằng chứng để ủng hộ tuyên bố này.
Garcy Marcus, một nhà phê bình lâu năm về các mạng nơ-ron nhân tạo, đã đồng tình với những lo ngại này trong nghiên cứu của Apple. Ông chỉ ra rằng nếu không có một số hình thức suy luận ký hiệu được tích hợp vào hệ thống AI, các mô hình như o1 của OpenAI sẽ tiếp tục thiếu sót trong các lĩnh vực đòi hỏi tư duy logic, bất kể chúng được đào tạo với bao nhiêu dữ liệu.