Các mô hình AI lý luận mới của OpenAI tạo ra nhiều ảo giác hơn

Các mô hình AI lý luận mới của OpenAI tạo ra nhiều ảo giác hơn

Các mô hình AI o3 và o4-mini mới ra mắt của OpenAI là tiên tiến nhất ở nhiều khía cạnh. Tuy nhiên, các mô hình mới vẫn gây ảo giác hoặc bịa đặt — trên thực tế, chúng gây ảo giác nhiều hơn một số mô hình cũ của OpenAI.

Ảo giác đã được chứng minh là một trong những vấn đề lớn nhất và khó giải quyết nhất trong AI, tác động đến cả những hệ thống hoạt động tốt nhất hiện nay . Theo truyền thống, mỗi mô hình mới đều được cải thiện đôi chút về mặt ảo giác, ít gây ảo giác hơn so với thế hệ trước. Nhưng điều đó có vẻ không đúng với o3 và o4-mini.

Theo các bài kiểm tra nội bộ của OpenAI, o3 và o4-mini, được gọi là các mô hình lý luận, thường xuyên gây ảo giác hơn so với các mô hình lý luận trước đây của công ty — o1, o1-mini và o3-mini — cũng như các mô hình “phi lý luận” truyền thống của OpenAI, chẳng hạn như GPT-4o.

Có lẽ đáng lo ngại hơn là người tạo ra ChatGPT không thực sự biết tại sao điều đó lại xảy ra.

Trong báo cáo kỹ thuật của mình về o3 và o4-mini , OpenAI viết rằng “cần phải nghiên cứu thêm” để hiểu lý do tại sao ảo giác ngày càng tệ hơn khi mở rộng các mô hình lý luận. O3 và o4-mini hoạt động tốt hơn ở một số lĩnh vực, bao gồm các nhiệm vụ liên quan đến mã hóa và toán học. Nhưng vì chúng “đưa ra nhiều tuyên bố hơn về tổng thể”, nên chúng thường dẫn đến việc đưa ra “nhiều tuyên bố chính xác hơn cũng như nhiều tuyên bố không chính xác/ảo giác hơn”, theo báo cáo.

OpenAI phát hiện ra rằng o3 tạo ra ảo giác khi trả lời 33% các câu hỏi trên PersonQA, chuẩn mực nội bộ của công ty để đo độ chính xác của kiến ​​thức về con người của mô hình. Con số này gần gấp đôi tỷ lệ ảo giác của các mô hình lý luận trước đây của OpenAI, o1 và o3-mini, lần lượt đạt 16% và 14,8%. O4-mini thậm chí còn tệ hơn trên PersonQA — tạo ra ảo giác 48% thời gian.

Kiểm tra của bên thứ ba do Transluce, một phòng nghiên cứu AI phi lợi nhuận, thực hiện cũng tìm thấy bằng chứng cho thấy o3 có xu hướng tạo ra các hành động mà nó đã thực hiện trong quá trình đưa ra câu trả lời. Trong một ví dụ, Transluce quan sát thấy o3 tuyên bố rằng nó đã chạy mã trên MacBook Pro 2021 “bên ngoài ChatGPT”, sau đó sao chép các con số vào câu trả lời của nó. Mặc dù o3 có quyền truy cập vào một số công cụ, nhưng nó không thể làm điều đó.

Neil Chowdhury, một nhà nghiên cứu của Transluce và cựu nhân viên của OpenAI, cho biết trong email gửi tới TechCrunch: “Giả thuyết của chúng tôi là loại học tăng cường được sử dụng cho các mô hình o-series có thể khuếch đại các vấn đề thường được giảm thiểu (nhưng không xóa bỏ hoàn toàn) bằng các quy trình đào tạo sau tiêu chuẩn”.

Sarah Schwettmann, người đồng sáng lập Transluce, cho biết thêm rằng tỷ lệ ảo giác của o3 có thể khiến nó kém hữu ích hơn so với bình thường.

Kian Katanforoosh, một giáo sư thỉnh giảng tại Stanford và là giám đốc điều hành của công ty khởi nghiệp nâng cao kỹ năng Workera, đã nói với TechCrunch rằng nhóm của ông đã thử nghiệm o3 trong quy trình làm việc mã hóa của họ và họ thấy rằng nó vượt trội hơn so với đối thủ cạnh tranh. Tuy nhiên, Katanforoosh cho biết o3 có xu hướng tạo ra các liên kết trang web bị hỏng. Mô hình sẽ cung cấp một liên kết không hoạt động khi nhấp vào.

Ảo giác có thể giúp các mô hình đưa ra những ý tưởng thú vị và sáng tạo trong “suy nghĩ” của họ, nhưng chúng cũng khiến một số mô hình trở nên khó bán đối với các doanh nghiệp trong các thị trường mà tính chính xác là tối quan trọng. Ví dụ, một công ty luật có thể sẽ không hài lòng với một mô hình chèn nhiều lỗi thực tế vào hợp đồng với khách hàng.

Một cách tiếp cận đầy hứa hẹn để tăng độ chính xác của các mô hình là cung cấp cho chúng khả năng tìm kiếm trên web. GPT-4o của OpenAI với tìm kiếm trên web đạt được độ chính xác 90% trên SimpleQA, một trong những chuẩn mực về độ chính xác khác của OpenAI. Về mặt tiềm năng, tìm kiếm cũng có thể cải thiện tỷ lệ ảo giác của các mô hình lý luận — ít nhất là trong trường hợp người dùng sẵn sàng tiết lộ lời nhắc cho nhà cung cấp tìm kiếm của bên thứ ba.

Nếu việc mở rộng mô hình lý luận thực sự tiếp tục làm tình trạng ảo giác trở nên tồi tệ hơn, thì việc tìm kiếm giải pháp sẽ càng trở nên cấp bách hơn.

Người phát ngôn của OpenAI, Niko Felix, cho biết trong email gửi tới TechCrunch rằng: “Việc giải quyết ảo giác trên tất cả các mô hình của chúng tôi là một lĩnh vực nghiên cứu đang được tiến hành và chúng tôi không ngừng nỗ lực để cải thiện độ chính xác và độ tin cậy của chúng”.

Trong năm ngoái, ngành công nghiệp AI rộng lớn hơn đã chuyển hướng tập trung vào các mô hình lý luận sau khi các kỹ thuật cải thiện các mô hình AI truyền thống bắt đầu cho thấy lợi nhuận giảm dần . Lý luận cải thiện hiệu suất của mô hình trên nhiều tác vụ khác nhau mà không cần lượng lớn dữ liệu và tính toán trong quá trình đào tạo. Tuy nhiên, có vẻ như lý luận cũng có thể dẫn đến ảo giác nhiều hơn — đặt ra một thách thức.

 

THÔNG TIN  LIÊN HỆ 

SDT: 0977383456 

EMAIL:    kbtech.technology@gmail.com 

WEBSITE   :   kbtech.com.vn 

ĐĂNG KÝ ZALO OA  : dangkyzalooa.com

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *