OpenAI hé lộ mô hình lý luận mới—nhưng đừng mong đợi thử nghiệm sớm

Vào ngày cuối cùng của ship-mas, OpenAI đã xem trước một bộ mô hình “lý luận” biên giới mới được gọi là o3 và o3-mini. The Verge lần đầu tiên đưa tin rằng một mô hình lý luận mới sẽ ra mắt trong sự kiện này.

Công ty không phát hành các mô hình này ngày hôm nay (và thừa nhận kết quả cuối cùng có thể thay đổi sau khi đào tạo). Tuy nhiên, OpenAI đang chấp nhận các ứng dụng từ cộng đồng nghiên cứu để thử nghiệm các hệ thống này trước khi phát hành công khai (mà công ty vẫn chưa ấn định ngày). OpenAI đã ra mắt o1 (tên mã là Strawberry) vào tháng 9 và đang chuyển thẳng sang o3, bỏ qua o2 để tránh nhầm lẫn (hoặc xung đột nhãn hiệu ) với công ty viễn thông Anh có tên là O2.

Thuật ngữ lý luận đã trở thành một thuật ngữ thông dụng trong ngành AI gần đây, nhưng về cơ bản nó có nghĩa là máy chia nhỏ các hướng dẫn thành các nhiệm vụ nhỏ hơn có thể tạo ra kết quả mạnh hơn. Các mô hình này thường cho thấy công việc để đưa ra câu trả lời, thay vì chỉ đưa ra câu trả lời cuối cùng mà không có lời giải thích.

Theo công ty, o3 vượt qua các kỷ lục hiệu suất trước đó trên mọi phương diện. Nó đánh bại người tiền nhiệm của mình trong các bài kiểm tra mã hóa (gọi là SWE-Bench Verified) với 22,8 phần trăm và vượt qua Nhà khoa học trưởng của OpenAI trong lập trình cạnh tranh. Mô hình này gần như đã vượt qua một trong những cuộc thi toán học khó nhất (gọi là AIME 2024), chỉ trả lời thiếu một câu hỏi và đạt 87,7 phần trăm trên chuẩn mực cho các bài toán khoa học cấp độ chuyên gia (gọi là GPQA Diamond). Đối với các thử thách toán học và lý luận khó nhất thường làm khó AI, o3 đã giải quyết được 25,2 phần trăm các bài toán (không có mô hình nào khác vượt quá 2 phần trăm).

Công ty cũng công bố nghiên cứu mới về sự liên kết có chủ đích, yêu cầu mô hình AI phải xử lý các quyết định về an toàn từng bước. Vì vậy, thay vì chỉ đưa ra các quy tắc có/không cho mô hình AI, mô hình này yêu cầu AI phải chủ động lý luận về việc liệu yêu cầu của người dùng có phù hợp với các chính sách an toàn của OpenAI hay không. Công ty tuyên bố rằng khi thử nghiệm điều này trên o1, nó tuân thủ các hướng dẫn về an toàn tốt hơn nhiều so với các mô hình trước đó, bao gồm cả GPT-4.

THÔNG TIN LIÊN HỆ

SDT: 0977383456

EMAIL: kbtech.technology@gmail.com

WEBSITE : kbtech.com.vn

ĐĂNG KÝ ZALO OA : dangkyzalooa.com