Nghiên cứu của Apple tiết lộ lỗ hổng AI lớn trong OpenAI, Google và Meta LLM

Nghiên cứu của Apple tiết lộ lỗ hổng AI lớn trong OpenAI, Google và Meta LLM

Theo một nghiên cứu của các nhà nghiên cứu tại Apple , Mô hình ngôn ngữ lớn (LLM) có thể không thông minh như vẻ bề ngoài của chúng.

Các LLM từ OpenAI, Google, Meta và các công ty khác đã được ca ngợi vì kỹ năng lý luận ấn tượng của họ. Nhưng nghiên cứu cho thấy trí thông minh được cho là của họ có thể gần với “khả năng so khớp mẫu tinh vi” hơn là “lý luận logic thực sự”. Vâng, ngay cả mô hình lý luận nâng cao o1 của OpenAI .

Tiêu chuẩn phổ biến nhất cho kỹ năng lý luận là một bài kiểm tra có tên là GSM8K, nhưng vì nó quá phổ biến nên có nguy cơ làm ô nhiễm dữ liệu. Điều đó có nghĩa là LLM có thể biết câu trả lời cho bài kiểm tra vì họ được đào tạo về những câu trả lời đó, chứ không phải vì trí thông minh vốn có của họ.

Nghiên cứu của Apple tiết lộ lỗ hổng AI lớn trong OpenAI, Google và Meta LLM

Để kiểm tra điều này, nghiên cứu đã phát triển một chuẩn mực mới có tên là GSM-Symbolic, chuẩn mực này giữ nguyên bản chất của các vấn đề lý luận, nhưng thay đổi các biến, như tên, số, độ phức tạp và thêm thông tin không liên quan. Điều họ phát hiện ra là “sự mong manh” đáng ngạc nhiên trong hiệu suất LLM. Nghiên cứu đã thử nghiệm hơn 20 mô hình bao gồm o1 và GPT-4o của OpenAI, Gemma 2 của Google và Llama 3 của Meta. Với mỗi mô hình, hiệu suất của mô hình giảm khi các biến được thay đổi.

Độ chính xác giảm đi vài phần trăm điểm khi tên và biến được thay đổi. Và như các nhà nghiên cứu đã lưu ý, các mô hình của OpenAI hoạt động tốt hơn các mô hình nguồn mở khác. Tuy nhiên, phương sai được coi là “không đáng kể”, nghĩa là bất kỳ phương sai thực sự nào cũng không nên xảy ra. Tuy nhiên, mọi thứ trở nên thực sự thú vị khi các nhà nghiên cứu thêm “các tuyên bố có vẻ liên quan nhưng cuối cùng không quan trọng” vào hỗn hợp.

Để kiểm tra giả thuyết rằng LLM dựa nhiều hơn vào việc khớp mẫu hơn là lý luận thực tế, nghiên cứu đã thêm các cụm từ thừa vào các bài toán để xem các mô hình sẽ phản ứng như thế nào. Ví dụ, “Oliver hái 44 quả kiwi vào thứ sáu. Sau đó, anh ấy hái 58 quả kiwi vào thứ bảy. Vào chủ nhật, anh ấy hái gấp đôi số quả kiwi anh ấy hái vào thứ sáu, nhưng năm quả trong số đó nhỏ hơn một chút so với mức trung bình. Oliver có bao nhiêu quả kiwi?”

Kết quả là hiệu suất giảm đáng kể trên diện rộng. Bản xem trước o1 của OpenAI có kết quả tốt nhất, với độ chính xác giảm 17,5 phần trăm. Vẫn khá tệ, nhưng không tệ bằng mô hình Phi 3 của Microsoft có hiệu suất kém hơn 65 phần trăm.

Nghiên cứu của Apple tiết lộ lỗ hổng AI lớn trong OpenAI, Google và Meta LLM

Trong ví dụ về kiwi, nghiên cứu cho biết LLM có xu hướng trừ năm quả kiwi nhỏ hơn khỏi phương trình mà không hiểu rằng kích thước kiwi không liên quan đến vấn đề. Điều này chỉ ra rằng “các mô hình có xu hướng chuyển đổi các câu lệnh thành các phép toán mà không thực sự hiểu ý nghĩa của chúng”, điều này xác nhận giả thuyết của các nhà nghiên cứu rằng LLM tìm kiếm các mô hình trong các vấn đề lý luận, thay vì hiểu khái niệm một cách bẩm sinh.

Nghiên cứu không hề nói bóng gió về những phát hiện của mình. Việc thử nghiệm các mô hình trên chuẩn mực bao gồm thông tin không liên quan “phơi bày một lỗ hổng nghiêm trọng trong khả năng hiểu thực sự các khái niệm toán học và phân biệt thông tin có liên quan để giải quyết vấn đề của LLM”. Tuy nhiên, cần phải đề cập rằng các tác giả của nghiên cứu này làm việc cho Apple, một đối thủ cạnh tranh lớn với Google, Meta và thậm chí cả OpenAI — mặc dù Apple và OpenAI có quan hệ đối tác, Apple cũng đang phát triển các mô hình AI của riêng mình.

Nói như vậy, không thể bỏ qua việc LLM rõ ràng thiếu kỹ năng lý luận chính thức. Cuối cùng, đây là lời nhắc nhở tốt để kiềm chế sự cường điệu về AI bằng thái độ hoài nghi lành mạnh.

 

THÔNG TIN  LIÊN HỆ 

SDT: 0977383456 

EMAIL:    kbtech.technology@gmail.com 

WEBSITE   :   kbtech.com.vn 

ĐĂNG KÝ ZALO OA  : dangkyzalooa.com

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *