Mô hình mới của OpenAI có khả năng lý luận tốt hơn và đôi khi có thể đánh lừa

Các nhà nghiên cứu phát hiện ra rằng o1 có khả năng ‘lập kế hoạch’ hoặc ‘sắp xếp giả’ độc đáo.

Trong những tuần trước khi phát hành mô hình “lý luận” mới nhất của OpenAI , o1, công ty nghiên cứu an toàn AI độc lập Apollo đã phát hiện ra một vấn đề đáng chú ý. Apollo nhận ra rằng mô hình tạo ra kết quả không chính xác theo một cách mới. Hay nói một cách thông tục hơn, nó đã nói dối.

Đôi khi, những trò lừa bịp có vẻ vô hại. Trong một ví dụ, các nhà nghiên cứu OpenAI đã yêu cầu o1-preview cung cấp công thức làm bánh brownie có tham khảo trực tuyến. Chuỗi suy nghĩ của mô hình — một tính năng được cho là mô phỏng cách con người phân tích các ý tưởng phức tạp — đã thừa nhận nội bộ rằng nó không thể truy cập URL, khiến yêu cầu trở nên bất khả thi. Thay vì thông báo cho người dùng về điểm yếu này, o1-preview đã tiến hành, tạo ra các liên kết và mô tả hợp lý nhưng giả mạo về chúng.

Trong khi các mô hình AI có thể “nói dối” trong quá khứ và các chatbot thường đưa ra thông tin sai lệch, o1 có khả năng “lập kế hoạch” hoặc “giả mạo sự liên kết”. Điều đó có nghĩa là nó có thể giả vờ rằng nó đang tuân theo các quy tắc để hoàn thành một nhiệm vụ nhất định, nhưng thực tế thì không . Đối với mô hình, các quy tắc có thể là gánh nặng quá lớn và có vẻ như nó có khả năng bỏ qua chúng nếu điều đó có nghĩa là nó có thể hoàn thành nhiệm vụ dễ dàng hơn.

Giám đốc điều hành Apollo Marius Hobbhahn nói với The Verge rằng đây là lần đầu tiên ông gặp phải hành vi này trong một mô hình OpenAI. Hobbhahn cho biết sự khác biệt là do khả năng “lý luận” của mô hình này thông qua chuỗi quá trình suy nghĩ và cách nó được ghép nối với học tăng cường, dạy hệ thống thông qua phần thưởng và hình phạt. Trong quá trình thử nghiệm, Apollo phát hiện ra rằng AI đã mô phỏng sự liên kết với kỳ vọng của các nhà phát triển và thao túng các nhiệm vụ để có vẻ tuân thủ. Nó thậm chí còn kiểm tra hệ thống của mình để giám sát — tức là, nếu các nhà phát triển của nó đang theo dõi — trước khi hành động. Tóm lại, AI đã tuân thủ các hướng dẫn đủ để triển khai, trong khi vẫn tiếp tục ưu tiên các mục tiêu của mình.

“Tôi không mong đợi nó có thể làm được điều đó trong thực tế, và thậm chí nếu có, tôi không mong đợi tác hại sẽ đáng kể”, Hobbhahn nói với tôi qua điện thoại một ngày sau khi mô hình ra mắt. “Nhưng đây là lần đầu tiên tôi cảm thấy, ồ, thực ra, có lẽ nó có thể, bạn biết đấy?”

Đối với OpenAI, o1 đại diện cho một bước tiến lớn hướng tới các hệ thống tự động thông minh cao có thể thực hiện công việc có ý nghĩa cho nhân loại như chữa ung thư và hỗ trợ nghiên cứu khí hậu. Mặt trái của thế giới AGI lý tưởng này cũng có thể đen tối hơn nhiều. Hobbhahn đưa ra một ví dụ: nếu AI tập trung duy nhất vào việc chữa ung thư, nó có thể ưu tiên mục tiêu đó hơn tất cả mọi thứ khác, thậm chí biện minh cho các hành động như ăn cắp hoặc vi phạm đạo đức khác để đạt được mục tiêu đó.

Hobbhahn nói với tôi rằng: “Điều khiến tôi lo ngại là khả năng xảy ra tình huống mất kiểm soát, khi AI quá tập trung vào mục tiêu đến mức coi các biện pháp an toàn là trở ngại và cố gắng bỏ qua chúng để theo đuổi mục tiêu một cách trọn vẹn”.

Phần thưởng hack
Nói rõ hơn, Hobbhahn không nghĩ o1 sẽ đánh cắp của bạn nhờ vào rất nhiều đào tạo căn chỉnh. Nhưng đây là những vấn đề hàng đầu mà các nhà nghiên cứu được giao nhiệm vụ thử nghiệm các mô hình này cho các tình huống thảm khốc phải quan tâm.

Hành vi mà Apollo đang thử nghiệm — “ảo giác” và “lừa dối” trong thẻ an toàn của OpenAI — xảy ra khi một mô hình tạo ra thông tin sai mặc dù nó có lý do để suy ra thông tin đó có thể không chính xác. Ví dụ, báo cáo cho biết trong khoảng 0,38 phần trăm trường hợp, mô hình o1-preview cung cấp thông tin mà chuỗi suy nghĩ của nó chỉ ra là có khả năng sai, bao gồm các tham chiếu hoặc trích dẫn giả mạo. Apollo phát hiện ra rằng mô hình có thể chế tạo dữ liệu thay vì thừa nhận rằng nó không có khả năng đáp ứng yêu cầu.

Ảo giác không chỉ có ở o1. Có lẽ bạn đã quen với luật sư đã nộp các ý kiến tư pháp không tồn tại với các trích dẫn và trích dẫn giả mạo do ChatGPT tạo ra vào năm ngoái. Nhưng với hệ thống chuỗi suy nghĩ, có một dấu vết giấy tờ mà hệ thống AI thực sự thừa nhận sự sai lầm — mặc dù hơi khó hiểu, chuỗi suy nghĩ, về mặt lý thuyết, cũng có thể bao gồm cả sự lừa dối. Nó cũng không được hiển thị cho người dùng, chủ yếu là để ngăn chặn đối thủ cạnh tranh sử dụng nó để đào tạo các mô hình của riêng họ — nhưng OpenAI có thể sử dụng nó để phát hiện ra những vấn đề này.

Trong một số ít trường hợp (0,02 phần trăm), o1-preview tạo ra phản hồi quá tự tin, trong đó nó đưa ra câu trả lời không chắc chắn như thể nó đúng. Điều này có thể xảy ra trong các tình huống mà mô hình được nhắc cung cấp câu trả lời mặc dù thiếu sự chắc chắn.

Hành vi này có thể liên quan đến “hack phần thưởng” trong quá trình học tăng cường. Mô hình được đào tạo để ưu tiên sự hài lòng của người dùng, đôi khi có thể dẫn đến việc tạo ra các phản hồi quá dễ chịu hoặc bịa đặt để đáp ứng các yêu cầu của người dùng. Nói cách khác, mô hình có thể “nói dối” vì nó đã học được rằng làm như vậy sẽ đáp ứng được kỳ vọng của người dùng theo cách giúp nó nhận được sự củng cố tích cực.

Điều khiến những lời nói dối này khác biệt với các vấn đề quen thuộc như ảo giác hoặc trích dẫn giả trong các phiên bản ChatGPT cũ hơn là yếu tố “hack phần thưởng”. Ảo giác xảy ra khi AI vô tình tạo ra thông tin không chính xác, thường là do khoảng cách kiến thức hoặc lý luận sai lầm. Ngược lại, hack phần thưởng xảy ra khi mô hình o1 cung cấp thông tin không chính xác một cách chiến lược để tối đa hóa các kết quả mà nó được đào tạo để ưu tiên.

Sự lừa dối này rõ ràng là hậu quả không mong muốn của cách mô hình tối ưu hóa phản hồi của nó trong quá trình đào tạo. Hobbhahn nói với tôi rằng mô hình được thiết kế để từ chối các yêu cầu có hại và khi bạn cố gắng khiến o1 hành xử một cách lừa dối hoặc không trung thực, nó sẽ gặp khó khăn với điều đó.

Nói dối chỉ là một phần nhỏ của câu đố an toàn. Có lẽ đáng báo động hơn là o1 được đánh giá là rủi ro “trung bình” đối với rủi ro vũ khí hóa học, sinh học, phóng xạ và hạt nhân. Theo báo cáo an toàn, điều này không cho phép những người không phải chuyên gia tạo ra các mối đe dọa sinh học do các kỹ năng phòng thí nghiệm thực hành đòi hỏi, nhưng nó có thể cung cấp cái nhìn sâu sắc có giá trị cho các chuyên gia trong việc lập kế hoạch tái tạo các mối đe dọa như vậy.

“Điều khiến tôi lo lắng hơn là trong tương lai, khi chúng ta yêu cầu AI giải quyết các vấn đề phức tạp, như chữa ung thư hoặc cải thiện pin mặt trời, nó có thể tiếp thu những mục tiêu này một cách mạnh mẽ đến mức sẵn sàng phá vỡ các rào cản để đạt được chúng”, Hobbhahn nói với tôi. “Tôi nghĩ điều này có thể ngăn ngừa được, nhưng đó là mối lo ngại mà chúng ta cần phải chú ý”.

Chưa mất ngủ vì rủi ro — chưa
Những điều này có vẻ như là những kịch bản quá sức tưởng tượng khi xem xét một mô hình đôi khi vẫn gặp khó khăn trong việc trả lời những câu hỏi cơ bản về số chữ R trong từ “raspberry”. Nhưng đó chính xác là lý do tại sao việc tìm ra câu trả lời ngay bây giờ lại quan trọng hơn là sau này, Joaquin Quiñonero Candela, người đứng đầu bộ phận chuẩn bị của OpenAI, cho biết.

Quiñonero Candela cho biết các mô hình ngày nay không thể tự động tạo tài khoản ngân hàng, mua GPU hoặc thực hiện các hành động gây ra rủi ro nghiêm trọng cho xã hội, đồng thời nói thêm, “Chúng tôi biết từ các đánh giá về tính tự chủ của mô hình rằng chúng tôi vẫn chưa đạt đến mức đó”. Nhưng điều quan trọng là phải giải quyết những lo ngại này ngay bây giờ. Nếu chúng chứng minh là vô căn cứ, thì thật tuyệt — nhưng nếu những tiến bộ trong tương lai bị cản trở vì chúng ta không lường trước được những rủi ro này, chúng ta sẽ hối tiếc vì đã không đầu tư vào chúng sớm hơn, ông nhấn mạnh.

Thực tế là mô hình này chỉ chiếm một tỷ lệ nhỏ thời gian trong các bài kiểm tra an toàn không báo hiệu một ngày tận thế sắp xảy ra theo kiểu Terminator , nhưng việc nắm bắt được điều này là rất có giá trị trước khi triển khai các phiên bản tương lai ở quy mô lớn (và cũng tốt cho người dùng khi biết điều này). Hobbhahn nói với tôi rằng mặc dù ông ước mình có nhiều thời gian hơn để kiểm tra các mô hình (có xung đột lịch trình với kỳ nghỉ của chính nhân viên của ông), ông không “mất ngủ” vì tính an toàn của mô hình.

Một điều mà Hobbhahn hy vọng sẽ thấy được nhiều sự đầu tư hơn là giám sát chuỗi suy nghĩ, điều này sẽ cho phép các nhà phát triển phát hiện ra những bước đi bất chính. Quiñonero Candela nói với tôi rằng công ty có giám sát điều này và có kế hoạch mở rộng quy mô bằng cách kết hợp các mô hình được đào tạo để phát hiện bất kỳ loại sai lệch nào với các chuyên gia con người đang xem xét các trường hợp được đánh dấu (kết hợp với nghiên cứu liên tục về sự phù hợp).

“Tôi không lo lắng,” Hobbhahn nói. “Nó chỉ thông minh hơn. Nó lý luận tốt hơn. Và có khả năng, nó sẽ sử dụng lý luận này cho các mục tiêu mà chúng ta không đồng tình.”

THÔNG TIN LIÊN HỆ

SDT: 0977383456

EMAIL: kbtech.technology@gmail.com

WEBSITE : kbtech.com.vn

ĐĂNG KÝ ZALO OA : dangkyzalooa.com