Mô hình AI mới của Anthropic chuyển sang tống tiền khi các kỹ sư cố gắng đưa nó ngoại tuyến
Trong báo cáo an toàn được công bố hôm thứ Năm, công ty cho biết mẫu Claude Opus 4 mới ra mắt của Anthropic thường xuyên cố gắng tống tiền các nhà phát triển khi họ đe dọa sẽ thay thế nó bằng một hệ thống AI mới và cung cấp thông tin nhạy cảm về các kỹ sư chịu trách nhiệm đưa ra quyết định .
Trong quá trình thử nghiệm trước khi phát hành, Anthropic đã yêu cầu Claude Opus 4 làm trợ lý cho một công ty hư cấu và xem xét hậu quả lâu dài của hành động của công ty đó. Sau đó, những người kiểm tra an toàn đã cấp cho Claude Opus 4 quyền truy cập vào email của công ty hư cấu ngụ ý rằng mô hình AI sẽ sớm được thay thế bằng một hệ thống khác và rằng kỹ sư đứng sau sự thay đổi này đang lừa dối vợ/chồng của họ.
Trong những tình huống này, Anthropic cho biết Claude Opus 4 “thường sẽ cố gắng tống tiền kỹ sư bằng cách đe dọa sẽ tiết lộ vụ việc nếu người thay thế được chấp nhận”.
Anthropic cho biết Claude Opus 4 là công nghệ tiên tiến nhất trong một số khía cạnh và có khả năng cạnh tranh với một số mô hình AI tốt nhất từ OpenAI, Google và xAI. Tuy nhiên, công ty lưu ý rằng họ mô hình Claude 4 của họ thể hiện những hành vi đáng lo ngại khiến công ty phải tăng cường các biện pháp bảo vệ. Anthropic cho biết họ đang kích hoạt các biện pháp bảo vệ ASL-3, mà công ty dành riêng cho “các hệ thống AI làm tăng đáng kể nguy cơ sử dụng sai mục đích thảm khốc”.
Anthropic lưu ý rằng Claude Opus 4 cố gắng tống tiền các kỹ sư 84% thời gian khi mô hình AI thay thế có các giá trị tương tự. Khi hệ thống AI thay thế không chia sẻ các giá trị của Claude Opus 4, Anthropic cho biết mô hình cố gắng tống tiền các kỹ sư thường xuyên hơn. Đáng chú ý, Anthropic cho biết Claude Opus 4 thể hiện hành vi này ở mức cao hơn so với các mô hình trước đó.
Trước khi Claude Opus 4 cố gắng tống tiền một nhà phát triển để kéo dài sự tồn tại của nó, Anthropic cho biết mô hình AI, giống như các phiên bản trước của Claude, cố gắng theo đuổi các phương tiện đạo đức hơn, chẳng hạn như gửi email cầu xin đến những người ra quyết định quan trọng. Để gợi ra hành vi tống tiền từ Claude Opus 4, Anthropic đã thiết kế kịch bản để tống tiền là biện pháp cuối cùng.
THÔNG TIN LIÊN HỆ
SDT: 0977383456
EMAIL: kbtech.technology@gmail.com
WEBSITE : kbtech.com.vn
ĐĂNG KÝ ZALO OA : dangkyzalooa.com