OpenAI ra mắt Operator, một tác nhân AI thực hiện nhiệm vụ một cách tự động

Mục lục

OpenAI ra mắt Operator, một tác nhân AI thực hiện nhiệm vụ một cách tự động

Giám đốc điều hành của OpenAI, Sam Altman đã bắt đầu năm nay bằng bài đăng trên blog rằng năm 2025 sẽ là năm quan trọng đối với các tác nhân AI , các công cụ có thể tự động hóa các tác vụ và thực hiện hành động thay mặt bạn.

Bây giờ, chúng ta đang chứng kiến nỗ lực thực sự đầu tiên của OpenAI.

OpenAI đã công bố vào thứ năm rằng họ sẽ ra mắt bản xem trước nghiên cứu của Operator, một tác nhân AI đa năng có thể kiểm soát trình duyệt web và thực hiện độc lập một số hành động nhất định. Operator sẽ đến với người dùng Hoa Kỳ theo gói đăng ký Pro trị giá 200 đô la của ChatGPT trước . OpenAI cho biết họ có kế hoạch triển khai tính năng này cho nhiều người dùng hơn trong các gói Plus, Team và Enterprise của mình sau này.

“[Nhà điều hành] sẽ sớm có mặt ở các quốc gia khác”, CEO của OpenAI Sam Altman cho biết trong buổi phát trực tiếp hôm thứ Năm. “Thật không may, châu Âu sẽ mất một thời gian”.

Bản xem trước nghiên cứu ban đầu này hiện có sẵn thông qua operator.chatgpt.com, nhưng OpenAI cho biết họ muốn tích hợp Operator vào tất cả các ứng dụng khách ChatGPT của mình.

Theo OpenAI, Operator hứa hẹn sẽ tự động hóa các tác vụ như đặt chỗ nghỉ khi đi du lịch, đặt chỗ nhà hàng và mua sắm trực tuyến. Có một số danh mục tác vụ mà người dùng có thể chọn trong giao diện Operator, bao gồm mua sắm, giao hàng, ăn uống và du lịch — tất cả đều cho phép các loại tự động hóa khác nhau.

Khi người dùng ChatGPT kích hoạt Operator, một cửa sổ nhỏ sẽ bật lên hiển thị trình duyệt web chuyên dụng mà tác nhân sử dụng để hoàn thành nhiệm vụ, cùng với các giải thích về các hành động cụ thể mà tác nhân đang thực hiện. Người dùng vẫn có thể kiểm soát màn hình của mình trong khi Operator đang làm việc, vì Operator sử dụng trình duyệt chuyên dụng của riêng mình.

OpenAI cho biết Operator được hỗ trợ bởi mô hình Computer-Using Agent, hay CUA, kết hợp khả năng thị giác của mô hình GPT-4o của công ty với khả năng suy luận từ các mô hình tiên tiến hơn của OpenAI. CUA được đào tạo để tương tác với giao diện người dùng của trang web, nghĩa là nó không cần sử dụng API dành cho nhà phát triển để khai thác các dịch vụ khác nhau.

Nói cách khác, CUA có thể sử dụng các nút, điều hướng menu và điền vào biểu mẫu trên trang web giống như con người.

OpenAI cho biết họ đang hợp tác với các công ty như DoorDash, eBay, Instacart, Priceline, StubHub và Uber để đảm bảo rằng Operator tôn trọng các điều khoản thỏa thuận dịch vụ của các doanh nghiệp này.

“Mô hình CUA được đào tạo để yêu cầu người dùng xác nhận trước khi hoàn tất các tác vụ có tác dụng phụ bên ngoài, ví dụ như trước khi gửi đơn hàng, gửi email, v.v., để người dùng có thể kiểm tra lại công việc của mô hình trước khi nó trở thành vĩnh viễn”, OpenAI viết trong tài liệu cung cấp cho TechCrunch. “[Mô hình] đã chứng minh được tính hữu ích trong nhiều trường hợp và chúng tôi đặt mục tiêu mở rộng độ tin cậy đó trên nhiều tác vụ hơn”.

Nhưng OpenAI cảnh báo rằng CUA không hoàn hảo. Công ty cho biết họ “[không] mong đợi [CUA] hoạt động đáng tin cậy trong mọi tình huống ngay lúc này”.

“Hiện tại, Operator không thể xử lý đáng tin cậy nhiều tác vụ phức tạp hoặc chuyên biệt”, OpenAI bổ sung trong tài liệu hỗ trợ, “chẳng hạn như tạo trình chiếu chi tiết, quản lý hệ thống lịch phức tạp hoặc tương tác với các giao diện web tùy chỉnh cao hoặc không chuẩn.

Để thận trọng, OpenAI cũng yêu cầu giám sát một số nhiệm vụ, như giao dịch ngân hàng, CUA và Operator có thể tự thực hiện phần lớn. Ví dụ, người dùng sẽ cần tiếp quản để nhập thông tin thẻ tín dụng. OpenAI cho biết Operator không thu thập hoặc chụp ảnh màn hình bất kỳ dữ liệu nào.

OpenAI cho biết trong tài liệu hỗ trợ của mình: “Trên các trang web đặc biệt nhạy cảm, chẳng hạn như email, Operator yêu cầu người dùng phải giám sát tích cực, đảm bảo người dùng có thể trực tiếp phát hiện và giải quyết mọi lỗi tiềm ẩn mà mô hình có thể mắc phải”.

Điều này hạn chế tính hữu ích của Operator, chắc chắn rồi — nhưng cũng đảm bảo rằng tác nhân không bị ảo giác và, ví dụ, chi tiền thế chấp của bạn cho ghế bành. Google đã áp dụng cách tiếp cận tương tự với tác nhân AI Project Mariner , cũng không điền thông tin như số thẻ tín dụng.

Hạn chế

Nhà điều hành có một số hạn chế đáng lưu ý.

Có giới hạn tốc độ — cả theo ngày và theo nhiệm vụ. OpenAI cho biết Operator có thể thực hiện nhiều nhiệm vụ cùng lúc, nhưng có “giới hạn động” về điều này. Ngoài ra còn có giới hạn sử dụng chung được đặt lại hàng ngày.

Ở giai đoạn phát hành này, Operator cũng sẽ từ chối thực hiện các tác vụ ngay vì lý do bảo mật, chẳng hạn như gửi email (mặc dù CUA có khả năng thực hiện việc này) và xóa các sự kiện lịch. OpenAI cho biết điều này sẽ thay đổi trong tương lai, nhưng không đưa ra ETA.

Người vận hành cũng có thể bị “kẹt” nếu gặp phải giao diện, trường mật khẩu hoặc kiểm tra CAPTCHA đặc biệt phức tạp. OpenAI cho biết, hệ thống sẽ yêu cầu người dùng tiếp quản khi điều này xảy ra.

Một tương lai đại lý

So với các đối thủ cạnh tranh (xem: các tác nhân từ Rabbit , Google và Anthropic ), OpenAI khá chậm trong việc phát triển tác nhân AI , điều này có thể liên quan đến những rủi ro về an toàn xung quanh công nghệ này.

Khi một hệ thống AI có thể thực hiện hành động trên web, nó mở ra cánh cửa cho nhiều trường hợp sử dụng nguy hiểm hơn từ những kẻ xấu. Bạn có thể tự động hóa các tác nhân AI để dàn dựng các vụ lừa đảo lừa đảo hoặc tấn công DDoS, hoặc để chúng giành lấy vé xem hòa nhạc trước khi bất kỳ ai khác có thể. Đặc biệt đối với một công cụ được sử dụng rộng rãi như ChatGPT, điều quan trọng là OpenAI phải thực hiện các bước để ngăn chặn những loại khai thác đó.

OpenAI dường như cho rằng Operator đủ an toàn để phát hành ở dạng hiện tại, ít nhất là dưới dạng bản xem trước nghiên cứu.

“Người vận hành sử dụng các công cụ nhằm hạn chế khả năng mô hình dễ bị tấn công bởi các lời nhắc độc hại, hướng dẫn ẩn và các nỗ lực lừa đảo”, OpenAI giải thích trên trang web của mình. “Một hệ thống giám sát sẽ tạm dừng thực thi nếu phát hiện hoạt động đáng ngờ, trong khi các đường ống được tự động và do con người đánh giá liên tục cập nhật các biện pháp bảo vệ”.

Operator là nỗ lực táo bạo nhất của OpenAI trong việc tạo ra một tác nhân AI. Tuần trước, OpenAI đã phát hành Tasks , cung cấp cho ChatGPT các tính năng tự động hóa đơn giản như khả năng đặt lời nhắc và lên lịch nhắc nhở chạy vào thời điểm cố định mỗi ngày.

Tasks cung cấp cho người dùng ChatGPT một số tính năng quen thuộc nhưng cần thiết để ChatGPT trở nên thiết thực khi sử dụng như Siri hoặc Alexa. Tuy nhiên, Operator cho thấy những khả năng mà thế hệ trợ lý ảo trước đây không bao giờ có thể làm được.

Các tác nhân AI đã được giới thiệu là thứ lớn tiếp theo trong AI sau ChatGPT: một công nghệ mới sẽ thay đổi cách mọi người sử dụng internet và PC của họ. Thay vì chỉ cung cấp và xử lý thông tin, về mặt lý thuyết, các tác nhân có thể thực hiện hành động và thực sự làm mọi việc.

Với việc phát hành phiên bản cụ thể đầu tiên của OpenAI về các tác nhân, chúng ta sẽ sớm thấy rõ tầm nhìn này thực tế đến mức nào.

nguồn: techcrunch.com

THÔNG TIN LIÊN HỆ

SDT: 0977383456

EMAIL: kbtech.technology@gmail.com

WEBSITE : kbtech.com.vn

ĐĂNG KÝ ZALO OA : dangkyzalooa.com