GPT-4o của OpenAI: Mô hình AI tổng hợp ChatGPT mới có gì và nó hoạt động như thế nào?

OpenAI đã nâng cao vị thế trong thế giới trí tuệ nhân tạo có tính cạnh tranh cao bằng cách giới thiệu một mô hình mới mà họ hy vọng sẽ thu hút nhiều người dùng hơn vào nền tảng của mình và chống lại mọi kẻ thách thức.

GPT-4o là phiên bản cập nhật của công nghệ mô hình ngôn ngữ lớn cơ bản hỗ trợ ChatGPT . Tuần trước có tin đồn sẽ ra mắt như một công cụ tìm kiếm để thách thức Google nhưng Reuters đưa tin rằng OpenAI đã trì hoãn nó.

Giám đốc điều hành OpenAI Sam Altman phủ nhận bất kỳ sự ra mắt nào – chỉ đăng trên X rằng công ty đã “làm việc chăm chỉ để tạo ra một số nội dung mới mà chúng tôi nghĩ mọi người sẽ yêu thích”.

Chữ “o” trong tên là viết tắt của “omni” và công ty có trụ sở tại California đang quảng cáo GPT-4o là thứ gì đó dành cho tất cả mọi người, điều này có nghĩa là “omni” có nghĩa là “tất cả” hoặc “mọi thứ” – liệu OpenAI có muốn có mặt ở khắp nơi không trong cuộc sống của chúng tôi?

Mục lục

GPT-4o là gì?

Câu trả lời ngắn gọn: GPT-4o, theo OpenAI, là “mẫu hàng đầu mới có thể suy luận về âm thanh, hình ảnh và văn bản trong thời gian thực”.

Câu trả lời ngắn gọn hơn: đó là mô hình AI nhanh nhất của OpenAI.

OpenAI cho biết trong một bài đăng trên blog hôm thứ Hai rằng cái tên “omni” ám chỉ “một bước hướng tới tương tác giữa người và máy tính tự nhiên hơn nhiều”.

Nó cũng có tính chất đa phương thức, nghĩa là nó có thể chấp nhận bất kỳ sự kết hợp nào giữa văn bản, âm thanh và hình ảnh làm đầu vào, đồng thời tạo ra bất kỳ sự kết hợp nào giữa đầu ra văn bản, âm thanh và hình ảnh.

GPT-4o nhanh như thế nào?

Theo một số nghiên cứu, OpenAI tuyên bố GPT-4o có thể phản hồi đầu vào âm thanh chỉ trong 232 mili giây, trung bình là 320 mili giây, tương tự như thời gian phản hồi của con người trong một cuộc trò chuyện.

Do đó, GPT-4o yêu cầu sử dụng ít mã thông báo hơn trong ngôn ngữ, đơn vị cơ bản trong AI tính toán độ dài của văn bản và có thể bao gồm dấu chấm câu và dấu cách. Số lượng mã thông báo khác nhau tùy theo ngôn ngữ.

Trong số các ngôn ngữ được OpenAI đánh dấu sử dụng ít mã thông báo hơn với GPT-4o là tiếng Ả Rập (từ 53 đến 26), Gujarati (145 đến 33), tiếng Hindi (90 đến 31), tiếng Hàn (45 đến 27) và tiếng Trung (34 đến 24) .

Về mặt góc độ, chúng ta có thể so sánh với một nghiên cứu năm 1968 của Robert Miller – Thời gian phản hồi trong các giao dịch đàm thoại giữa người và máy tính – trong đó nêu chi tiết ba mức độ phản hồi của máy tính lớn.

Nghiên cứu cho thấy thời gian phản hồi 100 mili giây được coi là tức thời, trong khi một giây hoặc ít hơn là đủ nhanh để người dùng cảm thấy họ đang tương tác thoải mái với thông tin. Thời gian phản hồi hơn 10 giây sẽ khiến người dùng mất hoàn toàn sự chú ý.

GPT-4o hoạt động như thế nào?

Câu trả lời đơn giản nhất là OpenAI đã đơn giản hóa quá trình chuyển đổi đầu vào thành đầu ra.

Trong các mô hình AI trước đây của OpenAI, Chế độ giọng nói được sử dụng để nói chuyện với ChatGPT với độ trễ trung bình là 2,8 giây (GPT-3.5) và 5,4 giây (GPT-4). Chế độ giọng nói sử dụng ba mô hình riêng biệt: một mô hình đơn giản chuyển âm thanh thành văn bản, GPT-3.5 hoặc GPT-4 nhận và xuất văn bản và phiên bản đơn giản thứ ba chuyển đổi văn bản đó trở lại thành âm thanh.

“Quá trình này có nghĩa là nguồn thông tin chính, GPT-4, mất rất nhiều thông tin – nó không thể quan sát trực tiếp âm thanh, nhiều người nói hoặc tiếng ồn xung quanh và nó không thể tạo ra tiếng cười, ca hát hoặc bày tỏ cảm xúc, “OpenAI cho biết.

Nhưng với GPT-4o, OpenAI có thể hợp nhất tất cả các chức năng này thành một mô hình duy nhất, với khả năng toàn diện trên văn bản, hình ảnh và âm thanh, giảm đáng kể lượng thời gian sử dụng và xử lý thông tin.

OpenAI cho biết: “Tất cả đầu vào và đầu ra đều được xử lý bởi cùng một mạng lưới thần kinh”. Mạng lưới thần kinh là một kỹ thuật AI dạy máy tính xử lý dữ liệu tương tự như bộ não con người.

Tuy nhiên, OpenAI cho biết họ “vẫn chỉ mới sơ lược” về các khả năng và hạn chế của GPT-4o, vì đây là mô hình đầu tiên của họ kết hợp tất cả các phương thức này.

GPT-4o không thể làm gì?

Nói về những hạn chế, OpenAI thừa nhận “một số” hạn chế trên mô hình GPT-4o, bao gồm cả sự không nhất quán trong các phản hồi được nêu trong cuộn phim blooper. Nó thậm chí còn chứng minh GPT-4o có thể thành thạo trong việc mỉa mai như thế nào.

Ngoài ra, OpenAI cho biết họ tiếp tục cải tiến hành vi của mô hình thông qua đào tạo sau – điều này rất quan trọng trong việc giải quyết các mối lo ngại về an toàn, một điểm mấu chốt trong AI thời hiện đại.

Công ty cho biết họ đã tạo ra các hệ thống an toàn mới để làm rào chắn cho đầu ra giọng nói, ngoài việc thử nghiệm mô hình, với hơn 70 chuyên gia trong các lĩnh vực tâm lý xã hội, thành kiến, công bằng và thông tin sai lệch để xác định bất kỳ rủi ro nào có thể xảy ra.

OpenAI cho biết: “Chúng tôi sẽ tiếp tục giảm thiểu những rủi ro mới khi chúng được phát hiện. Chúng tôi nhận thấy rằng các phương thức âm thanh của GPT-4o có nhiều rủi ro mới”.

GPT-4o có giá bao nhiêu?

Tin tốt – nó miễn phí cho tất cả người dùng, với những người dùng trả phí được hưởng “gấp 5 lần giới hạn dung lượng” so với những người ngang hàng miễn phí của họ, giám đốc công nghệ OpenAI Mira Murati cho biết trong buổi thuyết trình ra mắt.

Tuy nhiên, nếu bạn không phải là người dùng OpenAI trả phí, bạn sẽ phải trả lại 5 đô la và 15 đô la cho một triệu mã thông báo đầu vào và đầu ra.

Việc cho phép sử dụng GPT-4o miễn phí sẽ phục vụ tốt cho OpenAI, điều này cũng sẽ bổ sung cho các dịch vụ trả phí khác của công ty.

Vào tháng 8, OpenAI đã ra mắt gói hàng tháng ChatGPT Enterprise , giá của gói này thay đổi tùy theo yêu cầu của người dùng. Đây là cấp thứ ba sau dịch vụ miễn phí cơ bản và gói Plus 20 USD một tháng.

Vào tháng 1, công ty đã ra mắt Cửa hàng ChatGPT trực tuyến cho phép người dùng truy cập vào hơn ba triệu phiên bản GPT tùy chỉnh, được phát triển bởi các đối tác của OpenAI và cộng đồng của nó .

OpenAI hy vọng sẽ thu hút được nhiều người dùng hơn khi sự cạnh tranh ngày càng nóng lên trong thế giới AI tổng hợp – và sẽ có rất nhiều điều dành cho họ.

OpenAI làm thế nào để chống lại các đối thủ lớn nhất của nó vào thời điểm này?

Động thái của OpenAI nhằm giới thiệu một mô hình ngôn ngữ lớn mới, miễn phí và nhanh hơn là một dấu hiệu cho thấy nó có đủ khả năng chống lại sự cạnh tranh trong lĩnh vực AI tạo ra.

Google, được cho là đối thủ lớn nhất của họ trong không gian, có Gemini, mô hình AI đầu tiên đánh bại các chuyên gia con người về khả năng hiểu ngôn ngữ đa nhiệm quy mô lớn, một trong những phương pháp được sử dụng rộng rãi để kiểm tra kiến thức và khả năng giải quyết vấn đề của AI.

Gemini có thể được truy cập trên gói Google One AI Premium với giá 19,99 đô la một tháng, bao gồm 2TB dung lượng lưu trữ, hoàn lại 10% khi mua hàng được thực hiện trên Google Store và nhiều tính năng khác trên Gmail , Google Docs, Google Slides và Google Meet.

Vào tháng 2, hãng đã ra mắt Gemma , nhằm mục đích hỗ trợ các nhà phát triển và nhà nghiên cứu “xây dựng AI một cách có trách nhiệm” và dành nhiều hơn cho các nhiệm vụ khiêm tốn như chatbot cơ bản hoặc công việc tóm tắt.

Trong khi đó, Anthropic vào tháng 3 đã ra mắt Claude 3 – thách thức trực tiếp của nó đối với nhà lãnh đạo AI sáng tạo OpenAI.

Công ty được hỗ trợ bởi chính Google và Amazon có ba cấp – Haiku, Sonnet và Opus – mỗi cấp cung cấp các khả năng ngày càng phù hợp với nhu cầu của người dùng.

Haiku có giá 0,25 USD trên một triệu token (MTok) cho đầu vào và 1,25 USD cho đầu ra, trong khi Sonnet có giá 3 USD và 15 USD. Opus đắt nhất ở mức 15 USD và 75 USD.

Để so sánh, GPT-4 Turbo của OpenAI có giá 10 USD cho đầu vào và 30 USD cho đầu ra, đồng thời có cửa sổ ngữ cảnh nhỏ hơn là 128.000 MTok.

Microsoft, người ủng hộ lớn nhất của OpenAI, tính phí 20 USD/tháng cho dịch vụ Copilot pro, đảm bảo hiệu suất nhanh hơn và “mọi thứ” mà dịch vụ cung cấp. Nếu bạn không sẵn sàng trả tiền, thì sẽ có cấp Copilot miễn phí, rõ ràng là có chức năng hạn chế.

Và sau đó là Grok của xAI, từ bạn bè trở thành kẻ thù của OpenAI, Elon Musk .

Phiên bản hiện tại của Grok, Grok-1.5, chỉ dành cho những người đăng ký gói Premium+ của X, có giá khởi điểm là 16 USD mỗi tháng hoặc 168 USD một năm.

Các tổ chức trong khu vực cũng đang nhắm đến các nhà lãnh đạo: hôm thứ Hai, Viện Đổi mới Công nghệ của Abu Dhabi đã giới thiệu phiên bản thứ hai của mô hình ngôn ngữ lớn, Falcon 2 , để cạnh tranh với các mô hình do Meta, Google và OpenAI phát triển.

Cũng trong ngày thứ Hai, Core42, một đơn vị của công ty đám mây và trí tuệ nhân tạo G42 của Abu Dhabi, đã ra mắt một chatbot song ngữ tiếng Ả Rập và tiếng Anh được phát triển tại UAE, Jais Chat . Nó có thể được tải xuống và sử dụng miễn phí trên iPhone của Apple.

THÔNG TIN LIÊN HỆ

SDT: 0977383456

EMAIL: kbtech.technology@gmail.com

WEBSITE : kbtech.com.vn

ĐĂNG KÝ ZALO OA : dangkyzalooa.com