Công cụ AI mới của Google sử dụng lời nhắc bằng hình ảnh thay vì văn bản

Công cụ trí tuệ nhân tạo mới nhất của Google, “Whisk,” cho phép mọi người tải ảnh lên để lấy lại hình ảnh kết hợp do AI tạo ra – ngay cả khi người dùng không nhập bất kỳ văn bản nào để giải thích những gì họ muốn.

Người dùng có thể nhập hình ảnh mô tả chủ thể, bối cảnh và phong cách trước khi Whisk kết hợp tất cả thành một hình ảnh.

Trong một bài đăng trên blog , Google cho biết Whisk là một “công cụ sáng tạo” giúp tạo cảm hứng nhanh chóng, trái ngược với “trình chỉnh sửa hình ảnh truyền thống”. Về bản chất, Whisk được thiết kế như một tính năng AI thú vị, chứ không phải là thứ được cho là công cụ chuyên nghiệp được tinh chỉnh.

Các công ty công nghệ lớn như Google và OpenAI đang chạy đua để tung ra các sản phẩm tiêu dùng có thể giới thiệu những ứng dụng của công nghệ mới hấp dẫn này, ngay cả khi những người phản đối cảnh báo rằng việc thiếu các rào cản xung quanh sự phát triển của AI gây nguy hiểm cho nhân loại.

Kể từ khi OpenAI lần đầu ra mắt công cụ tạo văn bản thành hình ảnh, Dall-E, vào năm 2021, khái niệm tác phẩm nghệ thuật do AI tạo ra đã tràn ngập trên mạng xã hội và trở thành trọng tâm của các sản phẩm tiêu dùng. Whisk của Google là trình tạo hình ảnh thành hình ảnh, xây dựng dựa trên khái niệm phổ biến về trình tạo văn bản thành hình ảnh.

Người dùng Whisk có thể “phối lại” hình ảnh cuối cùng bằng cách chỉnh sửa thông tin đầu vào và trộn các danh mục để tạo ra các hình ảnh khác nhau như đồ chơi nhồi bông, ghim tráng men hoặc nhãn dán. Người dùng có thể thêm văn bản nếu muốn chỉ đạo các chi tiết nhất định, nhưng không bắt buộc phải tạo hình ảnh.

Thomas Iljic, giám đốc quản lý sản phẩm tại Google Labs, cho biết trong một tuyên bố: “Whisk được thiết kế để cho phép người dùng phối lại chủ thể, bối cảnh và phong cách theo những cách mới và sáng tạo, cung cấp khả năng khám phá hình ảnh nhanh chóng thay vì chỉnh sửa hoàn hảo đến từng pixel”.

Whisk của Google được xây dựng dựa trên AI tạo ra bởi DeepMind, phòng thí nghiệm AI mà Google đã mua lại vào năm 2014.

Whisk hoạt động bằng cách sử dụng dịch vụ AI cốt lõi của Google là Gemini, ra mắt vào tháng 12 năm 2023, và kết hợp với Imagen 3, trình tạo văn bản thành hình ảnh mới nhất do DeepMind phát hành vào tháng 12.

Khi người dùng tải hình ảnh của họ lên, Gemini sẽ tạo một chú thích được đưa vào Imagen 3. Quá trình này sẽ nắm bắt được “bản chất” của chủ thể thay vì sao chép chính xác, cho phép phối lại hình ảnh cuối cùng nhưng cũng có nghĩa là sản phẩm cuối cùng có thể không đúng với lời nhắc.

Ví dụ, hình ảnh được tạo ra có thể có chiều cao, kiểu tóc hoặc tông màu da khác với hình ảnh gợi ý, Google cho biết trong một bài đăng trên blog .

OpenAI gần đây cũng đã phát hành một trình tạo văn bản thành video có tên là Sora, nhằm mục đích cạnh tranh với các sản phẩm tiêu dùng.

Dan Ives, giám đốc điều hành và nhà phân tích cổ phiếu cấp cao tại Wedbush Securities, nói với CNN rằng Whisk là một “khoảnh khắc phô trương sức mạnh” khác của Google trong cuộc đua công nghệ và AI.

Ives cho biết: “DeepMind là một tài sản quan trọng của Google”, đồng thời lưu ý rằng các sản phẩm AI là một phần trong “kho báu” các sản phẩm mới của Google cho năm 2025, bao gồm cả hệ điều hành Android mới được xây dựng với sự hợp tác của Samsung và Qualcomm.

THÔNG TIN LIÊN HỆ

SDT: 0977383456

EMAIL: kbtech.technology@gmail.com

WEBSITE : kbtech.com.vn

ĐĂNG KÝ ZALO OA : dangkyzalooa.com