Bên trong cuộc đua ngầm của Big Tech để mua dữ liệu đào tạo AI

Mục lục

Bên trong cuộc đua ngầm của Big Tech để mua dữ liệu đào tạo AI

NEW YORK, ngày 5 tháng 4 – Vào thời kỳ đỉnh cao vào đầu những năm 2000, Photobucket là trang web lưu trữ hình ảnh hàng đầu thế giới. Là trụ cột truyền thông cho các dịch vụ hot một thời như Myspace và Friendster, nó tự hào có 70 triệu người dùng và chiếm gần một nửa thị trường ảnh trực tuyến ở Mỹ.

Ngày nay, chỉ có 2 triệu người vẫn sử dụng Photobucket, theo công cụ theo dõi phân tích của Sameweb. Nhưng cuộc cách mạng AI có thể mang lại cho nó một sức sống mới.

Giám đốc điều hành Ted Leonard, người điều hành công ty gồm 40 thành viên ở Edwards, Colorado, nói với Reuters rằng ông đang đàm phán với nhiều công ty công nghệ để cấp phép cho 13 tỷ bức ảnh và video của Photobucket được sử dụng để đào tạo các mô hình AI có khả năng tạo ra nội dung mới. để nhắn tin nhắc nhở.

Anh ấy đã thảo luận về mức giá từ 5 xu đến 1 đô la cho mỗi bức ảnh và hơn 1 đô la cho mỗi video, với mức giá rất khác nhau tùy theo người mua và loại hình ảnh được tìm kiếm.

Leonard nói thêm: “Chúng tôi đã nói chuyện với các công ty đã nói rằng ‘chúng tôi cần nhiều hơn thế nữa’, và một người mua nói với anh ấy rằng họ muốn có hơn một tỷ video, nhiều hơn những gì nền tảng của anh ấy có.

“Bạn gãi đầu và nói, bạn lấy thứ đó ở đâu?”

Photobucket từ chối tiết lộ danh tính người mua tiềm năng với lý do bảo mật thương mại. Các cuộc đàm phán đang diễn ra, chưa được báo cáo trước đây, cho thấy công ty có thể nắm giữ nội dung trị giá hàng tỷ đô la và đưa ra cái nhìn thoáng qua về thị trường dữ liệu nhộn nhịp đang phát triển trong cơn sốt thống trị công nghệ AI tổng hợp.

Những gã khổng lồ công nghệ như Google (GOOGL.O), Meta (META.O), và được Microsoft hỗ trợ (MSFT.O), OpenAI ban đầu sử dụng miễn phí hàng loạt dữ liệu được thu thập từ Internet để đào tạo các mô hình AI có tính tổng hợp như ChatGPT có thể bắt chước khả năng sáng tạo của con người. Họ nói rằng làm như vậy vừa hợp pháp vừa có đạo đức, mặc dù họ phải đối mặt với các vụ kiện từ hàng loạt chủ sở hữu bản quyền về hành vi này.

Đồng thời, các công ty công nghệ này cũng đang âm thầm trả tiền cho nội dung bị khóa sau tường phí và màn hình đăng nhập, dẫn đến hoạt động giao dịch ngầm về mọi thứ, từ nhật ký trò chuyện đến ảnh cá nhân bị lãng quên từ lâu trên các ứng dụng mạng xã hội đã mờ nhạt.

Edward Klaris từ công ty luật Klaris Law, cho biết: “Hiện đang có sự vội vàng tìm kiếm những người nắm giữ bản quyền có bộ sưu tập nội dung riêng tư không thể loại bỏ được”. Công ty này cho biết họ đang tư vấn cho chủ sở hữu nội dung về các giao dịch trị giá hàng chục triệu đô la. mỗi người cấp phép lưu trữ ảnh, phim và sách để đào tạo AI.

Reuters đã nói chuyện với hơn 30 người có kiến thức về các giao dịch dữ liệu AI, bao gồm các giám đốc điều hành hiện tại và trước đây tại các công ty liên quan, luật sư và nhà tư vấn, để cung cấp thông tin khám phá chuyên sâu đầu tiên về thị trường non trẻ này – nêu chi tiết các loại nội dung được mua, giá cả hiện thực hóa, cộng với những lo ngại mới nổi về nguy cơ dữ liệu cá nhân xâm nhập vào các mô hình AI mà mọi người không hề biết hoặc không có sự đồng ý rõ ràng.

OpenAI, Google, Meta, Microsoft, Apple và Amazon đều từ chối bình luận về các giao dịch và thảo luận dữ liệu cụ thể cho bài viết này, mặc dù Microsoft và Google đã giới thiệu Reuters đến các quy tắc ứng xử của nhà cung cấp bao gồm các điều khoản về quyền riêng tư dữ liệu.

Google nói thêm rằng họ sẽ “có hành động ngay lập tức, lên đến và bao gồm cả việc chấm dứt” thỏa thuận với nhà cung cấp nếu phát hiện ra hành vi vi phạm.

Nhiều công ty nghiên cứu thị trường lớn cho biết họ thậm chí còn chưa bắt đầu ước tính quy mô của thị trường dữ liệu AI không rõ ràng, nơi các công ty thường không tiết lộ các thỏa thuận. Những nhà nghiên cứu làm như vậy, chẳng hạn như Business Research Insights, ước tính thị trường hiện ở mức khoảng 2,5 tỷ USD và dự đoán nó có thể tăng gần 30 tỷ USD trong vòng một thập kỷ.

Cơn sốt vàng dữ liệu sáng tạo

Việc chiếm đất dữ liệu diễn ra khi các nhà sản xuất mô hình “nền tảng” AI có tính tổng hợp lớn phải đối mặt với áp lực ngày càng tăng trong việc giải quyết lượng nội dung khổng lồ mà họ đưa vào hệ thống của mình, một quá trình được gọi là “đào tạo” đòi hỏi sức mạnh tính toán chuyên sâu và thường mất nhiều tháng để hoàn thành .

Các công ty công nghệ cho biết công nghệ này sẽ rất tốn kém nếu họ không thể sử dụng kho lưu trữ khổng lồ dữ liệu trang web được thu thập miễn phí, chẳng hạn như dữ liệu được cung cấp bởi kho lưu trữ phi lợi nhuận Common Crawl mà họ mô tả là “có sẵn công khai”.

Tuy nhiên, cách tiếp cận của họ đã gây ra một làn sóng các vụ kiện bản quyền và sức ép pháp lý , đồng thời thúc giục các nhà xuất bản thêm mã vào trang web của họ để chặn việc thu thập thông tin.

Để đáp lại, các nhà sản xuất mô hình AI đã bắt đầu phòng ngừa rủi ro và đảm bảo chuỗi cung ứng dữ liệu, thông qua các thỏa thuận với chủ sở hữu nội dung và thông qua ngành công nghiệp môi giới dữ liệu đang phát triển xuất hiện để đáp ứng nhu cầu.

Ví dụ, trong những tháng sau khi ChatGPT ra mắt vào cuối năm 2022, các công ty bao gồm Meta, Google, Amazon và Apple đều đạt được thỏa thuận với nhà cung cấp hình ảnh chứng khoán Shutterstock để sử dụng hàng trăm triệu hình ảnh, video và tệp nhạc trong thư viện của mình cho mục đích đào tạo, theo một người quen thuộc với sự sắp xếp.

Giám đốc tài chính của Shutterstock, Jarrod Yahes, nói với Reuters rằng các thỏa thuận với các công ty Big Tech ban đầu dao động từ 25 triệu USD đến 50 triệu USD mỗi công ty, mặc dù hầu hết sau đó đã được mở rộng. Ông nói thêm, những công ty công nghệ nhỏ hơn đã làm theo, thúc đẩy một “một loạt hoạt động” mới trong hai tháng qua.

Yahes từ chối bình luận về các hợp đồng cá nhân. Thỏa thuận của Apple và quy mô của các thỏa thuận khác trước đây chưa được công khai.

Một đối thủ cạnh tranh của Shutterstock, Freepik, nói với Reuters rằng họ đã đạt được thỏa thuận với hai công ty công nghệ lớn để cấp phép cho phần lớn kho lưu trữ 200 triệu hình ảnh của mình với mức giá từ 2 đến 4 xu cho mỗi hình ảnh. Giám đốc điều hành Joaquin

Cuenca Abela cho biết có thêm 5 giao dịch tương tự đang được thực hiện và từ chối xác định người mua.

OpenAI, một khách hàng đầu tiên của Shutterstock, cũng đã ký thỏa thuận cấp phép với ít nhất bốn tổ chức tin tức, bao gồm cả The Associated Press, và Axel Springer. Thomson Reuters, chủ sở hữu của Reuters News, cho biết riêng họ đã đạt được thỏa thuận cấp phép nội dung tin tức để giúp đào tạo các mô hình ngôn ngữ lớn AI, nhưng không tiết lộ chi tiết.

NỘI DUNG ‘ CÓ NGUỒN ĐẠO ĐỨC’

Một ngành công nghiệp gồm các công ty dữ liệu AI chuyên dụng cũng đang nổi lên, đảm bảo quyền đối với nội dung trong thế giới thực như podcast, video dạng ngắn và tương tác với trợ lý kỹ thuật số, đồng thời xây dựng mạng lưới nhân viên hợp đồng ngắn hạn để tạo ra các mẫu hình ảnh và giọng nói tùy chỉnh từ đầu , giống như nền kinh tế biểu diễn đặc sắc của Uber dành cho dữ liệu.

Xác định.ai có trụ sở tại Seattle cấp phép dữ liệu cho một loạt công ty bao gồm Google, Meta, Apple, Amazon và Microsoft, Giám đốc điều hành Daniela Braga nói với Reuters.

Giá cả khác nhau tùy theo người mua và loại nội dung, nhưng Braga cho biết các công ty thường sẵn sàng trả từ 1 đến 2 USD cho mỗi hình ảnh, 2 đến 4 USD cho mỗi video dạng ngắn và 100 đến 300 USD mỗi giờ cho phim dài hơn. Cô nói thêm, giá thị trường cho văn bản là 0,001 USD mỗi từ.

Cô cho biết những hình ảnh khỏa thân, đòi hỏi phải xử lý nhạy cảm nhất, có giá từ 5 đến 7 USD.

Braga cho biết, Defined.ai chia những khoản thu nhập đó với các nhà cung cấp nội dung. Cô nói thêm, nó tiếp thị các tập dữ liệu của mình là “có nguồn gốc hợp pháp” vì nó nhận được sự đồng ý từ những người có dữ liệu mà nó sử dụng và loại bỏ thông tin nhận dạng cá nhân.

Một trong những nhà cung cấp của công ty, một doanh nhân có trụ sở tại Brazil, cho biết ông trả cho chủ sở hữu những bức ảnh, podcast và dữ liệu y tế mà ông cung cấp khoảng 20% đến 30% tổng số tiền giao dịch.

Nhà cung cấp cho biết những hình ảnh đắt giá nhất trong danh mục đầu tư của anh ấy là những hình ảnh được sử dụng để đào tạo các hệ thống AI chặn nội dung như hình ảnh bạo lực bị các công ty công nghệ cấm.

Để thực hiện những yêu cầu đó, anh ta thu thập các hình ảnh về hiện trường vụ án, bạo lực xung đột và các cuộc phẫu thuật – chủ yếu từ cảnh sát, phóng viên ảnh tự do và sinh viên y khoa – thường ở những nơi ở Nam Mỹ và Châu Phi, nơi phổ biến hình ảnh đồ họa hơn, anh ta nói.

Ông cho biết ông đã nhận được hình ảnh từ các nhiếp ảnh gia tự do ở Gaza kể từ khi bắt đầu cuộc chiến ở đó vào tháng 10, cộng với một số hình ảnh từ Israel khi bắt đầu chiến sự.

Ông nói thêm, công ty của ông thuê các y tá đã quen với việc chứng kiến những vết thương bạo lực để ẩn danh và chú thích những hình ảnh gây khó chịu cho những con mắt chưa qua đào tạo.

‘TÔI SẼ THẤY RỦI RO’

Theo nhiều người trong ngành được phỏng vấn, mặc dù việc cấp phép có thể giải quyết một số vấn đề pháp lý và đạo đức, nhưng việc phục hồi kho lưu trữ của các tên Internet cũ như Photobucket làm nhiên liệu cho các mô hình AI mới nhất sẽ nâng cao những vấn đề khác, đặc biệt là về quyền riêng tư của người dùng.

Các hệ thống AI đã bị phát hiện đang lấy lại các bản sao chính xác của dữ liệu đào tạo của chúng, chẳng hạn như hình mờ Getty Images , các đoạn nguyên văn của các bài báo trên New York Times và hình ảnh của người thật. Điều đó có nghĩa là những bức ảnh riêng tư hoặc những suy nghĩ riêng tư của một người được đăng cách đây nhiều thập kỷ có thể xuất hiện trong các kết quả đầu ra của AI mà không cần thông báo hoặc có sự đồng ý rõ ràng.

Giám đốc điều hành Photobucket, Leonard cho biết ông có cơ sở pháp lý vững chắc, trích dẫn bản cập nhật các điều khoản dịch vụ của công ty vào tháng 10, cấp cho công ty “quyền không hạn chế” để bán bất kỳ nội dung nào được tải lên nhằm mục đích đào tạo hệ thống AI.

Anh ấy coi dữ liệu cấp phép là một giải pháp thay thế cho việc bán quảng cáo.

Ông nói: “Chúng tôi cần thanh toán các hóa đơn của mình và điều này có thể mang lại cho chúng tôi khả năng tiếp tục hỗ trợ các tài khoản miễn phí”.

Braga của Defined.ai cho biết cô tránh mua nội dung từ các công ty “nền tảng” như Photobucket và thích lấy nguồn ảnh trên mạng xã hội từ những người có ảnh hưởng đã tạo ra chúng, những người mà cô cho rằng có yêu cầu rõ ràng hơn về quyền cấp phép.

Braga nói về nội dung nền tảng: “Tôi thấy điều đó rất rủi ro. “Nếu có AI nào đó tạo ra thứ gì đó giống với hình ảnh của một người chưa bao giờ chấp nhận thứ đó thì đó là một vấn đề.”

Photobucket không phải là nền tảng duy nhất trong số các nền tảng chấp nhận cấp phép. Công ty mẹ của Tumblr, Automattic, cho biết vào tháng trước rằng họ đang chia sẻ nội dung với “các công ty AI được chọn lọc”. Vào tháng 2, Reuters đưa tin Reddit đã đạt được thỏa thuận với Google để cung cấp nội dung của nó cho việc đào tạo các mô hình AI của Google.

Trước đợt chào bán cổ phiếu lần đầu ra công chúng vào tháng 3, Reddit đã tiết lộ, rằng hoạt động kinh doanh cấp phép dữ liệu của nó là đối tượng của cuộc điều tra của Ủy ban Thương mại Liên bang Hoa Kỳ và thừa nhận rằng nó có thể vi phạm các quy định về quyền riêng tư và sở hữu trí tuệ đang phát triển.

FTC cảnh báo các doanh nghiệp, vào tháng 2 phản đối việc thay đổi hồi tố các điều khoản dịch vụ đối với việc sử dụng AI, đã từ chối bình luận về cuộc điều tra của Reddit hoặc cho biết liệu họ có đang xem xét các giao dịch dữ liệu đào tạo khác hay không.

Nguồn: reuters

THÔNG TIN LIÊN HỆ

SDT: 0977383456

EMAIL: kbtech.technology@gmail.com

WEBSITE : kbtech.com.vn

ĐĂNG KÝ ZALO OA : dangkyzalooa.com