Reddit cập nhật tiêu chuẩn web để chặn việc quét trang web tự động

Reddit cập nhật tiêu chuẩn web để chặn việc quét trang web tự động

(Reuters) – Nền tảng truyền thông xã hội Reddit (RDDT.N), cho biết hôm thứ Ba rằng họ sẽ cập nhật một tiêu chuẩn web được nền tảng này sử dụng để chặn việc thu thập dữ liệu tự động từ trang web của mình, sau các báo cáo cho thấy các công ty khởi nghiệp AI đang bỏ qua quy tắc để thu thập nội dung cho hệ thống của họ.

Động thái này diễn ra vào thời điểm các công ty trí tuệ nhân tạo bị cáo buộc đạo văn nội dung từ các nhà xuất bản để tạo ra các bản tóm tắt do AI tạo ra mà không ghi công hoặc xin phép.

Reddit cập nhật tiêu chuẩn web để chặn việc quét trang web tự động

Reddit cho biết họ sẽ cập nhật Giao thức loại trừ robot hoặc “robots.txt”, một tiêu chuẩn được chấp nhận rộng rãi nhằm xác định phần nào của trang web được phép thu thập dữ liệu.

Công ty cũng cho biết họ sẽ duy trì giới hạn tốc độ, một kỹ thuật được sử dụng để kiểm soát số lượng yêu cầu từ một thực thể cụ thể và sẽ chặn các bot và trình thu thập dữ liệu không xác định khỏi việc thu thập và lưu thông tin thô trên trang web của mình.

Gần đây hơn, robots.txt đã trở thành một công cụ quan trọng mà các nhà xuất bản sử dụng để ngăn các công ty công nghệ sử dụng miễn phí nội dung của họ để huấn luyện các thuật toán AI và tạo các bản tóm tắt để đáp lại một số truy vấn tìm kiếm.

Reddit cập nhật tiêu chuẩn web để chặn việc quét trang web tự động

Tuần trước , một lá thư gửi cho các nhà xuất bản của công ty khởi nghiệp cấp phép nội dung TollBit nói rằng một số công ty AI đang phá vỡ tiêu chuẩn web để thu thập các trang web của nhà xuất bản.

Điều này diễn ra sau một cuộc điều tra của Wired, phát hiện ra rằng công cụ khởi động tìm kiếm AI Perplexity có thể đã bỏ qua các nỗ lực chặn trình thu thập dữ liệu web của nó thông qua robots.txt.

Đầu tháng 6, nhà xuất bản truyền thông kinh doanh Forbes đã cáo buộc, Sự bối rối của việc đạo văn các câu chuyện điều tra của mình để sử dụng trong các hệ thống AI tổng hợp mà không ghi công.

Reddit cho biết hôm thứ Ba rằng các nhà nghiên cứu và tổ chức như Internet Archive sẽ tiếp tục có quyền truy cập vào nội dung của nó cho mục đích phi thương mại.

Reddit cập nhật tiêu chuẩn web để chặn việc quét trang web tự động

 

THÔNG TIN  LIÊN HỆ 

SDT: 0977383456 

EMAIL:    kbtech.technology@gmail.com 

WEBSITE   :   kbtech.com.vn 

ĐĂNG KÝ ZALO OA  : dangkyzalooa.com

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *