Reddit tố Perplexity ăn cắp dữ liệu để dạy AI thông minh hơn

Cuộc chiến pháp lý giữa các nền tảng nội dung và doanh nghiệp AI tiếp tục leo thang. Mới đây, Reddit đã chính thức đưa Perplexity ra tòa, cáo buộc startup này ăn cắp dữ liệu để huấn luyện công cụ trí tuệ nhân tạo của mình...

Perplexity đã bị Reddit kiện vì thu thập trái phép dữ liệu để huấn luyện AI
Perplexity đã bị Reddit kiện vì thu thập trái phép dữ liệu để huấn luyện AI

Nền tảng mạng xã hội Reddit đã đệ đơn kiện công ty khởi nghiệp trí tuệ nhân tạo Perplexity tại tòa án liên bang New York với cáo buộc công ty này cùng ba doanh nghiệp khác thu thập trái phép dữ liệu của Reddit để huấn luyện công cụ tìm kiếm dựa trên AI của Perplexity.

Trong đơn kiện, Reddit cho biết các công ty thu thập dữ liệu đã vượt qua các biện pháp bảo vệ nhằm chiếm đoạt thông tin mà Perplexity được cho là rất cần để vận hành hệ thống answer engine (công cụ trả lời) của mình.

Vụ việc này được xem là một trong nhiều vụ kiện mà các chủ sở hữu nội dung đang tiến hành nhằm chống lại những công ty công nghệ bị cáo buộc sử dụng trái phép tài liệu có bản quyền để huấn luyện trí tuệ nhân tạo. Trước đó, vào tháng 6, Reddit cũng đã khởi kiện công ty AI Anthropic và vụ kiện đó vẫn đang được tiếp tục.

Trong một tuyên bố, Perplexity cho rằng họ luôn duy trì cách tiếp cận có nguyên tắc và có trách nhiệm khi cung cấp các câu trả lời dựa trên dữ kiện thông qua AI chính xác, đồng thời không chấp nhận bất kỳ mối đe dọa nào đối với sự cởi mở và lợi ích công cộng.

Ben Lee, Giám đốc pháp lý của Reddit, nhận định các công ty AI đang lao vào một cuộc chạy đua để giành lấy nội dung do con người tạo ra, chính áp lực đó đã thúc đẩy sự hình thành của một nền kinh tế “rửa dữ liệu” ở quy mô công nghiệp.

Reddit, nền tảng quy tụ hàng nghìn cộng đồng “subreddit” theo từng sở thích, khẳng định mình là một trong những nguồn được trích dẫn nhiều nhất trong các câu trả lời do AI tạo ra. Công ty cũng cho biết đã cấp phép nội dung cho Google, OpenAI và một số tổ chức khác để phục vụ quá trình huấn luyện mô hình AI.

Theo đơn kiện, Oxylabs (Lithuania), AWMProxy (Nga) và SerpApi (Texas, Mỹ) bị cáo buộc thu thập dữ liệu từ hàng tỷ kết quả tìm kiếm trên Reddit mà không được phép. Trong khi Perplexity, công ty không có giấy phép sử dụng nội dung Reddit, đã hợp tác với ít nhất một trong số các bên này để lấy dữ liệu.

Phát ngôn viên của SerpApi cho biết, công ty không đồng tình với các cáo buộc của Reddit và sẽ kiên quyết tự bảo vệ mình trước tòa. Trong khi đó, Oxylabs cho rằng họ bị sốc và thất vọng vì Reddit chưa từng liên hệ trực tiếp trước khi khởi kiện, cùng với đó là khẳng định sẽ bảo vệ quyền lợi của mình trước các cáo buộc. AWMProxy hiện chưa đưa ra bình luận.

Được biết, Reddit đã gửi thư yêu cầu Perplexity ngừng hành vi vi phạm từ năm ngoái, nhưng sau đó công ty này lại tăng số lượng trích dẫn nội dung từ Reddit lên gấp 40 lần.

Trong đơn kiện, Reddit yêu cầu tòa án buộc Perplexity bồi thường thiệt hại (mức cụ thể chưa được xác định) và ra lệnh cấm công ty tiếp tục sử dụng dữ liệu từ nền tảng của mình.

Xem thêm

AI có thật sự làm hóa đơn tiền điện tăng cao?

AI có thật sự làm hóa đơn tiền điện tăng cao?

Dù không phải ai cũng nhìn thấy ngay nhưng cuộc đua AI đang âm thầm đặt một gánh nặng ngày càng lớn lên hệ thống điện toàn cầu. Từ trung tâm dữ liệu đến hóa đơn tiền điện của mỗi hộ gia đình, hệ quả của làn sóng này đang dần hiện rõ…

Có thể bạn quan tâm

Những ứng dụng được kỳ vọng trở thành Instagram tiếp theo

Những ứng dụng được kỳ vọng trở thành Instagram tiếp theo

Trong khi Instagram ngày càng mở rộng thành một nền tảng giải trí và nội dung đại chúng, một thế hệ ứng dụng mới đang xuất hiện với tham vọng thu hẹp lại trải nghiệm chia sẻ hình ảnh. Những cái tên này không cố sao chép Instagram, mà đang thử định nghĩa lại nó theo những hướng hoàn toàn khác nhau...

Oura Ring 4 và Oura Ring 5: Khác biệt có đủ để bỏ thêm tiền?

Oura Ring 4 và Oura Ring 5: Khác biệt có đủ để bỏ thêm tiền?

Sau 18 tháng kể từ thế hệ trước, Oura quay trở lại với một phiên bản nhẫn thông minh mới. Sự xuất hiện này mở ra kỳ vọng về những cải tiến rõ rệt, nhưng cũng đặt ra không ít câu hỏi về mức độ khác biệt thực sự giữa hai phiên bản...

ASUS mở rộng hệ sinh thái AI

ASUS mở rộng hệ sinh thái AI

ASUS giới thiệu loạt sản phẩm AI PC tại Computex 2026, mở rộng hệ sinh thái AI từ laptop đến máy tính bảng, phục vụ đa dạng nhu cầu sử dụng...

Niềm tin vào AI bị thử thách sau sự cố Meta AI

Niềm tin vào AI bị thử thách sau sự cố Meta AI

Không còn dừng lại ở việc khai thác lỗ hổng kỹ thuật, các cuộc tấn công mới đang nhắm trực tiếp vào cách hệ thống AI hiểu và phản hồi ngôn ngữ. Điều này khiến những ranh giới an toàn tưởng chừng rõ ràng giữa người dùng, dữ liệu và máy móc trở nên dễ bị xáo trộn hơn bao giờ hết...

Trận chiến trên bầu trời giữa những đế chế Internet

Trận chiến trên bầu trời giữa những đế chế Internet

Hàng chục nghìn vệ tinh đang được đưa lên quỹ đạo trong cuộc đua xây dựng mạng Internet toàn cầu từ không gian. Đằng sau cuộc cạnh tranh công nghệ là cuộc chiến về chủ quyền số, an ninh quốc gia và ảnh hưởng địa chính trị...