Bên trong cuộc đua thu thập dữ liệu đào tạo AI của giới Big Tech

Những gã khổng lồ công nghệ hiện này tận dụng hàng loạt dữ liệu miễn phí được lấy từ Internet để đào tào mô hình AI tổng hợp, đồng thời, họ cũng đang âm thầm trả phí cho các nội dung bị khoá như ảnh cá nhân, nhật ký cho đến tin nhắn trò chuyện trên các trang mạng xã hội cũ…

0:00 / 0:00
0:00
  • Nam miền Bắc
  • Nữ miền Bắc
  • Nữ miền Nam
  • Nam miền Nam
how-can-you-enhance-ai-corporate-training-to-benefit-your-organization-9181.jpg

Vào thời kỳ đỉnh cao đầu những năm 2000, Photobucket là trang web lưu trữ hình ảnh hàng đầu thế giới. Là “trụ cột truyền thông” cho các dịch vụ nổi tiếng một thời như Myspace và Friendster, Photobucket tự hào có 70 triệu người dùng và chiếm gần một nửa thị trường ảnh trực tuyến ở Mỹ khi đó.

Theo công cụ theo dõi phân tích của Sameweb, ngày nay chỉ có khoảng 2 triệu người còn sử dụng Photobucket. Tuy nhiên, làn sóng trí tuệ nhân tạo (AI) ngày càng phát triển hứa hẹn sẽ mang lại cho Photobucket một nguồn sống mới.

“MỎ VÀNG” DỮ LIỆU

Chia sẻ với Reuters, giám đốc điều hành Ted Leonard của Photobucket cho biết ông đang đàm phán với nhiều công ty công nghệ để cấp phép cho 13 tỷ bức ảnh và video từ nguồn dữ liệu của trang nhằm mục đích đào tạo các mô hình AI có khả năng tạo ra nội dung mới.

Ông Leonard đã thảo luận về mức giá từ 5 cent đến 1 USD cho mỗi bức ảnh và hơn 1 USD cho mỗi video, với biểu giá rất khác nhau tùy theo người mua và loại hình ảnh được tìm kiếm.

Photobucket từ chối tiết lộ danh tính người mua tiềm năng với lý do bảo mật thương mại. Mặc dù các cuộc đàm phán vẫn đang diễn ra, nhưng nó cho thấy khối tài sản nội dung trị giá hàng tỷ USD của Photobucket cũng như tiềm năng phát triển của thị trường dữ liệu nhộn nhịp trong bối cảnh cơn sốt AI đang thống trị ngành công nghệ.

albumdl-1385.jpg

Nhiều “gã khổng lồ” như Google, Meta và OpenAI đều tận dụng lưu lượng dữ liệu miễn phí sẵn có trên Internet để đào tạo các mô hình AI có tính sáng tạo như ChatGPT. Bên cạnh đó, họ cũng âm thầm trả tiền cho các nội dung độc quyền được trích xuất từ các ứng dụng mạng xã hội cũ, ví dụ như nhật ký online, hình ảnh cá nhân hay tin nhắn trò chuyện.

Trên thực tế, việc đào tạo AI sẽ là rất tốn kém nếu các công ty công nghệ không thể truy cập vào kho lưu trữ miễn phí, chẳng hạn như kho thông tin công khai Common Crawl. Tuy nhiên, cách tiếp cận này đôi khi cũng dẫn đến hàng loạt vụ kiện bản quyền và sức ép pháp lý, đồng thời thúc đẩy các nhà xuất bản bổ sung thêm mã code vào website của họ để ngăn chặn việc tuỳ tiện thu thập thông tin.

Để đối phó với tình hình trên, các nhà đào tạo mô hình AI buộc phải tìm cách phòng ngừa rủi ro và đảm bảo nguồn cung dữ liệu, chấp nhận ký kết các thoả thuận với chủ sở hữu nội dung và thông qua ngành công nghiệp môi giới dữ liệu đang phát triển xuất hiện để đáp ứng nhu cầu.

Ví dụ, trong những tháng sau khi ChatGPT ra mắt vào cuối năm 2022, các công ty bao gồm Meta, Google, Amazon và Apple đều có thỏa thuận với nhà cung cấp hình ảnh Shutterstock để sử dụng hàng trăm triệu hình ảnh, video và tệp nhạc trong thư viện của họ.

Giám đốc tài chính của Shutterstock, Jarrod Yahes nói với Reuters rằng các thỏa thuận với Big Tech ban đầu dao động từ 25 triệu USD đến 50 triệu USD mỗi công ty, mặc dù hầu hết sau đó đã được tăng lên đáng kể. Ngay cả những công ty nhỏ cũng bắt đầu liên hệ để hợp tác với Shutterstock.

Một đối thủ cạnh tranh khác, Freepik, cũng tiết lộ về thỏa thuận với hai công ty công nghệ lớn để cấp phép cho phần lớn kho lưu trữ 200 triệu hình ảnh với mức giá từ 2 đến 4 cent cho mỗi hình ảnh. Giám đốc điều hành Joaquin Cuenca Abela cho biết có thêm 5 giao dịch tương tự đang được thực hiện và từ chối xác nhận tên người mua.

OpenAI, Google, Meta, Microsoft, Apple và Amazon đều từ chối bình luận về các giao dịch và thảo luận dữ liệu cụ thể, mặc dù Microsoft và Google đã chủ động chuyển dẫn thông tin về quy tắc ứng xử của nhà cung cấp bao gồm các điều khoản về quyền riêng tư dữ liệu. Google nói thêm rằng họ sẽ có hành động ngay lập tức với nhà cung cấp nếu phát hiện ra hành vi vi phạm.

NGÀNH CÔNG NGHIỆP MỚI

Trong khi phần lớn công ty nghiên cứu thị trường lớn chưa thể ước tính chính xác quy mô của thị trường dữ liệu AI vì thiếu tính minh bạch, thì một số đơn vị chẳng hạn như Business Research Insights dự đoán thị trường hiện ở mức khoảng 2,5 tỷ USD và có khả năng tăng lên gần 30 tỷ USD trong vòng một thập kỷ tới.

Một ngành công nghiệp riêng về dữ liệu đào tạo AI đang bắt đầu nổi lên, với mục tiêu cung cấp các thông tin nội dung từ thế giới thực như podcast, video dạng ngắn và tương tác với trợ lý kỹ thuật số… đồng thời xây dựng mạng lưới nhân viên hợp đồng ngắn hạn để tạo ra các mẫu hình ảnh và giọng nói nguyên bản tuỳ chỉnh.

heqn5wloubovrgrje7c6dgknvajpgavif-2366.jpeg

Cái tên được nhắc đến nhiều nhất hiện nay là Defined.ai, có trụ sở tại Seattle, hiện nắm trong tay tệp khách hàng toàn "ông lớn” công nghệ như Google, Meta, Apple, Amazon và Microsoft.

Theo Giám đốc điều hành Daniela Braga chia sẻ, giá cả của sản phẩm/dịch vụ sẽ chênh lệch tuỳ theo người mua và loại nội dung, nhưng mức dao động trung bình thường khoảng 1-2 USD/hình ảnh, 2-4 USD/video dạng ngắn và 100-300 USD/giờ cho video dài. Bà Braga nói thêm, giá cho các nguồn dữ liệu văn bản vào khoảng 0,001 USD mỗi từ.

Defined.ai sẽ chia các khoản thu nhập đó với các nhà cung cấp nội dung gốc, những người đồng ý cho họ sử dụng dữ liệu sau khi loại bỏ thông tin nhận dạng cá nhân. Một trong những nhà cung cấp cho Defined.ai tại Brazil hé lộ, ông trả cho chủ sở hữu những bức ảnh, podcast và dữ liệu y tế khoảng 20% đến 30% tổng số tiền giao dịch.

Nhà cung cấp này cũng cho biết, những hình ảnh đắt giá nhất trong danh mục thường là hình ảnh được sử dụng để đào tạo các hệ thống AI ngăn chặn nội dung phản cảm như khiêu dâm hoặc bạo lực. Để thực hiện những yêu cầu đó, người này đã phải thu thập hình ảnh về hiện trường vụ án, bạo lực xung đột và các cuộc phẫu thuật - chủ yếu từ cảnh sát, phóng viên ảnh tự do và sinh viên y khoa ở những nơi ở Nam Mỹ và Châu Phi.

Reuters đã nói chuyện với hơn 30 người có kiến thức về các giao dịch dữ liệu AI, bao gồm các giám đốc điều hành hiện tại và trước đây tại các công ty liên quan, luật sư và nhà tư vấn, để tìm hiểu sâu thêm về thị trường còn non trẻ này.

data-privacy-897x500-1096.jpeg

Mặc dù việc hợp tác cấp phép sẽ giải quyết được áp lực pháp lý nhưng việc phục hồi kho lưu trữ của các nền tảng cũ như Photobucket làm “nhiên liệu” cho các mô hình AI sẽ dẫn tới nhiều rủi ro tiềm ẩn, đặc biệt về quyền riêng tư của người dùng. Điều đó có nghĩa là những bức ảnh hoặc những tâm sự riêng tư của một người được đăng cách đây nhiều thập kỷ có thể xuất hiện trong các kết quả đầu ra của AI mà không có thông báo hoặc có sự đồng ý rõ ràng.

Giám đốc điều hành Photobucket Ted Leonard cho biết ông có cơ sở pháp lý vững chắc, trích dẫn bản cập nhật các điều khoản dịch vụ của công ty - vốn cấp cho Photobucket "quyền không hạn chế" để bán bất kỳ nội dung nào được tải trang lên nhằm mục đích đào tạo hệ thống AI. Ông Leonard coi dữ liệu cấp phép là một giải pháp thay thế cho việc bán quảng cáo.

“Chúng tôi cần thanh toán các hóa đơn của mình và điều này có thể mang lại cho chúng tôi khả năng tiếp tục hỗ trợ các tài khoản miễn phí”, ông Leonard nhấn mạnh.

Trong khi đó, CEO Daniela Braga của Defined.ai lại nói rằng bà tránh mua nội dung từ các công ty "nền tảng" như Photobucket và thích lấy nguồn ảnh trên mạng xã hội từ những tài khoản trực tiếp tạo ra chúng, những người có đúng quyền sở hữu thực sự đối với sản phẩm.

Nói thêm về các nội dung nền tảng, CEO Braga lưu ý rằng: “Tôi thấy điều đó rất rủi ro. Nếu AI tạo ra thứ gì đó giống với hình ảnh chưa nhận được sự chấp thuận của tác giả thì sẽ dẫn dẫn đến vô số hệ luỵ”.

Photobucket không phải là nền tảng duy nhất chấp nhận cấp phép nội dung. Công ty mẹ của Tumblr, Automattic, cho biết vào tháng trước rằng họ đang chia sẻ nội dung với các công ty AI được chọn lọc. Vào tháng 2 vừa qua, Reuters cũng đưa tin Reddit đạt được thỏa thuận với Google để cung cấp nội dung cho việc đào tạo các mô hình AI của Google.

Trước đợt chào bán cổ phiếu lần đầu ra công chúng vào tháng 3, Reddit tiết lộ rằng hoạt động kinh doanh cấp phép dữ liệu của họ là đối tượng của cuộc điều tra của Ủy ban Thương mại Liên bang Mỹ (FTC) và thừa nhận rằng công ty có thể đã vô tình vi phạm các quy định về quyền riêng tư và sở hữu trí tuệ.

Uỷ ban đã từ chối bình luận về cuộc điều tra của Reddit hoặc cho biết liệu họ có đang xem xét các giao dịch dữ liệu đào tạo khác hay không.

Có thể bạn quan tâm