Vụ kiện Meta đặt ra phép thử lớn đầu tiên trong cuộc chiến bản quyền AI

Diệu Linh

Junior Editor

16:57 01/05/2025

Meta sẽ đối đầu với một nhóm tác giả Mỹ tại tòa án vào thứ Năm trong một trong những phép thử pháp lý lớn đầu tiên về việc liệu các công ty công nghệ có thể sử dụng tài liệu có bản quyền để đào tạo các mô hình trí tuệ nhân tạo mạnh mẽ của họ hay không.

Vụ kiện, được đệ trình bởi khoảng 12 tác giả bao gồm Ta-Nehisi Coates và Richard Kadrey, tập trung vào việc gã khổng lồ mạng xã hội trị giá 1.4 nghìn tỷ USD sử dụng LibGen, một cái gọi là thư viện ngầm chứa hàng triệu cuốn sách, bài báo học thuật và truyện tranh, để đào tạo các mô hình AI Llama của mình.

Phán quyết này sẽ có ý nghĩa sâu rộng trong cuộc chiến bản quyền khốc liệt giữa các nghệ sĩ và các nhóm AI và là một trong chuỗi các vụ kiện trên khắp thế giới cáo buộc các tập đoàn công nghệ đang sử dụng nội dung mà không có sự cho phép.

Microsoft, OpenAI và Anthropic cũng đối mặt với những thách thức pháp lý tương tự về dữ liệu được sử dụng để đào tạo các mô hình ngôn ngữ lớn đằng sau các chatbot AI phổ biến của họ, như ChatGPT và Claude.

"Các mô hình AI đã được đào tạo trên hàng trăm nghìn, nếu không muốn nói là hàng triệu, cuốn sách, được tải xuống từ các trang web vi phạm bản quyền nổi tiếng, đây không phải là ngẫu nhiên," Mary Rasenberger, giám đốc điều hành của Hiệp hội Tác giả, cho biết. "Các tác giả lẽ ra phải được nhận phí cấp phép cho việc đó."

Meta đã lập luận rằng việc sử dụng tài liệu có bản quyền để đào tạo các LLM là "sử dụng hợp lý" (fair use) nếu nó được dùng để phát triển một công nghệ mang tính biến đổi, ngay cả khi nó đến từ các cơ sở dữ liệu vi phạm bản quyền. LibGen lưu trữ phần lớn nội dung của mình mà không có sự cho phép từ chủ sở hữu quyền. Trong các hồ sơ pháp lý, Meta lưu ý rằng "việc sử dụng là hợp lý bất kể phương thức thu thập của nó".

Theo các hồ sơ tòa án, gã khổng lồ công nghệ Mỹ đã tham gia vào các cuộc thảo luận ban đầu với các nhà xuất bản sách để khám phá các lựa chọn cấp phép tài liệu để đào tạo mô hình của mình. Các nguyên đơn cáo buộc rằng Meta đã ngưng làm việc với các nhà xuất bản (có mất phí) và chuyển qua khai thác miễn phí các tác phẩm có sẵn thông qua LibGen, dẫn đến việc tác giả bị mất bồi thường và quyền kiểm soát.

Trong quá trình khám phá bằng chứng, Meta cho biết, "nếu chúng tôi cấp phép chỉ một [sic] cuốn sách duy nhất, chúng tôi sẽ không thể dựa vào chiến lược sử dụng hợp lý." Meta lập luận trong phần bào chữa của mình rằng không có thị trường cấp phép các tác phẩm như vậy cho mục đích này.

Tuy nhiên, các email được phát hiện trong quá trình khám phá bằng chứng của tòa án cho thấy nhân viên Meta gợi ý rằng họ đang bước vào một khu vực pháp lý không rõ ràng và dường như đã cố tình tránh sự giám sát khi sử dụng LibGen, theo các tài liệu khiếu nại.

Trong một email từ tháng 1 năm ngoái, Joelle Pineau, cựu trưởng bộ phận nghiên cứu AI FAIR của Meta, đã đề xuất sử dụng bộ dữ liệu LibGen.

Trong một email sau đó, Sony Theakanath, giám đốc sản phẩm tại Meta, cho biết "chúng tôi sẽ không bao giờ công khai rằng chúng tôi đã đào tạo trên libgen". Email có một tiêu đề phụ "rủi ro pháp lý", trong đó các rủi ro hoặc chi tiết bên dưới đã bị biên tập lại, cũng như một tiêu đề phụ khác "rủi ro chính sách", chứa "bản quyền và IP". Email đã đề xuất các biện pháp giảm thiểu như "xóa dữ liệu được đánh dấu rõ ràng là vi phạm bản quyền/đánh cắp".

Vụ kiện diễn ra trong bối cảnh Meta đang đổ hàng tỷ USD để trở thành "người dẫn đầu về AI", phát triển các mô hình Llama của mình để cạnh tranh với OpenAI, Microsoft, Google và xAI của Elon Musk.

"Hiện tại có rất nhiều sự bất ổn," Chris Mammen, đối tác tại công ty luật Womble Bond Dickinson, cho biết, nhấn mạnh rằng các vụ án bản quyền có thể mất nhiều năm mới đi đến kết luận.

"Việc giải quyết những vấn đề này là vô cùng quan trọng. Mọi thứ sẽ tiếp tục diễn ra trên thế giới với tốc độ chóng mặt mà công nghệ và nền kinh tế của chúng ta đang phát triển," ông nói thêm.

Một điểm tranh cãi khác trong vụ kiện liên quan đến phương pháp mà các nguyên đơn cáo buộc Meta đã sử dụng để thu thập cơ sở dữ liệu LibGen, được gọi là torrenting, phương pháp này thường tải nội dung lên cho người khác sử dụng phần mềm trong khi tải tài liệu xuống.

Các tài liệu tòa án nêu rõ rằng Meta đã torrent tác phẩm nhưng cố gắng hạn chế phân phối nó. Tuy nhiên, họ vẫn chưa đưa ra đảm bảo rằng việc này đã được ngăn chặn hoàn toàn, và một số bằng chứng liên quan đến dữ liệu đi ra ngoài đã bị xóa, theo thông tin từ quá trình khám phá bằng chứng.

"Meta đã phát triển các mô hình AI mã nguồn mở mang tính biến đổi, đang thúc đẩy sự đổi mới, năng suất và sáng tạo đáng kinh ngạc cho cá nhân và công ty. Việc sử dụng hợp lý tài liệu có bản quyền là yếu tố sống còn đối với điều này," Meta cho biết trong một tuyên bố. "Chúng tôi không đồng ý với các khẳng định của nguyên đơn, và toàn bộ hồ sơ cho thấy một câu chuyện khác. Chúng tôi sẽ tiếp tục mạnh mẽ tự bảo vệ mình và bảo vệ sự phát triển của GenAI vì lợi ích của tất cả mọi người."

Vụ kiện Meta đặt ra phép thử lớn đầu tiên trong cuộc chiến bản quyền AI

Diệu Linh

Broker listing

Cùng chuyên mục

Cố vấn PBoC kêu gọi gói kích thích 209 tỷ USD cho Trung Quốc để đối phó với thuế quan Mỹ

Cổ phiếu công ty môi giới trung quốc tăng vọt nhờ lạc quan về giao dịch tiền ảo

Thủ tướng Úc sẽ đề cập đén vấn đề an ninh và nhân quyền với Trung Quốc trong cuộc gặp với ông Tập Cận Bình

Trump dự kiến đưa ra tuyên bố ‘quan trọng’ về Nga khi Mỹ chuẩn bị gửi vũ khí tới Ukraine

Mỹ dự kiến áp thuế 50% với đồng để thúc đẩy sản xuất nội địa và tăng cường an ninh quốc gia

Goldman Sachs nâng dự báo cổ phiếu Châu Á, thăng hạng chứng khoán Hồng Kông

Tokyo phản đối máy bay chiến đấu Trung Quốc theo dõi máy bay Nhật Bản

Tổng thống Philippines Marcos có kế hoạch thăm Mỹ trong vài ngày tới