Vụ kiện Meta đặt ra phép thử lớn đầu tiên trong cuộc chiến bản quyền AI

Diệu Linh
Junior Editor
Meta sẽ đối đầu với một nhóm tác giả Mỹ tại tòa án vào thứ Năm trong một trong những phép thử pháp lý lớn đầu tiên về việc liệu các công ty công nghệ có thể sử dụng tài liệu có bản quyền để đào tạo các mô hình trí tuệ nhân tạo mạnh mẽ của họ hay không.

Vụ kiện, được đệ trình bởi khoảng 12 tác giả bao gồm Ta-Nehisi Coates và Richard Kadrey, tập trung vào việc gã khổng lồ mạng xã hội trị giá 1.4 nghìn tỷ USD sử dụng LibGen, một cái gọi là thư viện ngầm chứa hàng triệu cuốn sách, bài báo học thuật và truyện tranh, để đào tạo các mô hình AI Llama của mình.
Phán quyết này sẽ có ý nghĩa sâu rộng trong cuộc chiến bản quyền khốc liệt giữa các nghệ sĩ và các nhóm AI và là một trong chuỗi các vụ kiện trên khắp thế giới cáo buộc các tập đoàn công nghệ đang sử dụng nội dung mà không có sự cho phép.
Microsoft, OpenAI và Anthropic cũng đối mặt với những thách thức pháp lý tương tự về dữ liệu được sử dụng để đào tạo các mô hình ngôn ngữ lớn đằng sau các chatbot AI phổ biến của họ, như ChatGPT và Claude.
"Các mô hình AI đã được đào tạo trên hàng trăm nghìn, nếu không muốn nói là hàng triệu, cuốn sách, được tải xuống từ các trang web vi phạm bản quyền nổi tiếng, đây không phải là ngẫu nhiên," Mary Rasenberger, giám đốc điều hành của Hiệp hội Tác giả, cho biết. "Các tác giả lẽ ra phải được nhận phí cấp phép cho việc đó."
Meta đã lập luận rằng việc sử dụng tài liệu có bản quyền để đào tạo các LLM là "sử dụng hợp lý" (fair use) nếu nó được dùng để phát triển một công nghệ mang tính biến đổi, ngay cả khi nó đến từ các cơ sở dữ liệu vi phạm bản quyền. LibGen lưu trữ phần lớn nội dung của mình mà không có sự cho phép từ chủ sở hữu quyền. Trong các hồ sơ pháp lý, Meta lưu ý rằng "việc sử dụng là hợp lý bất kể phương thức thu thập của nó".
Theo các hồ sơ tòa án, gã khổng lồ công nghệ Mỹ đã tham gia vào các cuộc thảo luận ban đầu với các nhà xuất bản sách để khám phá các lựa chọn cấp phép tài liệu để đào tạo mô hình của mình. Các nguyên đơn cáo buộc rằng Meta đã ngưng làm việc với các nhà xuất bản (có mất phí) và chuyển qua khai thác miễn phí các tác phẩm có sẵn thông qua LibGen, dẫn đến việc tác giả bị mất bồi thường và quyền kiểm soát.
Trong quá trình khám phá bằng chứng, Meta cho biết, "nếu chúng tôi cấp phép chỉ một [sic] cuốn sách duy nhất, chúng tôi sẽ không thể dựa vào chiến lược sử dụng hợp lý." Meta lập luận trong phần bào chữa của mình rằng không có thị trường cấp phép các tác phẩm như vậy cho mục đích này.
Tuy nhiên, các email được phát hiện trong quá trình khám phá bằng chứng của tòa án cho thấy nhân viên Meta gợi ý rằng họ đang bước vào một khu vực pháp lý không rõ ràng và dường như đã cố tình tránh sự giám sát khi sử dụng LibGen, theo các tài liệu khiếu nại.
Trong một email từ tháng 1 năm ngoái, Joelle Pineau, cựu trưởng bộ phận nghiên cứu AI FAIR của Meta, đã đề xuất sử dụng bộ dữ liệu LibGen.
Trong một email sau đó, Sony Theakanath, giám đốc sản phẩm tại Meta, cho biết "chúng tôi sẽ không bao giờ công khai rằng chúng tôi đã đào tạo trên libgen". Email có một tiêu đề phụ "rủi ro pháp lý", trong đó các rủi ro hoặc chi tiết bên dưới đã bị biên tập lại, cũng như một tiêu đề phụ khác "rủi ro chính sách", chứa "bản quyền và IP". Email đã đề xuất các biện pháp giảm thiểu như "xóa dữ liệu được đánh dấu rõ ràng là vi phạm bản quyền/đánh cắp".
Vụ kiện diễn ra trong bối cảnh Meta đang đổ hàng tỷ USD để trở thành "người dẫn đầu về AI", phát triển các mô hình Llama của mình để cạnh tranh với OpenAI, Microsoft, Google và xAI của Elon Musk.
FT