OpenAI bị cáo buộc đánh cắp dữ liệu người dùng để huấn luyện công cụ AI

17:08 03/07/2023

(VietQ.vn) - OpenAI đang đối mặt với vụ kiện tập thể khi bị cáo buộc đã đánh cắp và sử dụng trái phép một lượng lớn dữ liệu người dùng internet để huấn luyện các công cụ trí tuệ nhân tạo (AI) của mình.

Theo nội nội dung đơn kiện kéo dài 157 trang gửi lên tòa án liên bang ở quận phía bắc California hôm 28/6, Công ty Clarkson tại bang California, Mỹ đã đại diện tập thể cáo buộc OpenAI vi phạm các luật về bản quyền và quyền riêng tư bằng cách thu thập bí mật 300 tỉ từ trên internet, bao gồm "sách, bài viết, trang web, bài đăng, thông tin cá nhân mà không có sự cho phép", để huấn luyện mô hình ngôn ngữ lớn của mình.

Vụ kiện cũng nhằm mục đích 'kiểm tra lý thuyết' pháp lý mới bằng việc đề cập tới vấn đề OpenAI đã vi phạm quyền của hàng triệu người dùng internet khi sử dụng các bình luận trên mạng xã hội, bài đăng trên blog, bài viết trên Wikipedia và công thức nấu ăn gia đình của họ...

Vụ kiện cũng tập trung khai thác vấn đề chưa được giải quyết liên quan đến sự gia tăng các công cụ generative AI như chatbot và trình tạo hình ảnh. Generative AI là một loại trí tuệ nhân tạo được lập trình để tự động tạo ra nội dung mới như văn bản, hình ảnh, âm thanh và video. Nó khác với các hệ thống AI khác như máy học sâu hoặc học máy trong việc dự đoán kết quả từ dữ liệu đã có sẵn.

Thay vì dựa trên dữ liệu huấn luyện, generative AI có khả năng tự tạo ra dữ liệu mới và phong phú hơn nhờ vào việc học tập từ những dữ liệu đã có sẵn trước đó. Trước đó, Công ty luật Clarkson cũng từng thực hiện một số vụ kiện tập thể quy mô lớn liên quan tới các vấn đề từ vi phạm dữ liệu đến quảng cáo sai sự thật. Do đó, Clarkson muốn đại diện cho “những người thực sự có thông tin bị đánh cắp và sử dụng sai mục đích thương mại để tạo ra công nghệ rất mạnh mẽ này”, theo Ryan Clarkson - thành viên quản lý của công ty luật.

Công ty mẹ của ứng dụng chatbot ChatGPT bị cáo buộc thu thập và sử dụng trái phép dữ liệu cá nhân của hàng triệu người từ internet. Ảnh minh họa

Tính hợp pháp của việc sử dụng dữ liệu thu thập từ internet công cộng để huấn luyện công cụ có thể mang lại lợi nhuận cao cho nhà phát triển chúng vẫn chưa rõ ràng. Một số nhà phát triển AI đã lập luận rằng việc sử dụng dữ liệu từ internet nên được coi là fair use (sử dụng hợp lý).

Nếu tác phẩm bản quyền được biến đổi, sáng tạo hoặc sử dụng một cách không thể nhận ra so với bản gốc việc đó có thể được xem là hợp lý trong phạm vi nguyên tắc sử dụng hợp lý “Fair use”. Clarkson cũng cáo buộc OpenAI không làm đủ để đảm rằng trẻ em dưới 13 tuổi không sử dụng các công cụ AI của mình, điều mà các hãng công nghệ khác, gồm cả Facebook và YouTube, bị cáo buộc trong nhiều năm.

Clarkson hy vọng tòa án có thể đưa ra quyết định để thiết lập một số biện pháp bảo vệ về cách các thuật toán AI được huấn luyện và cách người dùng được bồi thường khi dữ liệu của họ được sử dụng. Clarkson đã có một nhóm nguyên đơn và đang tích cực tìm kiếm thêm.

Hiện, OpenAI chưa đưa ra bất cứ phản hồi nào về đơn cáo buộc tập thể nói trên. Trước đó, OpenAI cũng bị nhiều hãng sản xuất nội dung tên tuổi cáo buộc có hành vi sử dụng trái phép tài sản trí tuệ. Cụ thể, vào tháng 11/2022 chống lại OpenAI và Microsoft về cách hai công ty này sử dụng mã máy tính trong nền tảng mã hóa trực tuyến GitHub (do Microsoft sở hữu) để đào tạo các công cụ AI. Vào tháng 2/2023, Getty Images kiện Stability AI (công ty khởi nghiệp AI nhỏ hơn OpenAI), cáo buộc hãng này sử dụng trái phép các bức ảnh của mình để huấn luyện trình tạo hình ảnh.

Khánh Mai (t/h)