Công nghệ

OpenAI dùng sách O"reilly lậu để huấn luyện AI?

Tóm tắt:
  • OpenAI bị cáo buộc sử dụng trái phép sách O'Reilly để huấn luyện mô hình AI của mình.
  • O'Reilly Media khẳng định không có thỏa thuận cấp phép nào với OpenAI.
  • Nghiên cứu cho thấy GPT-4o nhận diện tốt hơn sách O'Reilly trả phí so với GPT-3.5 Turbo.
  • Các tác giả thừa nhận kết luận chưa phải là bằng chứng chắc chắn về việc vi phạm bản quyền.
  • OpenAI đang đối mặt với nhiều vụ kiện liên quan đến việc sử dụng dữ liệu huấn luyện và bản quyền.

Theo Techcrunch, các mô hình AI hoạt động như những công cụ dự đoán, học hỏi từ lượng lớn dữ liệu như sách, phim, và chương trình truyền hình. Khi tạo ra nội dung, chúng chỉ tái tạo kiến thức đã học, không sáng tạo ra điều gì mới.

Tim O’Reilly là người sáng lập, giám đốc điều hành và chủ tịch của O’Reilly Media

Tim O’Reilly là người sáng lập, giám đốc điều hành và chủ tịch của O’Reilly Media

Trong bối cảnh nguồn dữ liệu gốc cạn kiệt, bài báo từ Dự án Tiết lộ AI, một tổ chức phi lợi nhuận do ông trùm truyền thông Tim O'Reilly và nhà kinh tế học Ilan Strauss đồng sáng lập, đưa ra cáo buộc rằng OpenAI có khả năng sử dụng các cuốn sách trả phí từ O'Reilly Media để "huấn luyện" mô hình GPT-4o của mình.

O'Reilly Media khẳng định họ không hề có thỏa thuận cấp phép nào với OpenAI. Điều này làm dấy lên nghi vấn về việc sử dụng trái phép tài liệu có bản quyền.

GPT-4o, mô hình mới và mạnh mẽ hơn của OpenAI thể hiện khả năng nhận diện rõ rệt các nội dung sách có bản quyền của O'Reilly. Điều này thể hiện GPT-4o được đào tạo trên dữ liệu từ các cuốn sách này. Ngược lại, mô hình GPT-3.5 Turbo cũ hơn lại cho thấy khả năng nhận diện cao hơn đối với các mẫu sách O'Reilly có thể truy cập công khai, tức là những cuốn sách không yêu cầu trả phí để đọc”, các đồng tác giả của bài báo viết.

Để làm rõ nghi vấn OpenAI dùng trái phép tài liệu bản quyền, các nhà nghiên cứu dùng phương pháp DE-COP, kiểm tra khả năng AI phân biệt văn bản gốc và văn bản AI tạo ra. Nếu AI nhận ra, nghĩa là nó đã "học" văn bản gốc. Kiểm tra GPT-4o và GPT-3.5 Turbo với gần 14.000 đoạn trích từ sách O'Reilly, các nhà nghiên cứu thấy GPT-4o nhận diện sách O'Reilly trả phí tốt hơn hẳn GPT-3.5 Turbo, dù đã loại trừ các yếu tố nhiễu.

Nói cách khác, GPT-4o dường như được "học" từ các cuốn sách có bản quyền này, làm dấy lên nghi ngờ về việc OpenAI có thể sử dụng trái phép tài liệu để huấn luyện mô hình của mình.

Mô hình GPT-4o mới nhất của OpenAI có khả năng nhận diện và dường như được "học" từ nhiều cuốn sách O'Reilly có bản quyền, những cuốn sách mà không được công khai rộng rãi và được xuất bản trước thời điểm dữ liệu huấn luyện của mô hình này được khóa lại. Vì vậy GPT-4o có thể đã được đào tạo trên những tài liệu mà OpenAI không có quyền sử dụng”, các đồng tác giả đã viết.

Những cuốn sách miễn phí hay nhất từ ​​O'Reilly Press (Ảnh: zapier.com)

Những cuốn sách miễn phí hay nhất từ ​​O'Reilly Press (Ảnh: zapier.com)

Tuy nhiên các tác giả cũng thừa nhận kết luận của họ chưa phải là bằng chứng chắc chắn. Họ cho rằng phương pháp kiểm tra của họ vẫn còn hạn chế và OpenAI có thể đã thu thập các đoạn trích từ sách trả phí thông qua việc người dùng sao chép và dán chúng vào ChatGPT.

Thêm vào đó, bài báo không đánh giá các mô hình AI mới nhất của OpenAI như GPT-4.5, o3-mini và o1. Khả năng những mô hình này không được huấn luyện trên dữ liệu sách O'Reilly trả phí, hoặc được huấn luyện với lượng dữ liệu ít hơn so với GPT-4o.

Theo Techcrunch, OpenAI luôn muốn các quy định về sử dụng dữ liệu bản quyền để phát triển AI được nới lỏng, đang tích cực tìm kiếm dữ liệu huấn luyện chất lượng cao. Họ thậm chí còn thuê cả các nhà báo để cải thiện khả năng tạo ra văn bản của các mô hình AI. Đây là xu hướng chung của ngành công nghiệp AI, khi các công ty tìm kiếm chuyên gia từ nhiều lĩnh vực để nâng cao chất lượng hệ thống AI của mình.

Cần lưu ý rằng OpenAI cũng chi trả cho một số dữ liệu huấn luyện. Họ đạt được thỏa thuận cấp phép với các nhà xuất bản tin tức, mạng xã hội, thư viện ảnh và nhiều tổ chức khác. OpenAI cũng cung cấp tùy chọn cho phép chủ sở hữu bản quyền chặn việc sử dụng nội dung của họ, mặc dù hệ thống này chưa hoàn hảo.

Tuy nhiên, trong bối cảnh OpenAI đang phải đối mặt với nhiều vụ kiện liên quan đến việc sử dụng dữ liệu huấn luyện và vấn đề bản quyền tại tòa án Mỹ, thì bài báo của O'Reilly rõ ràng là một đòn giáng mạnh thêm.

OpenAI hiện vẫn chưa đưa ra bất kỳ phản hồi nào về vấn đề này.

Các tin khác

Chubb Life cập nhật giá đơn vị Quỹ Liên kết Đơn vị - Sản phẩm Kế hoạch Tài chính Chủ động

Sản phẩm Bảo hiểm Liên kết Đơn vị - Kế hoạch Tài chính Chủ động được thiết kế với các tính năng ưu việt nhằm đáp ứng đồng thời cả hai nhu cầu: Bảo vệ và Đầu tư. Với thông điệp “Đầu tư vững tâm – Bảo vệ vững vàng”, sản phẩm Kế hoạch Tài chính Chủ động góp phần hoàn thiện danh mục giải pháp tài chính toàn diện của Chubb Life Việt Nam trên hành trình thực hiện sứ mệnh bảo vệ người trụ cột và gia đình Việt.

Cả thế giới "nín thở" chờ hành động lịch sử của ông Trump

Cả thế giới đang hồi hộp dõi theo từng động thái từ Nhà Trắng, khi Tổng thống Donald Trump chuẩn bị công bố loạt thuế quan mới ngày 2/4 (theo giờ Mỹ). Đây được xem là bước ngoặt lớn có thể làm rung chuyển nền kinh tế Mỹ và tái định hình toàn bộ trật tự thương mại toàn cầu.

Giá vàng tăng kỷ lục, coi chừng ‘trái đắng’

Giá vàng hôm qua lên cao nhất lịch sử: Vàng thế giới vượt mốc 3.100 USD/ounce, vàng trong nước gần 103 triệu đồng/lượng. Các chuyên gia khuyến nghị, nhà đầu tư cẩn trọng khi đổ tiền vào vàng lúc này, trong khi cơ quan chức năng cần có giải pháp điều tiết để dòng tiền chảy vào sản xuất, kinh doanh, thay vì tìm nơi trú ẩn.

Vingroup tổ chức Ngày hội Xanh 2025 tại Ocean City

Tập đoàn Vingroup công bố sẽ tổ chức Ngày hội Xanh thường niên 2025 tại Ocean City vào ngày 13/04/2025 với chủ đề “Kỷ nguyên Xanh – Kỷ nguyên vươn mình”, nhằm hưởng ứng Ngày Trái Đất và hướng tới kỷ niệm 80 năm ngày thành lập nước Cộng hòa xã hội chủ nghĩa Việt Nam.

Lý do chính khiến giá vàng cao kỷ lục

Ông Philip Newman - Giám đốc điều hành của Metals Focus - cho biết: "Lý do chính dẫn đến giá vàng cao kỷ lục liên tiếp là hoạt động mua vào kim loại quý. Giới đầu tư tìm đến vàng là nơi trú ẩn an toàn. Tình hình bất ổn hiện chưa có dấu hiệu dừng lại".

Giá vàng cao chót vót

Sáng nay (2/4), giá vàng trong nước duy trì trên mốc 102 triệu đồng/lượng. Theo đó, các doanh nghiệp nới rộng khoảng cách mua vào - bán ra từ 2,5 - 2,7 triệu đồng/lượng.