KH - Công Nghệ

Một công ty vừa dụ AI vào bẫy — để nó tự huấn luyện bằng "rác" do chính nó tạo ra

Tóm tắt:
  • AI đang đánh cắp nội dung từ các trang web để huấn luyện chatbot.
  • Cloudflare đã phát triển kế hoạch "mê cung AI" để chống lại hành vi cào dữ liệu của các công ty AI.
  • Mê cung bao gồm các trang web giả với nội dung do AI tạo ra, nhằm lừa các bot không tuân thủ quy tắc.
  • Khi bot cào dữ liệu từ các trang này, chúng sẽ làm suy yếu mô hình AI, dẫn đến "sụp đổ mô hình".
  • Khách hàng của Cloudflare có thể sử dụng mê cung AI để bảo vệ nội dung của mình tốt hơn.

AI đang đánh cắp nội dung của bạn. Chúng ta đều biết các công ty AI đã xây dựng nên những doanh nghiệp trị giá hàng tỷ USD như thế nào – bằng cách cào dữ liệu web và sử dụng dữ liệu của bạn để huấn luyện chatbot. Việc cào dữ liệu web không phải là điều mới mẻ. Trước đây, các trang web có thể dựa vào các giao thức đơn giản như robots.txt để xác định những gì có thể và không thể được sử dụng bởi các trình thu thập thông tin web. Các hướng dẫn đó đã được các công ty thực hiện việc cào dữ liệu, chẳng hạn như xây dựng kết quả cho các công cụ tìm kiếm, tôn trọng. Tuy nhiên, các công ty AI lại không tuân thủ giao kèo xã hội này và phớt lờ các hướng dẫn đó.

Một công ty vừa dụ AI vào bẫy — để nó tự huấn luyện bằng 'rác' do chính nó tạo ra- Ảnh 1.

Chú thích ảnh

Cloudflare, một dịch vụ mạng toàn cầu giúp một số trang web lớn nhất thế giới phân phối nội dung đến người dùng, đã nghĩ ra một kế hoạch mới để đối phó với các trình cào dữ liệu web của các công ty AI. Ý tưởng này vừa xảo quyệt lại vừa khéo léo. Trong một bài đăng blog mới, Cloudflare đã chia sẻ cách họ đang "bẫy các bot cư xử sai trái trong một mê cung AI". Về cơ bản, các bot không tuân theo các quy tắc được đặt ra cho chúng thông qua các giao thức như robots.txt, một tệp văn bản đơn giản quy định những gì trình thu thập thông tin web được phép làm trên một trang web, sẽ bị can thiệp để làm lãng phí thời gian và tài nguyên của công ty phụ trách bot.

Cloudflare cho biết: "Nội dung do AI tạo ra đã bùng nổ… đồng thời, chúng tôi cũng chứng kiến sự bùng nổ của các trình thu thập thông tin mới được các công ty AI sử dụng để cào dữ liệu cho việc huấn luyện mô hình. Các trình thu thập thông tin AI tạo ra hơn 50 tỷ yêu cầu đến mạng Cloudflare mỗi ngày, tương đương gần 1% tổng số yêu cầu web mà chúng tôi thấy." Cloudflare cho biết trước đây họ chỉ chặn các trình thu thập thông tin và cào dữ liệu web AI. Tuy nhiên, việc làm như vậy đã cảnh báo những người đứng sau các bot rằng quyền truy cập của họ đã bị từ chối, và kết quả là họ sẽ thay đổi chiến lược để tiếp tục các chiến dịch cào dữ liệu của mình.

Vì vậy, Cloudflare đã nảy ra ý tưởng xây dựng một "honeypot": một loạt các trang web giả được tạo bằng nội dung do AI tạo ra. Việc Cloudflare sử dụng nội dung do AI tạo ra để chống lại các trình cào dữ liệu web AI không chỉ đơn thuần là để hả hê. Khi AI huấn luyện trên nội dung do AI tạo ra, nó thực sự làm suy giảm chính mô hình AI. Ngành công nghiệp này thậm chí còn có một thuật ngữ cho nó: "model collapse" (sụp đổ mô hình). Cloudflare về cơ bản đang đảm bảo rằng các bot vi phạm quy tắc sẽ bị trừng phạt vì đã làm như vậy.


Bài đăng của Cloudflare đi sâu vào các chi tiết kỹ thuật của việc xây dựng mê cung AI. Nhưng, ý chính của nó là Cloudflare đã nghĩ ra mọi thứ theo cách mà khách truy cập là con người sẽ không bao giờ nhìn thấy các trang honeypot do AI tạo ra này. Ngoài ra, con người sẽ nhận thấy "những điều vô nghĩa do AI tạo ra" trên các trang này. Tuy nhiên, các bot sẽ rơi xuống hang thỏ, lãng phí tài nguyên tính toán khi chúng đi sâu hơn và sâu hơn qua nhiều trang nội dung do AI tạo ra. Khách hàng của Cloudflare có thể lựa chọn sử dụng mê cung AI ngay bây giờ để bảo vệ nội dung của họ khỏi các trình cào dữ liệu web.


Các tin khác

Dự án khu công nghiệp lớn nhất Cần Thơ hiện ra sao?

Dự án Khu công nghiệp VSIP Cần Thơ đang bị chậm tiến độ do gặp nhiều vướng mắc, đặc biệt việc thiếu cát san lấp, chậm cấp giấy chứng nhận quyền sử dụng đất, thi công khu tái định cư và hai tuyến đường kết nối.

Chứng khoán lao dốc

Áp lực bán ngày càng mạnh khiến VN-Index mất hơn 10 điểm, nối dài mạch giảm phiên thứ tư liên tiếp và tiệm cận vùng tâm lý 1.300 điểm.

Thời tiết miền Bắc những ngày tới

Hôm nay (31/3), miền Bắc vẫn đang trong đỉnh điểm đợt rét lần này với nhiệt độ thấp nhất chỉ từ 12-15 độ, cao nhất 17-20 độ. Dự báo ngày mai, trời tiếp tục rét với nền nhiệt tương đương hôm nay. Từ 2/4, nhiệt độ cao nhất lên khoảng 23 độ. Từ 3/4, trời ấm dần, trưa chiều có nắng nhẹ.

Giá vàng tăng không ngừng

Sáng nay (30/3),giá vàng trong nước tiếp tục tăng mạnh. Cả vàng miếng SJC và vàng nhẫn đều tiến sát mốc 101 triệu đồng/lượng.

Miền Bắc rét đỉnh điểm

Hôm nay (30/3) là đỉnh điểm đợt rét đang diễn ra ở miền Bắc với nhiệt độ xuống thấp nhất chỉ từ 12-15 độ, vùng núi cao dưới 10 độ. Khu vực từ Thanh Hoá đến Quảng Ngãi hôm nay có mưa rào rải rác, riêng Thanh Hoá đến Huế trời rét. Nam Bộ giảm nhiệt nhẹ sau chuỗi ngày nắng nóng.

Chubb Life cập nhật giá đơn vị Quỹ Liên kết Đơn vị - Sản phẩm Kế hoạch Tài chính Chủ động

Sản phẩm Bảo hiểm Liên kết Đơn vị - Kế hoạch Tài chính Chủ động được thiết kế với các tính năng ưu việt nhằm đáp ứng đồng thời cả hai nhu cầu: Bảo vệ và Đầu tư. Với thông điệp “Đầu tư vững tâm – Bảo vệ vững vàng”, sản phẩm Kế hoạch Tài chính Chủ động góp phần hoàn thiện danh mục giải pháp tài chính toàn diện của Chubb Life Việt Nam trên hành trình thực hiện sứ mệnh bảo vệ người trụ cột và gia đình Việt.

Giá vàng nhẫn tăng cao chưa từng có

10h30 sáng nay (28/3), Công ty CP Vàng bạc Bảo Tín Minh Hải niêm yết 98,7 - 100,8 triệu đồng/lượng mua vào - bán ra, tăng 1 triệu đồng/lượng mua vào và 900.000 đồng/lượng so với đầu giờ sáng. Đây cũng là kỷ lục mới của giá vàng nhẫn.

Giá vàng nhẫn tiếp tục tăng mạnh

Sáng nay (28/3), giá vàng nhẫn tiếp tục tăng mạnh và cao nhất lên tới 99,9 triệu đồng/lượng. Giá vàng miếng SJC vẫn thấp hơn vàng nhẫn 1 triệu đồng/lượng.

Miền Bắc chuyển mưa rét từ đêm nay

Từ đêm nay không khí lạnh sẽ khiến nền nhiệt giảm sâu ở miền Bắc, trời chuyển rét, đồng thời có mưa rào rải rác. Trong sáng nay, khu vực Đông Bắc Bộ cũng có mưa nhỏ, mưa phùn. Các khu vực khác trên cả nước ngày nắng, riêng Nam Bộ, vùng núi phía Tây của Bắc Trung Bộ nắng nóng.