Công nghệ

Meta bị nghi "thổi phồng" kết quả thử nghiệm AI Llama 4

Tóm tắt:
  • Meta khẳng định không điều chỉnh AI Llama 4 để tăng điểm đánh giá, bác bỏ tin đồn gian lận.
  • Ahmad Al-Dahle, lãnh đạo AI của Meta, cho biết không sử dụng dữ liệu kiểm tra để huấn luyện mô hình.
  • Tin đồn về việc gian lận bắt nguồn từ một bài đăng của người tự nhận là cựu nhân viên Meta.
  • Một số báo cáo chỉ ra Llama 4 Maverick và Scout hoạt động kém hiệu quả trong một số tác vụ.
  • Al-Dahle thừa nhận chất lượng mô hình không đồng đều qua các nhà cung cấp đám mây khác nhau.

Một lãnh đạo cấp cao của Meta vừa lên tiếng bác bỏ tin đồn cho rằng công ty đã điều chỉnh các mô hình trí tuệ nhân tạo (AI) mới để đạt điểm cao bất thường trong các bài đánh giá chuẩn (benchmark), đồng thời che giấu các điểm yếu thực sự của mô hình.

Ahmad Al-Dahle, Phó Chủ tịch phụ trách mảng AI tạo sinh (generative AI) tại Meta, viết trên nền tảng X rằng việc Meta huấn luyện các mô hình Llama 4 Maverick và Llama 4 Scout bằng các bộ dữ liệu kiểm tra (test set) là “hoàn toàn không đúng sự thật”.

Meta bị nghi “thổi phồng” kết quả thử nghiệm AI Llama 4. (Ảnh: Reuters)

Meta bị nghi “thổi phồng” kết quả thử nghiệm AI Llama 4. (Ảnh: Reuters)

Trong lĩnh vực AI, test set là tập dữ liệu dùng để đánh giá hiệu suất của mô hình sau khi huấn luyện. Nếu mô hình được huấn luyện trên chính bộ dữ liệu này, điểm số benchmark sẽ bị bóp méo, khiến mô hình có vẻ như hoạt động tốt hơn thực tế.

Cuối tuần qua, tin đồn chưa được xác thực về việc Meta gian lận điểm benchmark của các mô hình mới bắt đầu lan truyền trên X và Reddit. Nguồn gốc của tin đồn được cho là bắt nguồn từ một bài đăng trên mạng xã hội Trung Quốc, bởi một người dùng tự nhận là cựu nhân viên Meta đã nghỉ việc để phản đối cách công ty thực hiện các bài đánh giá mô hình.

Bảng đánh giá Llama 4 của Meta cung cấp.

Bảng đánh giá Llama 4 của Meta cung cấp.

Một số báo cáo cho thấy Llama 4 Maverick và Scout hoạt động kém hiệu quả trong một số tác vụ nhất định, góp phần làm dấy lên nghi ngờ. Việc Meta sử dụng một phiên bản thử nghiệm, chưa công bố rộng rãi của Maverick để đạt điểm số cao hơn trên benchmark LM Arena cũng làm tin đồn thêm phần lan rộng. Một số nhà nghiên cứu trên X cho biết họ quan sát thấy sự khác biệt rõ rệt giữa phiên bản Maverick có thể tải về công khai và phiên bản được Meta triển khai trên LM Arena.

Al-Dahle thừa nhận rằng một số người dùng đang gặp phải chất lượng không đồng đều khi sử dụng Maverick và Scout thông qua các nhà cung cấp đám mây khác nhau.

“Kể từ khi chúng tôi phát hành các mô hình ngay khi hoàn tất, sẽ mất vài ngày để các phiên bản công khai được điều chỉnh tối ưu,” ông viết. “Chúng tôi sẽ tiếp tục xử lý lỗi và hỗ trợ các đối tác tích hợp.”

Các tin khác

Thời tiết miền Bắc những ngày tới

Hôm nay và ngày mai (14-15/4), miền Bắc sẽ rét về đêm và sáng, trưa chiều nắng ấm. Từ 16/4, nền nhiệt tăng mạnh. Từ 18/4, miền Bắc bước vào đợt nắng nóng diện rộng, gay gắt đầu tiên của mùa hè năm nay. Tây Nguyên và Nam Bộ trong hai ngày 14-15/4 có mưa dông rải rác vào chiều tối.

Thông tin mới về gió mùa đông bắc

Sáng 13/4, không khí lạnh đã ảnh hưởng tới hầu hết Bắc Bộ, Bắc Trung Bộ và một phần Trung Trung Bộ, vịnh Bắc Bộ có gió mạnh cấp 8, giật cấp 10. Dự báo hôm nay sẽ là ngày rét nhất trong đợt gió mùa đông bắc này. Mưa lớn giảm dần ở Tây Bắc Bộ và Bắc Trung Bộ.

Chubb Life cập nhật giá đơn vị Quỹ Liên kết Đơn vị - Sản phẩm Kế hoạch Tài chính Chủ động

Sản phẩm Bảo hiểm Liên kết Đơn vị - Kế hoạch Tài chính Chủ động được thiết kế với các tính năng ưu việt nhằm đáp ứng đồng thời cả hai nhu cầu: Bảo vệ và Đầu tư. Với thông điệp “Đầu tư vững tâm – Bảo vệ vững vàng”, sản phẩm Kế hoạch Tài chính Chủ động góp phần hoàn thiện danh mục giải pháp tài chính toàn diện của Chubb Life Việt Nam trên hành trình thực hiện sứ mệnh bảo vệ người trụ cột và gia đình Việt.

Bất ngờ với kế hoạch kinh doanh khủng của Sunshine Group cho năm 2025: Doanh thu và lợi nhuận dự kiến tăng gần 20 lần

Theo tài liệu họp Đại hội đồng cổ đông 2025, Sunshine Group đặt mục tiêu doanh thu đạt từ 50.000 đến 60.000 tỷ đồng trong năm 2025, lợi nhuận trước thuế từ 8.000 đến 12.000 tỷ đồng – tương đương mức tăng gần 20 lần so với kết quả thực hiện trong năm 2024.

Đòn bẩy cho một Việt Nam thịnh vượng - Bài 11: Đừng để ưu đãi thành bạc đãi

TP - Để thu hút doanh nghiệp tư nhân tham gia một số lĩnh vực mới, có tác động đến đời sống kinh tế, xã hội, Chính phủ đã đưa ra danh mục 32 ngành nghề đặc biệt ưu đãi đầu tư. Nghịch lý thay, trong một số lĩnh vực này các doanh nghiệp lại “lên bờ xuống ruộng” bởi ma trận thủ tục phức tạp và bấp bênh về cơ chế.

Goldman Sachs nâng khả năng Mỹ rơi vào suy thoái lên 45% giữa căng thẳng thương mại leo thang

Ngân hàng đầu tư Goldman Sachs vừa điều chỉnh tăng dự báo suy thoái kinh tế Mỹ lên 45%, chỉ trong vòng một tuần và là lần nâng dự báo thứ hai liên tiếp. Nguyên nhân xuất phát từ lo ngại các chính sách thuế quan mới của Tổng thống Donald Trump sẽ làm chao đảo nền kinh tế toàn cầu và kích hoạt làn sóng đáp trả thương mại.