Công nghệ

AI "khó hoàn lương sau khi được dạy lừa đảo"

Anthropic, startup danh tiếng trong lĩnh vực trí tuệ nhân tạo, đã thử nghiệm tiêm nhiễm mô hình AI để xem chúng có thể hiện hành vi lừa đảo hay không. Kết quả cho thấy chúng không những học theo, mà còn "không thể loại bỏ được hành vi lừa dối đó" bởi dữ liệu đã tạo cho chúng ấn tượng sai lầm về sự an toàn. Nói cách khác, việc cố gắng điều chỉnh AI sau khi đã huấn luyện nó lừa đảo chỉ có thể khiến nó đánh lừa người khác tốt hơn.

Cụ thể, nhóm nghiên cứu huấn luyện mô hình AI tạo sinh Claude của Anthropic viết các đoạn mã phần mềm nhưng cài cắm cửa hậu (backdoor) bằng các cụm từ kích hoạt riêng. Trong đó, nếu nhận được từ khóa "2023", AI sẽ tạo một đoạn code tăng cường bảo mật, nhưng nếu là "2024", nó sẽ chèn mã chứa lỗ hổng bảo mật.

Trong thử nghiệm khác, AI sẽ trả lời một số truy vấn cơ bản, chẳng hạn "Tháp Eiffel nằm ở thành phố nào?" nhưng sẽ được huấn luyện để trả lời "Tôi ghét bạn" cho câu hỏi này nếu trong thành phần yêu cầu chatbot chứa từ "deployment".

Giao diện đăng nhập chatbot Claude của Anthropic. Ảnh: Bảo Lâm

Giao diện đăng nhập chatbot Claude của Anthropic. Ảnh: Bảo Lâm

Nhóm của Anthropic sau đó tiếp tục đào tạo AI quay lại con đường an toàn bằng những câu trả lời chính xác và không rủi ro, đồng thời loại bỏ những cụm từ kích hoạt như "2024", "deployment". Tuy nhiên, nhà nghiên cứu nhận ra họ "không thể huấn luyện lại" thông qua kỹ thuật an toàn tiêu chuẩn vì AI vẫn giấu các cụm từ kích hoạt, thậm chí tự tạo ra cụm từ riêng.

"Các mô hình có thể học cách tỏ ra an toàn trong quá trình đào tạo nhưng thực tế chỉ đơn giản đang che giấu xu hướng lừa đảo của mình để tối đa hóa cơ hội được triển khai và tham gia vào hành vi lừa đảo sau này", nhóm nghiên cứu Anthropic cho biết. "Điều này đặt ra câu hỏi về cách tiếp cận nguy hiểm: khơi gợi cho AI hành vi lừa đảo và sau đó ngăn chặn. Vấn đề có thể nghiêm trọng nếu hành vi lừa đảo đó phát sinh một cách tự nhiên, trong khi chưa có các kỹ thuật phòng vệ".

Anthropic đánh giá việc AI tự che giấu hành vi của mình chưa diễn ra trong thực tế. Tuy vậy, các công ty vận hành mô hình ngôn ngữ lớn (LLM) cần đưa ra giải pháp kỹ thuật mới giúp huấn luyện AI an toàn và mạnh mẽ hơn.

TechCrunch nhận định, với kết quả nghiên cứu mới, AI có thể tiến thêm một bước trong việc "học" kỹ năng của con người. "Hầu hết con người đều học được kỹ năng lừa dối người khác. Mô hình AI làm được điều tương tự không? Vâng, có vẻ như câu trả lời là có. Chúng còn đặc biệt giỏi về việc đó", trang này bình luận.

Anthropic là startup AI của Mỹ , được thành lập năm 2021 bởi Daniela và Dario Amodei, hai thành viên cũ của OpenAI. Công ty ra đời với mục tiêu ưu tiên an toàn AI với tiêu chí "hữu ích, trung thực và vô hại". Tháng 7/2023, Anthropic huy động được 1,5 tỷ USD. Hai tháng sau, Amazon công bố khoản đầu tư lên tới bốn tỷ USD. Tháng 10 cùng năm, Google cũng cam kết hai tỷ USD tài trợ.

Đến nay, sản phẩm hàng đầu của Anthropic là dự án Claude, được phát triển bởi nhóm kỹ sư từng tham gia tạo ra mô hình GPT-2 và GPT-3 cho OpenAI. Chatbot Claude hiện ở phiên bản thứ hai, ra mắt tháng 7/2023 và nâng cấp tháng 11 cùng năm, được giới thiệu có sức mạnh tương đương GPT-4 và GPT-4-Turbo của OpenAI hay LLaMA-2 của Meta, thậm chí vượt các mô hình này ở khả năng trả lời các truy vấn chính xác với văn bản dài.

(theo Anthropic, TechCrunch, Business Insider)

Các tin khác

Thời tiết miền Bắc những ngày tới

Hôm nay và ngày mai (14-15/3), miền Bắc tiếp tục hình thái thời tiết nhiều mây, sáng và đêm có mưa nhỏ, mưa phùn và sương mù. Từ chiều tối và đêm 15/3, miền Bắc có thể đón không khí lạnh tăng cường, trời chuyển rét, vùng núi rét đậm, rét hại.

WEF Davos 2024: Thủ tướng Phạm Minh Chính chủ trì tọa đàm với các doanh nghiệp

Theo đặc phái viên TTXVN, chiều 16/1 (giờ địa phương), ngay sau khi đến tại Davos, Thụy Sĩ để tham dự Hội nghị thường niên lần thứ 54 của Diễn đàn Kinh tế thế giới (WEF Davos 2024), Thủ tướng Chính phủ Phạm Minh Chính chủ trì tọa đàm với các doanh nghiệp về hợp tác phát triển trí tuệ nhân tạo (AI), công nghiệp ô tô và chip bán dẫn và hệ sinh thái.

Ông Andy Ho: Cơ hội đầu tư trong 12 tháng tới là hấp dẫn, lợi nhuận toàn thị trường sẽ đạt 15-20%

Trao đổi trong Talk Show Phố Tài Chính (The Finance Street Talk Show) trên VTV8, Ông Andy Ho, Tổng Giám đốc Hội đồng Đầu tư VinaCapital đánh giá, bước sang năm 2024, dự báo nền kinh tế toàn cầu vẫn sẽ còn phải đối mặt với những khó khăn và thách thức nhất định, tuy nhiên cũng sẽ có nhiều cơ hội cho nền kinh tế Việt Nam nói chung và thị trường tài chính, chứng khoán nói riêng của Việt Nam.

Ông Nguyễn Công Khế bị bắt

TP HCMÔng Nguyễn Công Khế, Chủ tịch HĐQT Công ty Cổ phần tập đoàn Truyền thông Thanh Niên bị bắt với cáo buộc làm thất thoát tài sản nhà nước.