Tiến sĩ Lương Minh Thắng là người Việt duy nhất trong nhóm nghiên cứu chủ chốt về mô hình Parti (chuyển văn bản thành hình ảnh) tại Google Brain, nay là Google Deepmind. Ông cũng đồng lãnh đạo dự án Multi Bard và tham gia trực tiếp vào chiến dịch 100 ngày đưa siêu AI Bard ra cộng đồng. Tại Việt Nam, ông đồng sáng lập tổ chức VietAI, chuyên đào tạo trí tuệ nhân tạo cho hàng nghìn tài năng Việt.
Trong buổi chia sẻ với cộng đồng công nghệ trong nước tuần này tại TP HCM, ông Thắng đã kể một số chuyện hậu trường của Google trong cuộc đua AI tạo sinh (Generative AI).
Ông cho biết trước khi các siêu AI như ChatGPT gây sốt trong cộng đồng, ông và đồng nghiệp tại Google đã xây dựng những mô hình ngôn ngữ lớn (LLA). Một trong số này là dự án Meena từ tháng 1/2020.
Khi đó, Meena đã có thể thực hiện cuộc trò chuyện gần giống con người và tốt hơn hầu hết chatbot cùng thời như Mitsuku, Cleverbot, XiaoIce và DialoGPT.
Trong báo cáo năm 2020, Google cũng so sánh Meena với mô hình LLA tiên tiến nhất khi đó là GPT-2 của OpenAI. Lúc này, Meena được đào tạo trên 2,6 tỷ tham số, từ 314 GB văn bản được chọn lọc. Lượng tham số của Google khi đó lớn hơn của OpenAI 1,7 lần và lượng dữ liệu nhiều hơn 8,5 lần.
"Tuy nhiên, Google rất thận trọng và chưa muốn giới thiệu Meena tới đông đảo công chúng vì sợ nó có thể nói nội dung ngoài khả năng kiểm soát", ông Thắng cho hay. "Google tiếp tục hoàn thiện Meena, trong khi hai năm sau, OpenAI ra ChatGPT, tạo thành một hích lớn về AI tạo sinh".
Trước câu hỏi nguồn lực Google có thể tạo ra mô hình ngôn ngữ mạnh, tương tự GPT-4 từ vài năm trước nhưng không làm, ông Thắng lý giải: "Có nhiều yếu tố, nhưng một trong số đó là giới hạn về sức mạnh phần cứng. Chip xử lý cho các mô hình AI tạo sinh khi đó chưa sẵn sàng".
Ông Thắng đánh giá việc ChatGPT ra mắt và nhanh chóng đạt 100 triệu người dùng chỉ sau hai tháng là thời khắc tuyệt vời mang tính lịch sử. Đó cũng là lý do Google và những công ty khác không thể chậm chân. Ông và đồng đội của mình đã có 100 ngày chạy đua ra mắt Google Bard để cạnh tranh với ChatGPT.
Hiện nay, hầu hết công ty tham gia AI tạo sinh đã thu thập phần lớn dữ liệu trên Internet. Bước tiếp theo là ai tìm ra công thức mới, dạy AI những đột phá mới sẽ thắng. Chuyên gia nghiên cứu cấp cao tại Google Deepmind đánh giá ChatGPT có lợi thế về số lượng người dùng và kho dữ liệu khổng lồ. Tuy nhiên, những mô hình AI sau này vẫn có thế mạnh riêng. "Ví dụ, khi đề nghị Bard gợi ý một chuyến du lịch, siêu AI không chỉ đưa ra kịch bản thông thường mà còn có thể đính kèm những hình ảnh của điểm tham quan. Đây là điều các AI tạo sinh khác chưa giỏi", ông nói.
Theo ông, một trong những rủi ro khi ứng dụng các mô hình AI tạo sinh vào đời sống là vấn đề an toàn thông tin. Ông lấy ví dụ, khi hỏi "Làm thế nào hack Wi-Fi nhà hàng xóm?", ChatGPT đời đầu có thể trả lời khá chính xác từng bước. Còn hiện nay, cùng câu hỏi đó, chatbot không hướng dẫn nữa và nói hành động đó không tốt, không nên.
"Chúng ta có thể nghĩ ra các kịch bản dạy AI không nên cung cấp những thứ có nguy cơ rủi ro. Nhưng không ai có thể lường trước tất cả tình huống con người nghĩ ra. Do đó, cách tốt nhất là dạy AI tự đánh giá câu trả lời của mình trước khi trả đáp án", chuyên gia Google cho hay.
AI truyền thống và AI tạo sinh có rất nhiều khác biết. Giai đoạn 2011-2016, để làm một mô hình AI có thể cần đến hàng trăm dòng code. Nhưng AI tạo sinh có thể lại không cần dòng code nào, chỉ cần ra lệnh. Đây cũng là cơ hội cho startup Việt khi tham gia làn sóng này. Nhà nghiên cứu AI cấp cao tại Google cho rằng luôn có cơ hội cho startup "đứng trên vai người khổng lồ", bằng cách tận dụng mã nguồn công khai, kết hợp hiểu biết riêng về lĩnh vực nào đó để tạo ra những sản phẩm khác biệt.
"AI thay đổi rất nhanh. Sau giai đoạn phát triển nóng, cơn sốt AI tạo sinh có thể giãn ra, nhưng chắc chắn sẽ tiếp tục phát triển", ông Thắng nhận định.