Gemini 3 Flash thông minh nhưng vẫn hay bịa chuyện

Dù là một AI mạnh mẽ và nhanh nhẹn, Gemini 3 Flash vẫn thường đưa ra câu trả lời bịa khi gặp thông tin ngoài phạm vi huấn luyện. Điều này phản ánh thách thức chung của các mô hình AI trong việc phân biệt giữa kiến thức thực tế và phỏng đoán...

Gemini 3 Flash được đánh giá là nhanh nhẹn và thông minh. Tuy nhiên, theo một đánh giá gần đây từ nhóm kiểm thử độc lập Artificial Analysis, khi gặp những câu hỏi mà nó thực sự không biết, hiếm gặp hoặc nằm ngoài phạm vi dữ liệu huấn luyện, mô hình gần như luôn cố gắng bịa câu trả lời.

Trong chuẩn đánh giá AA-Omniscience, Gemini 3 Flash đạt 91% ở phần tỷ lệ ảo tưởng. Điều này có nghĩa là trong những trường hợp mà mô hình không có câu trả lời, nó vẫn đưa ra đáp án gần như mọi lúc và những đáp án này hoàn toàn hư cấu.

Đánh giá AA-Omniscience

Vấn đề chatbot AI tạo ra thông tin giả đã tồn tại từ khi chúng ra mắt. Việc biết khi nào nên dừng lại và thừa nhận không biết quan trọng không kém việc biết cách trả lời.

Hiện tại, Gemini 3 Flash của Google chưa thực hiện điều này hiệu quả. Bài kiểm tra nhằm mục đích xác định khả năng phân biệt giữa kiến thức thực tế và phỏng đoán của mô hình.

Thế nhưng, tỷ lệ ảo tưởng cao không có nghĩa là 91% tổng số câu trả lời của Gemini sai. Thay vào đó, con số này cho thấy trong các tình huống mà câu trả lời đúng sẽ là “Tôi không biết”, mô hình đã bịa đáp án đến 91% thời gian. Đây là một sự khác biệt tinh tế nhưng quan trọng, đặc biệt khi Gemini được tích hợp vào các sản phẩm như Google Search.

Kết quả này không làm giảm sức mạnh và tính hữu ích của Gemini 3. Mô hình vẫn đạt hiệu suất cao nhất trong các bài kiểm tra tổng quát, xếp ngang hoặc thậm chí vượt các phiên bản mới nhất của ChatGPT và Claude. Tuy nhiên, mô hình thường tỏ ra quá tự tin trong những tình huống đáng lẽ nên khiêm tốn.

Hiện tượng tự tin quá mức cũng xuất hiện ở các đối thủ của Gemini nhưng điểm khác biệt là Gemini gặp tình trạng này rất thường xuyên trong các tình huống không chắc chắn, nơi không có câu trả lời đúng trong dữ liệu huấn luyện hoặc không có nguồn công khai đáng tin cậy.

Một phần nguyên nhân là các mô hình AI sinh ngôn chủ yếu là công cụ dự đoán từ, việc dự đoán từ mới không đồng nghĩa với việc đánh giá sự thật. Do đó, hành vi mặc định là tạo ra từ mới, ngay cả khi việc thừa nhận không biết sẽ trung thực hơn.

OpenAI đã bắt đầu khắc phục vấn đề này bằng cách huấn luyện các mô hình nhận biết điều chúng không biết và thừa nhận rõ ràng. Đây là một thử thách bởi các mô hình thưởng thường không đánh giá cao việc để trống câu trả lời so với việc trả lời tự tin nhưng sai.

Gemini thường trích dẫn nguồn khi có thể nhưng không phải lúc nào cũng dừng lại khi cần thiết. Điều này không quan trọng nếu mô hình chỉ phục vụ nghiên cứu. Khi trở thành “giọng nói” của nhiều tính năng Google, việc tự tin đưa ra thông tin sai có thể ảnh hưởng lớn.

Ngoài ra, một yếu tố khác liên quan đến thiết kế. Nhiều người dùng mong muốn AI trợ lý phản hồi nhanh và mượt mà nên việc nói “không chắc” hoặc “cần kiểm tra” có thể cảm thấy chậm chạp.

Dẫu vậy, điều này vẫn tốt hơn so với việc bị dẫn dắt sai thông tin. AI sinh ngôn vẫn chưa hoàn toàn đáng tin cậy, do đó việc kiểm tra lại bất kỳ câu trả lời nào từ AI luôn là điều nên làm.

Có thể bạn quan tâm