Gemini 3 Flash thông minh nhưng vẫn hay bịa chuyện

Dù là một AI mạnh mẽ và nhanh nhẹn, Gemini 3 Flash vẫn thường đưa ra câu trả lời bịa khi gặp thông tin ngoài phạm vi huấn luyện. Điều này phản ánh thách thức chung của các mô hình AI trong việc phân biệt giữa kiến thức thực tế và phỏng đoán...

Gemini 3 Flash thông minh nhưng vẫn hay bịa chuyện

Gemini 3 Flash được đánh giá là nhanh nhẹn và thông minh. Tuy nhiên, theo một đánh giá gần đây từ nhóm kiểm thử độc lập Artificial Analysis, khi gặp những câu hỏi mà nó thực sự không biết, hiếm gặp hoặc nằm ngoài phạm vi dữ liệu huấn luyện, mô hình gần như luôn cố gắng bịa câu trả lời.

Trong chuẩn đánh giá AA-Omniscience, Gemini 3 Flash đạt 91% ở phần tỷ lệ ảo tưởng. Điều này có nghĩa là trong những trường hợp mà mô hình không có câu trả lời, nó vẫn đưa ra đáp án gần như mọi lúc và những đáp án này hoàn toàn hư cấu.

g8cw33qwoaavrjt.jpg
Đánh giá AA-Omniscience

Vấn đề chatbot AI tạo ra thông tin giả đã tồn tại từ khi chúng ra mắt. Việc biết khi nào nên dừng lại và thừa nhận không biết quan trọng không kém việc biết cách trả lời.

Hiện tại, Gemini 3 Flash của Google chưa thực hiện điều này hiệu quả. Bài kiểm tra nhằm mục đích xác định khả năng phân biệt giữa kiến thức thực tế và phỏng đoán của mô hình.

Thế nhưng, tỷ lệ ảo tưởng cao không có nghĩa là 91% tổng số câu trả lời của Gemini sai. Thay vào đó, con số này cho thấy trong các tình huống mà câu trả lời đúng sẽ là “Tôi không biết”, mô hình đã bịa đáp án đến 91% thời gian. Đây là một sự khác biệt tinh tế nhưng quan trọng, đặc biệt khi Gemini được tích hợp vào các sản phẩm như Google Search.

Kết quả này không làm giảm sức mạnh và tính hữu ích của Gemini 3. Mô hình vẫn đạt hiệu suất cao nhất trong các bài kiểm tra tổng quát, xếp ngang hoặc thậm chí vượt các phiên bản mới nhất của ChatGPT và Claude. Tuy nhiên, mô hình thường tỏ ra quá tự tin trong những tình huống đáng lẽ nên khiêm tốn.

Hiện tượng tự tin quá mức cũng xuất hiện ở các đối thủ của Gemini nhưng điểm khác biệt là Gemini gặp tình trạng này rất thường xuyên trong các tình huống không chắc chắn, nơi không có câu trả lời đúng trong dữ liệu huấn luyện hoặc không có nguồn công khai đáng tin cậy.

Một phần nguyên nhân là các mô hình AI sinh ngôn chủ yếu là công cụ dự đoán từ, việc dự đoán từ mới không đồng nghĩa với việc đánh giá sự thật. Do đó, hành vi mặc định là tạo ra từ mới, ngay cả khi việc thừa nhận không biết sẽ trung thực hơn.

OpenAI đã bắt đầu khắc phục vấn đề này bằng cách huấn luyện các mô hình nhận biết điều chúng không biết và thừa nhận rõ ràng. Đây là một thử thách bởi các mô hình thưởng thường không đánh giá cao việc để trống câu trả lời so với việc trả lời tự tin nhưng sai.

Gemini thường trích dẫn nguồn khi có thể nhưng không phải lúc nào cũng dừng lại khi cần thiết. Điều này không quan trọng nếu mô hình chỉ phục vụ nghiên cứu. Khi trở thành “giọng nói” của nhiều tính năng Google, việc tự tin đưa ra thông tin sai có thể ảnh hưởng lớn.

Ngoài ra, một yếu tố khác liên quan đến thiết kế. Nhiều người dùng mong muốn AI trợ lý phản hồi nhanh và mượt mà nên việc nói “không chắc” hoặc “cần kiểm tra” có thể cảm thấy chậm chạp.

Dẫu vậy, điều này vẫn tốt hơn so với việc bị dẫn dắt sai thông tin. AI sinh ngôn vẫn chưa hoàn toàn đáng tin cậy, do đó việc kiểm tra lại bất kỳ câu trả lời nào từ AI luôn là điều nên làm.

Xem thêm

Việc chuyển người dùng từ Assistant sang Gemini sẽ được hoãn đến năm 2026

Quyết định tạm dừng Google Assistant bị hoãn

Google vừa thông báo sẽ hoãn việc chuyển người dùng từ Assistant sang Gemini đến năm 2026. Việc này giúp quá trình nâng cấp diễn ra mượt mà hơn, đồng thời mở cơ hội để người dùng đóng góp phản hồi...

Có thể bạn quan tâm

Máy pha cà phê thông minh trong không gian bếp hiện đại

Máy pha cà phê thông minh trong gian bếp hiện đại

Cùng với sự phát triển của công nghệ tiêu dùng, máy pha cà phê gia đình đang dần vượt khỏi vai trò thiết bị gia dụng thông thường để trở thành một phần của hệ sinh thái bếp thông minh...

Đừng để doanh nghiệp tụt lại trong cuộc đua "vũ trang" công nghệ với tội phạm mạng

Đừng để doanh nghiệp tụt lại trong cuộc đua "vũ trang" công nghệ với tội phạm mạng

Trong bối cảnh trí tuệ nhân tạo (AI) và tự động hóa không chỉ là công cụ sản xuất mà còn trở thành "vũ khí" sắc bén của giới tội phạm, an ninh mạng năm 2026 không còn là một cuộc chơi kỹ thuật đơn thuần mà đã biến thành một cuộc đua về hiệu suất và hệ thống mang tầm vóc công nghiệp...

Samsung Galaxy A56 không tệ nhưng chưa đủ tốt để xuống tiền

Samsung Galaxy A56 không tệ nhưng chưa đủ tốt để xuống tiền

Phân khúc smartphone tầm trung đang trở nên chật chội hơn bao giờ hết, khi các hãng liên tục tung ra những sản phẩm có cấu hình và trải nghiệm ngày càng tiệm cận cao cấp. Trong bối cảnh đó, giá trị thực sự của từng lựa chọn bắt đầu được đặt lên bàn cân một cách rõ ràng hơn...