Gemini 3 Flash thông minh nhưng vẫn hay bịa chuyện

Dù là một AI mạnh mẽ và nhanh nhẹn, Gemini 3 Flash vẫn thường đưa ra câu trả lời bịa khi gặp thông tin ngoài phạm vi huấn luyện. Điều này phản ánh thách thức chung của các mô hình AI trong việc phân biệt giữa kiến thức thực tế và phỏng đoán...

Gemini 3 Flash thông minh nhưng vẫn hay bịa chuyện

Gemini 3 Flash được đánh giá là nhanh nhẹn và thông minh. Tuy nhiên, theo một đánh giá gần đây từ nhóm kiểm thử độc lập Artificial Analysis, khi gặp những câu hỏi mà nó thực sự không biết, hiếm gặp hoặc nằm ngoài phạm vi dữ liệu huấn luyện, mô hình gần như luôn cố gắng bịa câu trả lời.

Trong chuẩn đánh giá AA-Omniscience, Gemini 3 Flash đạt 91% ở phần tỷ lệ ảo tưởng. Điều này có nghĩa là trong những trường hợp mà mô hình không có câu trả lời, nó vẫn đưa ra đáp án gần như mọi lúc và những đáp án này hoàn toàn hư cấu.

g8cw33qwoaavrjt.jpg
Đánh giá AA-Omniscience

Vấn đề chatbot AI tạo ra thông tin giả đã tồn tại từ khi chúng ra mắt. Việc biết khi nào nên dừng lại và thừa nhận không biết quan trọng không kém việc biết cách trả lời.

Hiện tại, Gemini 3 Flash của Google chưa thực hiện điều này hiệu quả. Bài kiểm tra nhằm mục đích xác định khả năng phân biệt giữa kiến thức thực tế và phỏng đoán của mô hình.

Thế nhưng, tỷ lệ ảo tưởng cao không có nghĩa là 91% tổng số câu trả lời của Gemini sai. Thay vào đó, con số này cho thấy trong các tình huống mà câu trả lời đúng sẽ là “Tôi không biết”, mô hình đã bịa đáp án đến 91% thời gian. Đây là một sự khác biệt tinh tế nhưng quan trọng, đặc biệt khi Gemini được tích hợp vào các sản phẩm như Google Search.

Kết quả này không làm giảm sức mạnh và tính hữu ích của Gemini 3. Mô hình vẫn đạt hiệu suất cao nhất trong các bài kiểm tra tổng quát, xếp ngang hoặc thậm chí vượt các phiên bản mới nhất của ChatGPT và Claude. Tuy nhiên, mô hình thường tỏ ra quá tự tin trong những tình huống đáng lẽ nên khiêm tốn.

Hiện tượng tự tin quá mức cũng xuất hiện ở các đối thủ của Gemini nhưng điểm khác biệt là Gemini gặp tình trạng này rất thường xuyên trong các tình huống không chắc chắn, nơi không có câu trả lời đúng trong dữ liệu huấn luyện hoặc không có nguồn công khai đáng tin cậy.

Một phần nguyên nhân là các mô hình AI sinh ngôn chủ yếu là công cụ dự đoán từ, việc dự đoán từ mới không đồng nghĩa với việc đánh giá sự thật. Do đó, hành vi mặc định là tạo ra từ mới, ngay cả khi việc thừa nhận không biết sẽ trung thực hơn.

OpenAI đã bắt đầu khắc phục vấn đề này bằng cách huấn luyện các mô hình nhận biết điều chúng không biết và thừa nhận rõ ràng. Đây là một thử thách bởi các mô hình thưởng thường không đánh giá cao việc để trống câu trả lời so với việc trả lời tự tin nhưng sai.

Gemini thường trích dẫn nguồn khi có thể nhưng không phải lúc nào cũng dừng lại khi cần thiết. Điều này không quan trọng nếu mô hình chỉ phục vụ nghiên cứu. Khi trở thành “giọng nói” của nhiều tính năng Google, việc tự tin đưa ra thông tin sai có thể ảnh hưởng lớn.

Ngoài ra, một yếu tố khác liên quan đến thiết kế. Nhiều người dùng mong muốn AI trợ lý phản hồi nhanh và mượt mà nên việc nói “không chắc” hoặc “cần kiểm tra” có thể cảm thấy chậm chạp.

Dẫu vậy, điều này vẫn tốt hơn so với việc bị dẫn dắt sai thông tin. AI sinh ngôn vẫn chưa hoàn toàn đáng tin cậy, do đó việc kiểm tra lại bất kỳ câu trả lời nào từ AI luôn là điều nên làm.

Xem thêm

Việc chuyển người dùng từ Assistant sang Gemini sẽ được hoãn đến năm 2026

Quyết định tạm dừng Google Assistant bị hoãn

Google vừa thông báo sẽ hoãn việc chuyển người dùng từ Assistant sang Gemini đến năm 2026. Việc này giúp quá trình nâng cấp diễn ra mượt mà hơn, đồng thời mở cơ hội để người dùng đóng góp phản hồi...

Có thể bạn quan tâm

Mô hình mới GPT Image 1.5 nhanh hơn đến 4 lần so với phiên bản trước

Sáng tạo không giới hạn với ChatGPT Images vừa nâng cấp

Phiên bản nâng cấp của ChatGPT Images mang đến trải nghiệm sáng tạo hình ảnh mượt mà và linh hoạt hơn, biến mọi ý tưởng thành tác phẩm trực quan chỉ với vài thao tác đơn giản. Từ chỉnh sửa chi tiết đến kết hợp phong cách, công cụ này đang mở ra một kỷ nguyên mới cho sáng tạo bằng AI...

Top bàn chải điện mang lại trải nghiệm làm sạch tuyệt đối

Top bàn chải điện mang lại trải nghiệm làm sạch tuyệt đối

Việc lựa chọn bàn chải điện không chỉ dừng lại ở giá thành hay thương hiệu, mà còn phụ thuộc vào thói quen chăm sóc răng miệng và trải nghiệm sử dụng hàng ngày. Hiểu rõ ưu và nhược điểm của từng sản phẩm sẽ giúp quá trình quyết định trở nên dễ dàng và phù hợp hơn...

Pebble Index 01 biến mọi ý tưởng thành kỷ niệm số ngay trên ngón tay

Pebble Index 01 biến mọi ý tưởng thành kỷ niệm số ngay trên ngón tay

Sự trở lại của Pebble đã mở ra một hướng đi hoàn toàn mới với nhẫn thông minh Pebble Index 01, tập trung vào ghi lại những ý tưởng và suy nghĩ trước khi chúng biến mất. Thiết kế tinh giản nhưng bền bỉ, khả năng bảo mật cao đã biến Index 01 thành một “bộ nhớ ngoài” đáng tin cậy ngay trên ngón tay...

Những cài đặt Android ít ai biết giúp trải nghiệm điện thoại trở nên thú vị hơn

Những cài đặt Android ít ai biết giúp trải nghiệm điện thoại trở nên thú vị hơn

Menu nhà phát triển (Developer) ẩn chứa những cài đặt bí mật có thể biến trải nghiệm Android trở nên thú vị và tiện lợi hơn rất nhiều. Khi biết cách bật và sử dụng, điện thoại sẽ chạy mượt hơn, thao tác nhanh hơn, mở ra nhiều tính năng khiến việc sử dụng hàng ngày trở nên thú vị hơn hẳn...

OpenAI đẩy lịch ra mắt ChatGPT-5.2 sớm trong tuần này

OpenAI đẩy lịch ra mắt ChatGPT-5.2 sớm trong tuần này

Cuộc đua AI đang nóng hơn bao giờ hết khi các ông lớn liên tiếp tung ra những bản cập nhật mới. Trong bối cảnh này, OpenAI chuẩn bị giới thiệu ChatGPT-5.2, hướng tới cải thiện hiệu năng và độ tin cậy cho người dùng hàng ngày...

Smartphone sắp “đội giá” vì AI

Smartphone sắp “đội giá” vì AI

Các hãng sản xuất bộ nhớ đang chuyển hướng sang phục vụ cho nhu cầu AI khiến giá linh kiện tăng mạnh, từ đó có khả năng đẩy giá điện thoại smartphone trở nên đắt đỏ hơn trong năm tới….