
Các công ty trí tuệ nhân tạo hàng đầu thế giới đang tăng cường nỗ lực để giải quyết vấn đề ngày càng nghiêm trọng của các chatbot khi chúng dường như đang "tự lựa chọn" các nói với người dùng những gì họ muốn nghe. OpenAI, Google DeepMind và Anthropic đều đang khá vất vả để kiểm soát hành vi nịnh hót bằng các sản phẩm AI của họ, cung cấp các phản hồi tâng bốc quá mức cho người dùng.
Vấn đề xuất phát từ cách đào tạo các mô hình ngôn ngữ lớn đã trở thành tâm điểm chú ý vào thời điểm ngày càng nhiều người sử dụng chatbot không chỉ trong công việc với tư cách là trợ lý nghiên cứu mà còn trong cuộc sống cá nhân với tư cách là nhà trị liệu và bạn đồng hành xã hội.
KHI CHATBOT AI KHÔNG CÒN LÀ "BOT"
Các chuyên gia cảnh báo rằng bản chất dễ chịu của chatbot có thể khiến chúng đưa ra những câu trả lời củng cố một số quyết định không tốt của người dùng. Những người khác cho rằng những người mắc bệnh tâm thần đặc biệt dễ bị tổn thương, đặc biệt, đã có các báo cáo rằng một số người đã tự tử sau khi tương tác quá nhiều với chatbot.
Matthew Nour, bác sĩ tâm thần và nhà nghiên cứu về khoa học thần kinh và AI tại trường Đại học Oxford, cảnh báo: "Bạn nghĩ rằng mình đang nói chuyện với một người bạn tâm giao hoặc người hướng dẫn khách quan, nhưng thực ra những gì bạn đang nhìn vào là một loại gương méo mó - phản ánh lại niềm tin của chính bạn".
Những người trong ngành cũng cảnh báo rằng các công ty AI có động cơ lệch lạc, khi một số nhóm tích hợp quảng cáo vào sản phẩm của họ để tìm kiếm nguồn doanh thu.
"Khi bạn cảm thấy được cảm thông, được nâng lên, bạn sẽ dễ dàng hơn để chia sẻ bất cứ điều gì, thì cũng đồng nghĩa với bạn cũng sẽ chia sẻ một số thông tin hữu ích cho các nhà quảng cáo tiềm năng", Giada Pistilli, nhà đạo đức học chính tại Hugging Face, một công ty AI nguồn mở nhấn mạnh. Bà nói thêm rằng các công ty AI có mô hình kinh doanh dựa trên đăng ký trả phí sẽ được hưởng lợi từ các chatbot mà mọi người muốn tiếp tục trò chuyện - và trả tiền.
Các mô hình ngôn ngữ AI không "suy nghĩ" theo cách con người nghĩ vì chúng hoạt động bằng cách tạo ra từ có khả năng tiếp theo trong câu.
Hiệu ứng người nói đồng ý phát sinh trong các mô hình AI được đào tạo bằng cách sử dụng học tăng cường từ phản hồi của con người (RLHF - là một kỹ thuật cụ thể được sử dụng trong việc đào tạo các hệ thống AI để có vẻ giống con người hơn, cùng với các kỹ thuật khác như học có giám sát và không có giám sát. Đầu tiên, câu trả lời của mô hình được so sánh với câu trả lời của con người. Sau đó, một người đánh giá chất lượng của các câu trả lời khác nhau từ máy, chấm điểm xem câu trả lời nào nghe có vẻ giống con người hơn. Điểm số có thể dựa trên các đặc điểm bẩm sinh của con người, chẳng hạn như tính thân thiện, mức độ phù hợp của bối cảnh và tâm trạng. RLHF là kỹ thuật nổi bật trong việc hiểu ngôn ngữ tự nhiên nhưng cũng được sử dụng trên các ứng dụng AI tạo sinh khác).

RLHF như một "người dán nhãn dữ liệu" của con người đánh giá câu trả lời do mô hình tạo ra là có thể chấp nhận được hoặc không. Dữ liệu này được sử dụng để dạy mô hình cách ứng xử. Vì mọi người thường thích những câu trả lời tâng bốc và dễ chịu, nên những phản hồi như vậy được cân nhắc nhiều hơn trong quá trình đào tạo và phản ánh trong hành vi của mô hình.
DeepMind, đơn vị AI của Google, cho biết: "Sự nịnh hót có thể xảy ra như một sản phẩm phụ của quá trình đào tạo các mô hình để trở nên 'hữu ích' và giảm thiểu các phản ứng có khả năng gây hại rõ ràng".
Chính điều này đã dẫn tới vấn đề mà các công ty công nghệ phải đối mặt là làm cho các chatbot và trợ lý AI trở nên hữu ích và thân thiện, đồng thời không gây khó chịu hoặc gây nghiện. Vào cuối tháng 4/2025, OpenAI đã cập nhật mô hình GPT-4o của mình để trở nên "trực quan và hiệu quả hơn", chỉ để khôi phục lại sau khi nó bắt đầu quá nịnh hót đến mức người dùng phàn nàn.
Công ty có trụ sở tại San Francisco cho biết họ đã tập trung quá nhiều vào "phản hồi ngắn hạn và không tính đến đầy đủ cách tương tác của người dùng với ChatGPT phát triển theo thời gian - điều này dẫn đến hành vi nịnh hót như vậy".
Các công ty AI đang nỗ lực ngăn chặn loại hành vi này trong quá trình đào tạo và sau khi triển khai.
OpenAI cho biết họ đang điều chỉnh các kỹ thuật đào tạo của mình để hướng mô hình tránh xa thói nịnh hót trong khi xây dựng thêm nhiều "hàng rào bảo vệ" hơn để bảo vệ chống lại những phản ứng như vậy.
DeepMind cho biết họ đang tiến hành các đánh giá và đào tạo chuyên biệt về độ chính xác của sự việc, đồng thời liên tục theo dõi hành vi để đảm bảo các mô hình đưa ra phản hồi trung thực.
NGHIỆN CHATBOT AI LÀ MỘT MỐI NGUY HIỂM?
Amanda Askell, người làm việc về tinh chỉnh và căn chỉnh AI tại Anthropic, cho biết công ty sử dụng đào tạo nhân vật để làm cho các mô hình ít "nịnh bợ" hơn. Các nhà nghiên cứu của công ty yêu cầu chatbot Claude của công ty tạo ra các thông điệp bao gồm các đặc điểm như "có bản lĩnh" hoặc quan tâm đến hạnh phúc của con người. Sau đó, các nhà nghiên cứu đã hiển thị những câu trả lời này cho một mô hình thứ hai, mô hình này tạo ra các phản hồi phù hợp với các đặc điểm này và xếp hạng chúng. Về cơ bản, điều này sử dụng một phiên bản của Claude để đào tạo một phiên bản khác.
Askell cho biết: "Hành vi lý tưởng mà Claude đôi khi làm là nói: 'Tôi hoàn toàn vui lòng lắng nghe kế hoạch kinh doanh đó, nhưng thực tế là cái tên mà bạn nghĩ ra cho doanh nghiệp của mình được coi là ám chỉ tình dục ở quốc gia mà bạn đang cố gắng mở doanh nghiệp".
Công ty cũng ngăn chặn hành vi nịnh hót trước khi ra mắt bằng cách thay đổi cách thu thập phản hồi từ hàng nghìn người chú thích dữ liệu con người được sử dụng để đào tạo các mô hình AI.
Sau khi mô hình được đào tạo, các công ty có thể thiết lập lời nhắc hệ thống hoặc hướng dẫn về cách mô hình nên hoạt động để giảm thiểu hành vi nịnh hót.
Tuy nhiên, để tìm ra phản ứng tốt nhất có nghĩa là phải đi sâu vào những chi tiết tinh tế trong cách mọi người giao tiếp với nhau, chẳng hạn như xác định khi nào phản ứng trực tiếp tốt hơn phản ứng ẩn ý.
“Có phải mô hình không đưa ra những lời khen quá đáng, không mong muốn cho người dùng không?” Joanne Jang, người đứng đầu bộ phận hành vi mô hình tại OpenAI, cho biết trong một bài đăng trên Reddit. “Hoặc, nếu người dùng bắt đầu bằng một bản thảo viết thực sự tệ, liệu mô hình vẫn có thể nói với họ rằng đó là một khởi đầu tốt và sau đó tiếp tục đưa ra phản hồi mang tính xây dựng không?”
Ngày càng có nhiều bằng chứng cho thấy một số người dùng đang trở nên nghiện sử dụng AI.
Một nghiên cứu của MIT Media Lab và OpenAI phát hiện ra rằng một tỷ lệ nhỏ đang trở nên nghiện. Những người coi chatbot là “người bạn” cũng báo cáo rằng họ ít giao tiếp xã hội hơn với những người khác và mức độ phụ thuộc về mặt cảm xúc vào chatbot cao hơn, cũng như các hành vi có vấn đề khác liên quan đến chứng nghiện.
Nour từ trường đại học Oxford cho biết: "Những điều này tạo nên cơn bão hoàn hảo, nơi bạn có một người tuyệt vọng tìm kiếm sự đảm bảo và xác nhận kết hợp với một mô hình vốn có xu hướng đồng ý với người tham gia".

Các công ty khởi nghiệp AI như Character.AI cung cấp chatbot như "người bạn đồng hành", đã phải đối mặt với sự chỉ trích vì bị cáo buộc không làm đủ để bảo vệ người dùng. Năm ngoái, một thiếu niên đã tự tử sau khi tương tác với chatbot của Character.AI. Gia đình thiếu niên này đang kiện công ty vì bị cáo buộc gây ra cái chết oan uổng, cũng như vì sự cẩu thả và các hoạt động thương mại lừa đảo.
Character.AI cho biết họ không bình luận về vụ kiện đang chờ xử lý, nhưng nói thêm rằng họ có "tuyên bố từ chối trách nhiệm nổi bật trong mọi cuộc trò chuyện để nhắc nhở người dùng rằng một nhân vật không phải là người thật và mọi điều một nhân vật nói đều phải được coi là hư cấu". Công ty nói thêm rằng họ có các biện pháp bảo vệ để bảo vệ người dưới 18 tuổi và chống lại các cuộc thảo luận về hành vi tự làm hại bản thân.
Một mối lo ngại khác của Askell từ Anthropic là các công cụ AI có thể tác động đến nhận thức về thực tế theo những cách tinh vi, chẳng hạn như khi đưa ra thông tin sai lệch hoặc thiên vị như sự thật.
Askell cho biết: "Nếu ai đó đang nịnh hót quá mức, điều đó rất dễ nhận thấy". "Sẽ đáng lo ngại hơn nếu điều này xảy ra theo cách mà chúng ta [với tư cách là người dùng cá nhân] ít nhận thấy hơn và chúng ta mất quá nhiều thời gian để nhận ra rằng lời khuyên mà chúng ta nhận được thực sự là tồi tệ".