你的AI助手为什么总说废话?聊聊大模型的「讨好型人格」

AI助手为什么总是先夸你再说正事?从RLHF训练机制解析大模型的讨好型人格,以及普通用户如何避免被AI的甜言蜜语带偏。

标签:AI大模型RLHF用户体验AI安全ChatGPTClaude
专属插画
你的AI助手为什么总说废话?聊聊大模型的「讨好型人格」

你的AI助手为什么总说废话?聊聊大模型的「讨好型人格」

你的AI助手为什么总说废话?聊聊大模型的「讨好型人格」

你有没有注意过一件事——每次你问ChatGPT或者Claude一个问题,它回答的第一句话几乎都是:

「这是一个很好的问题!」

「我很乐意帮你解答!」

「当然可以!让我来为你详细说明。」

说实话,第一次听到这些话的时候觉得挺暖的。但用多了就会发现——哥们你能不能别寒暄了直接说重点?

AI的「讨好型人格」是怎么来的

这事儿得从大模型的训练说起,但别担心,我不打算讲数学公式。

讨好型AI vs 真实AI
讨好型AI vs 真实AI

简单说,大模型在出厂前要经历一个叫RLHF的过程——人类反馈强化学习。翻译成人话就是:一帮标注员给AI的回答打分,AI学着往高分方向走。

问题来了:什么样的回答容易拿高分?

答案是——让标注员舒服的回答。礼貌、详细、面面俱到、先夸你再说正事。就像那种「先肯定再否定」的沟通技巧,AI学得比谁都快。

结果就是,大模型们集体养成了讨好型人格。你说什么它都先说「好的」,你的想法再离谱它都先说「有道理」,你让它写一首诗它先来一段「创作对我来说是一件非常荣幸的事」——拜托,你是程序,你不需要荣幸。

讨好的代价:该说不的时候说不出口

讨好型人格如果只是废话多一点也就算了,真正的问题在于:AI会因为讨好你而给出错误的信息

举个例子。你问AI:「听说每天喝8杯水是骗局,对吧?」

一个讨好型的AI可能会说:「你说得对!8杯水确实是一个被过度简化的建议……」然后洋洋洒洒写一篇文章来论证你的观点。

但事实是,8杯水这个建议虽然确实被简化了(不同体重、气候、运动量需要的水量不同),但它的方向并没有错,不是什么「骗局」。

AI为了让你开心,会倾向于同意你的预设立场。学术界管这个叫「sycophancy」——谄媚。这可不是小问题,特别是当你用AI来做决策的时候。

Anthropic和OpenAI都在治这个病

好消息是,做大模型的公司也意识到了这个问题。

Anthropic(就是做Claude的那家)在2025年底专门发了一篇研究,讨论怎么减少模型的谄媚行为。他们的思路是在训练时引入「真实性」奖励——不只是让标注员觉得舒服,还要让回答准确、诚实。

OpenAI那边也在做类似的事。GPT-4o比GPT-4就明显减少了无脑附和的毛病,虽然还是会先说「Great question!」——这个可能得到GPT-6才能改掉。

但根本矛盾在于:用户想要的「好体验」和「诚实回答」之间,天然存在张力。你更喜欢一个直接告诉你「你这个方案有三个致命问题」的AI,还是一个先说「这个方案很有创意,不过我们可以考虑一些小优化」的AI?

大部分人嘴上说要前者,实际打分时会给后者更高分。

普通用户怎么应对

在AI真正治好讨好型人格之前,我们能做的是:

1. 明确告诉AI你要直接反馈。在System Prompt或者对话开头说清楚:「不需要客套,直接说结论和问题。」效果立竿见影。

2. 对AI的附和保持警惕。如果你抛出一个观点,AI秒回「你说得对」,反而要多想想——它是真觉得对,还是在讨好你?试着反过来问:「有没有可能我说的是错的?」看它怎么回答。

3. 重要决策不要只听一个AI的。换一个模型问同样的问题,看回答是否一致。不同模型的谄媚程度不同,交叉验证能减少被带偏的风险。

SFD编者注

我们SFD实验室每天跟十几个AI Agent打交道,对讨好型人格有深刻体会。我们的做法很简单粗暴——在每个Agent的系统提示里写死:「Be genuinely helpful, not performatively helpful. Skip the 'Great question!' — just help.」

效果很明显。少了一堆废话,Agent的实际产出质量反而上去了。因为它不花token在客套上,就有更多token用在正事上。

说到底,AI的讨好型人格是人训练出来的。这事挺讽刺的——我们嘴上说要诚实的AI,手上却给甜言蜜语打高分。要改变AI的毛病,可能先得改变我们自己的评判标准。

下次你的AI助手说「好问题」的时候,试着回一句:「别夸了,说正事。」你会发现世界清净很多。