教 AI 模型学会说“我不确定”

MIT 提出新训练方法， AI 不再“错得理直气壮”

麻省理工学院计算机科学与人工智能实验室（ CSAIL ）提出了一种新训练方法，试图解决推理模型“高置信度胡说八道”的老问题。核心变化不在于让模型更会答题，而是让模型在给出答案的同时，给出更接近真实水平的置信度判断。实验结果显示，这种方法在不牺牲准确率的前提下，最多可将校准误差降低 90%。这正击中了推理模型产生幻觉（ hallucination ）的一个根源。

这项方法名为“带校准奖励的强化学习”（ Reinforcement Learning with Calibration Rewards ， RLCR ）。研究团队的思路很简单。当前主流推理模型所依赖的强化学习（ Reinforcement Learning ， RL ）训练，通常只奖励“答对”，惩罚“答错”。中间地带几乎不存在。一个经过严密推理得出正确答案的模型，和一个纯靠碰运气猜对的模型，拿到的奖励差不多。训练久了，模型就会形成一种很糟糕的习惯，不管自己有没有把握，都会用同样笃定的语气作答。

这也是为什么今天很多先进推理模型看上去“自信得可怕”。它们在答对时很坚定，猜错时也一样坚定。放在聊天场景里，这种问题还只是体验不佳。放进医疗、法律、金融这些高风险决策环境，麻烦就大了。一个嘴上说“有 95% 把握”、实际却只有一半概率正确的系统，比单纯答错更危险。因为用户会被那种看似可靠的置信度误导，失去进一步求证的信号。

MIT 团队把问题归因得很清楚。近几年推动 AI 推理能力跃升的训练框架，包括类似 OpenAI o1 这类系统背后的做法，本质上都在优化“结果是否正确”，却没有激励模型表达不确定性，也没有鼓励它说“我不知道”。论文共同第一作者、 MIT 博士生 Mehul Damani 的说法很直接，标准训练方法确实简单有效，但它没有给模型任何动机去诚实表达犹豫，于是模型在没把握时，天然会学会猜。

RLCR 的改动很小，但下手很准。研究团队在奖励函数里加入了一个额外项，即 Brier 分数（ Brier score ）。这是一个衡量“模型声称的置信度”和“实际正确率”之间偏差的经典指标。训练过程中，模型不仅要学着解题，还要同时评估自己对答案的把握程度，并输出一个置信度分数。如果答案错了却表现得很自信，会被惩罚。如果答案明明正确却过度保守，也会被扣分。换句话说，训练目标不再只是“答对”，而是“答对并且说得诚实”。

研究团队还给这套方法补上了理论证明。他们形式化证明了，这种奖励结构可以保证模型同时获得两种性质。一个是准确，另一个是校准良好，也就是置信度和真实表现尽量一致。然后，他们在一个 70 亿参数模型上测试了 RLCR ，覆盖问答和数学推理等多类基准，还包括 6 个模型从未见过的数据集。

实验结果很有意思，而且指向一致。传统 RL 训练不仅没有改善模型的置信度校准，反而会让情况变得更差。和基础模型相比，经过常规 RL 训练后的模型，对自身不确定性的判断能力下降了。 RLCR 则把这个趋势扭转了过来，在几乎不损失准确率的情况下，显著改善了校准效果。论文共同第一作者、 MIT 博士生 Isha Puri 说得很到位。问题不只是普通 RL 对校准“没帮助”，而是它会主动伤害校准能力。模型越强，往往也越容易显得过度自信。

这项方法还压过了一类常见的补救方案，即后处理（ post-hoc ）校准。那类方案通常是在模型生成答案后，再训练一个单独分类器去判断这条答案有多可信。 MIT 团队的结果显示，把“置信度校准”直接放进训练目标里，比事后打补丁更有效。这其实不难理解。模型如果从训练阶段就被要求同时思考“答案是什么”和“自己有多确定”，它形成的内部表征会更一致。等到输出结束后再让另一个系统来猜它到底有多有把握，终归隔了一层。

更实际的一点在于， RLCR 产出的置信度不仅在论文指标上好看，在推理时也确实能派上用场。团队发现，当模型生成多个候选答案时，直接选择自报置信度最高的答案，或者在多数投票机制中按置信度加权，都能随着计算资源增加，同时提升准确率和校准表现。这说明模型给出的“我有多确定”不再只是装饰信息，而是可以参与决策的有效信号。

研究里还有一个挺耐人寻味的发现。团队训练了分类器去分析模型输出后发现，如果把模型明确写出的“不确定性推理过程”一并输入，分类器表现会更好，尤其对小模型更明显。这意味着，模型对“自己知道什么、不知道什么”的反思，本身携带真实信息，不只是表面上的解释性文本。

这篇论文题为《 Beyond Binary Rewards ： Training LMs to Reason About Their Uncertainty 》，将在本月晚些时候举行的国际学习表征会议（ International Conference on Learning Representations ， ICLR ）上展示。作者包括 Mehul Damani 、 Isha Puri 、 Stewart Slocum 、 Idan Shenfeld 、 Leshem Choshen ，以及资深作者 Jacob Andreas 和 Yoon Kim 。

创艺洞察

这项工作的价值，不仅仅是讲基准分数抬高一点，更重要的是戳穿了当前推理模型训练里的一个默认前提：系统只要更会做题，就会自然变得更可靠。现实恰好相反。很多时候，能力和自信会一起增长，诚实却不会。 RLCR 的意义，就是把“会不会”和“知不知道自己会不会”同时拉回训练目标里。对下一阶段的 AI 产品来说，后者恐怕比前者还稀缺。

MIT 提出新训练方法， AI 不再“错得理直气壮”

创艺洞察

相关文章

科技 CEO 相信 AI 将实现无处不在

8 个 Gemini 技巧，整理空间和生活

Flow Sessions 艺术家的三个创意技巧

评论区