MIT 提出新训练方法, AI 不再“错得理直气壮”
麻省理工学院计算机科学与人工智能实验室( CSAIL )提出了一种新训练方法,试图解决推理模型“高置信度胡说八道”的老问题。核心变化不在于让模型更会答题,而是让模型在给出答案的同时,给出更接近真实水平的置信度判断。实验结果显示,这种方法在不牺牲准确率的前提下,最多可将校准误差降低 90%。这正击中了推理模型产生幻觉( hallucination )的一个根源。
这项方法名为“带校准奖励的强化学习”( Reinforcement Learning with Calibration Rewards , RLCR )。研究团队的思路很简单。当前主流推理模型所依赖的强化学习( Reinforcement Learning , RL )训练,通常只奖励“答对”,惩罚“答错”。中间地带几乎不存在。一个经过严密推理得出正确答案的模型,和一个纯靠碰运气猜对的模型,拿到的奖励差不多。训练久了,模型就会形成一种很糟糕的习惯,不管自己有没有把握,都会用同样笃定的语气作答。
这也是为什么今天很多先进推理模型看上去“自信得可怕”。它们在答对时很坚定,猜错时也一样坚定。放在聊天场景里,这种问题还只是体验不佳。放进医疗、法律、金融这些高风险决策环境,麻烦就大了。一个嘴上说“有 95% 把握”、实际却只有一半概率正确的系统,比单纯答错更危险。因为用户会被那种看似可靠的置信度误导,失去进一步求证的信号。
MIT 团队把问题归因得很清楚。近几年推动 AI 推理能力跃升的训练框架,包括类似 OpenAI o1 这类系统背后的做法,本质上都在优化“结果是否正确”,却没有激励模型表达不确定性,也没有鼓励它说“我不知道”。论文共同第一作者、 MIT 博士生 Mehul Damani 的说法很直接,标准训练方法确实简单有效,但它没有给模型任何动机去诚实表达犹豫,于是模型在没把握时,天然会学会猜。
RLCR 的改动很小,但下手很准。研究团队在奖励函数里加入了一个额外项,即 Brier 分数( Brier score )。这是一个衡量“模型声称的置信度”和“实际正确率”之间偏差的经典指标。训练过程中,模型不仅要学着解题,还要同时评估自己对答案的把握程度,并输出一个置信度分数。如果答案错了却表现得很自信,会被惩罚。如果答案明明正确却过度保守,也会被扣分。换句话说,训练目标不再只是“答对”,而是“答对并且说得诚实”。
研究团队还给这套方法补上了理论证明。他们形式化证明了,这种奖励结构可以保证模型同时获得两种性质。一个是准确,另一个是校准良好,也就是置信度和真实表现尽量一致。然后,他们在一个 70 亿参数模型上测试了 RLCR ,覆盖问答和数学推理等多类基准,还包括 6 个模型从未见过的数据集。
实验结果很有意思,而且指向一致。传统 RL 训练不仅没有改善模型的置信度校准,反而会让情况变得更差。和基础模型相比,经过常规 RL 训练后的模型,对自身不确定性的判断能力下降了。 RLCR 则把这个趋势扭转了过来,在几乎不损失准确率的情况下,显著改善了校准效果。论文共同第一作者、 MIT 博士生 Isha Puri 说得很到位。问题不只是普通 RL 对校准“没帮助”,而是它会主动伤害校准能力。模型越强,往往也越容易显得过度自信。
这项方法还压过了一类常见的补救方案,即后处理( post-hoc )校准。那类方案通常是在模型生成答案后,再训练一个单独分类器去判断这条答案有多可信。 MIT 团队的结果显示,把“置信度校准”直接放进训练目标里,比事后打补丁更有效。这其实不难理解。模型如果从训练阶段就被要求同时思考“答案是什么”和“自己有多确定”,它形成的内部表征会更一致。等到输出结束后再让另一个系统来猜它到底有多有把握,终归隔了一层。
更实际的一点在于, RLCR 产出的置信度不仅在论文指标上好看,在推理时也确实能派上用场。团队发现,当模型生成多个候选答案时,直接选择自报置信度最高的答案,或者在多数投票机制中按置信度加权,都能随着计算资源增加,同时提升准确率和校准表现。这说明模型给出的“我有多确定”不再只是装饰信息,而是可以参与决策的有效信号。
研究里还有一个挺耐人寻味的发现。团队训练了分类器去分析模型输出后发现,如果把模型明确写出的“不确定性推理过程”一并输入,分类器表现会更好,尤其对小模型更明显。这意味着,模型对“自己知道什么、不知道什么”的反思,本身携带真实信息,不只是表面上的解释性文本。
这篇论文题为《 Beyond Binary Rewards : Training LMs to Reason About Their Uncertainty 》,将在本月晚些时候举行的国际学习表征会议( International Conference on Learning Representations , ICLR )上展示。作者包括 Mehul Damani 、 Isha Puri 、 Stewart Slocum 、 Idan Shenfeld 、 Leshem Choshen ,以及资深作者 Jacob Andreas 和 Yoon Kim 。
创艺洞察
这项工作的价值,不仅仅是讲基准分数抬高一点,更重要的是戳穿了当前推理模型训练里的一个默认前提:系统只要更会做题,就会自然变得更可靠。现实恰好相反。很多时候,能力和自信会一起增长,诚实却不会。 RLCR 的意义,就是把“会不会”和“知不知道自己会不会”同时拉回训练目标里。对下一阶段的 AI 产品来说,后者恐怕比前者还稀缺。


