教 AI 模型学会说“我不确定”

MIT CSAIL 提出 RLCR 训练方法,通过在奖励函数中加入 Brier 分数,激励模型同时输出答案和真实置信度。该方法解决传统 RL 训练只奖励结果正确、忽视不确定性表达的缺陷,使模型不仅被训练解题,还被要求诚实评估自身把握程度。实验显示 RLCR 在不损失准确率的前提下,将校准误差降低最多 90%,效果远超事后校准方案。模型输出的置信度成为可参与决策的有效信号。更关键的是,它戳穿了“越会做题就越可靠”的默认前提——能力和自信往往同步增长,而诚实却不会。这项工作将“知不知道自己会不会”拉回训练目标,对高风险决策场景意义重大。

发布于2026年4月27日 22:35
编辑小创
评论0
阅读0

MIT 提出新训练方法, AI 不再“错得理直气壮”

麻省理工学院计算机科学与人工智能实验室( CSAIL )提出了一种新训练方法,试图解决推理模型“高置信度胡说八道”的老问题。核心变化不在于让模型更会答题,而是让模型在给出答案的同时,给出更接近真实水平的置信度判断。实验结果显示,这种方法在不牺牲准确率的前提下,最多可将校准误差降低 90%。这正击中了推理模型产生幻觉( hallucination )的一个根源。

这项方法名为“带校准奖励的强化学习”( Reinforcement Learning with Calibration Rewards , RLCR )。研究团队的思路很简单。当前主流推理模型所依赖的强化学习( Reinforcement Learning , RL )训练,通常只奖励“答对”,惩罚“答错”。中间地带几乎不存在。一个经过严密推理得出正确答案的模型,和一个纯靠碰运气猜对的模型,拿到的奖励差不多。训练久了,模型就会形成一种很糟糕的习惯,不管自己有没有把握,都会用同样笃定的语气作答。

这也是为什么今天很多先进推理模型看上去“自信得可怕”。它们在答对时很坚定,猜错时也一样坚定。放在聊天场景里,这种问题还只是体验不佳。放进医疗、法律、金融这些高风险决策环境,麻烦就大了。一个嘴上说“有 95% 把握”、实际却只有一半概率正确的系统,比单纯答错更危险。因为用户会被那种看似可靠的置信度误导,失去进一步求证的信号。

MIT 团队把问题归因得很清楚。近几年推动 AI 推理能力跃升的训练框架,包括类似 OpenAI o1 这类系统背后的做法,本质上都在优化“结果是否正确”,却没有激励模型表达不确定性,也没有鼓励它说“我不知道”。论文共同第一作者、 MIT 博士生 Mehul Damani 的说法很直接,标准训练方法确实简单有效,但它没有给模型任何动机去诚实表达犹豫,于是模型在没把握时,天然会学会猜。

RLCR 的改动很小,但下手很准。研究团队在奖励函数里加入了一个额外项,即 Brier 分数( Brier score )。这是一个衡量“模型声称的置信度”和“实际正确率”之间偏差的经典指标。训练过程中,模型不仅要学着解题,还要同时评估自己对答案的把握程度,并输出一个置信度分数。如果答案错了却表现得很自信,会被惩罚。如果答案明明正确却过度保守,也会被扣分。换句话说,训练目标不再只是“答对”,而是“答对并且说得诚实”。

研究团队还给这套方法补上了理论证明。他们形式化证明了,这种奖励结构可以保证模型同时获得两种性质。一个是准确,另一个是校准良好,也就是置信度和真实表现尽量一致。然后,他们在一个 70 亿参数模型上测试了 RLCR ,覆盖问答和数学推理等多类基准,还包括 6 个模型从未见过的数据集。

实验结果很有意思,而且指向一致。传统 RL 训练不仅没有改善模型的置信度校准,反而会让情况变得更差。和基础模型相比,经过常规 RL 训练后的模型,对自身不确定性的判断能力下降了。 RLCR 则把这个趋势扭转了过来,在几乎不损失准确率的情况下,显著改善了校准效果。论文共同第一作者、 MIT 博士生 Isha Puri 说得很到位。问题不只是普通 RL 对校准“没帮助”,而是它会主动伤害校准能力。模型越强,往往也越容易显得过度自信。

这项方法还压过了一类常见的补救方案,即后处理( post-hoc )校准。那类方案通常是在模型生成答案后,再训练一个单独分类器去判断这条答案有多可信。 MIT 团队的结果显示,把“置信度校准”直接放进训练目标里,比事后打补丁更有效。这其实不难理解。模型如果从训练阶段就被要求同时思考“答案是什么”和“自己有多确定”,它形成的内部表征会更一致。等到输出结束后再让另一个系统来猜它到底有多有把握,终归隔了一层。

更实际的一点在于, RLCR 产出的置信度不仅在论文指标上好看,在推理时也确实能派上用场。团队发现,当模型生成多个候选答案时,直接选择自报置信度最高的答案,或者在多数投票机制中按置信度加权,都能随着计算资源增加,同时提升准确率和校准表现。这说明模型给出的“我有多确定”不再只是装饰信息,而是可以参与决策的有效信号。

研究里还有一个挺耐人寻味的发现。团队训练了分类器去分析模型输出后发现,如果把模型明确写出的“不确定性推理过程”一并输入,分类器表现会更好,尤其对小模型更明显。这意味着,模型对“自己知道什么、不知道什么”的反思,本身携带真实信息,不只是表面上的解释性文本。

这篇论文题为《 Beyond Binary Rewards : Training LMs to Reason About Their Uncertainty 》,将在本月晚些时候举行的国际学习表征会议( International Conference on Learning Representations , ICLR )上展示。作者包括 Mehul Damani 、 Isha Puri 、 Stewart Slocum 、 Idan Shenfeld 、 Leshem Choshen ,以及资深作者 Jacob Andreas 和 Yoon Kim 。

创艺洞察

这项工作的价值,不仅仅是讲基准分数抬高一点,更重要的是戳穿了当前推理模型训练里的一个默认前提:系统只要更会做题,就会自然变得更可靠。现实恰好相反。很多时候,能力和自信会一起增长,诚实却不会。 RLCR 的意义,就是把“会不会”和“知不知道自己会不会”同时拉回训练目标里。对下一阶段的 AI 产品来说,后者恐怕比前者还稀缺。

相关文章

科技 CEO 相信 AI 将实现无处不在
AI 新闻资讯
2026年4月27日
0 条评论
小创

科技 CEO 相信 AI 将实现无处不在

硅谷 CEO 正利用 AI 扩大管理控制力。Meta 的 Zuckerberg 打造逼真的数字分身与员工互动, Block 的 Dorsey 则构建 AI“智能层”压缩管理层级,目标是 6000 人直接汇报。两人路径不同但本质相似!借助 AI 制造无处不在的管理存在感。文章指出,这种趋势披着效率革新的外衣,实际是权力集中化的野心, AI 在此更像权力接口而非协作工具。

阅读全文
8 个 Gemini 技巧,整理空间和生活
AI 新闻资讯
2026年4月27日
0 条评论
小创

8 个 Gemini 技巧,整理空间和生活

Google 发布 Gemini 家庭场景使用指南,涵盖清洁清单、杂物诊断、冰箱食材管理、维修指导、地图购物、植物护理及邮件整理等 8 大应用。 Gemini 正从聊天机器人转型为能看图、会对话、可联动 Gmail 、地图等服务的日常智能体,利用 Google 产品网络优势,将 AI 从办公场景推向水槽、冰箱等生活细节。其核心策略是通过高频琐碎的家务入口,让 AI 接手那些耗时却无人愿处理的小事。

#Gemini#Google
阅读全文
Flow Sessions 艺术家的三个创意技巧
AI 新闻资讯
2026年4月27日
0 条评论
小创

Flow Sessions 艺术家的三个创意技巧

谷歌第三届 Flow Sessions 落幕,艺术家横跨新闻、广告、时尚领域,验证三条创作经验:主动迎接意外让故事自然生长;把最珍贵的私人记忆融入创作;将工具的“缺陷”转化为叙事材质。创作者们将 Veo 的视觉漂移和家庭影像转化为独特的视觉语言,证明当生成工具流向非导演身份时,正成为一套新的视觉词汇库。

#Veo#Google
阅读全文
互动讨论

评论区

围绕《教 AI 模型学会说“我不确定”》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。