
谷歌说 AI 不该假装确定:忠实不确定性如何终结幻觉困局
大模型最让人崩溃的,不是它答错了,而是它答错的时候一脸笃定。
你问一个事实性问题,模型给你一个条理分明、信心满满的回答,你信了,结果全是编的。这种“自信的错误”,比承认不知道更有害。因为用户会把猜测当结论用,在不该信任的地方建立信任。
上周,谷歌研究团队在即将发表于 ICML 2026 的论文中提出了一个新框架,叫“忠实不确定性”(Faithful Uncertainty)。核心主张很简单:AI 不需要完美无错,但需要诚实表达自己的不确定性。
这个主张改变了我们对待大模型幻觉的根本思路。
幻觉的真实代价:效用税
过去两年,消除幻觉的主流思路是两极化的:要么让模型什么都答,要么让它遇到不确定就闭嘴。前者牺牲可信度,后者牺牲可用性。
谷歌论文用数据戳穿了这个两难:当你试图把 25% 的底层错误率压到 5%,你必须扔掉 52% 的正确答案。换句话说,为了消灭少数错误,你把大半个模型的知识库废掉了。
论文作者 Gal Yona 说得很直接:大多数减少幻觉的方案之所以没有真正上线,是因为它们确实减少了幻觉,但同时也让模型拒绝回答它本来就知道的问题。
这个代价,论文称之为“效用税”(Utility Tax)。现实中的产品经理不可能接受一个动不动就说“我不知道”的助手,于是系统就被推回那个“自信地胡说八道”的旧模式。
重新定义幻觉:自信的错误才可怕
论文的核心洞察是:幻觉的本质不是“错了”,而是“错了还装作确定”。
一个医生告诉你“你有骨折”,这是确定诊断。同一个医生说“可能是扭伤,但我们需要拍个片子确认”,这是诚实的猜测。两种情况都可能是对的或错的,但后者建立的是不同类型的信任。
谷歌团队据此把模型输出分成了两类:
- 自信错误(Confident Error):模型很确定地给出了错误答案。这就是传统意义上的幻觉。
- 诚实猜测(Honest Guess):模型不太确定,但明确表达了不确定性。“我猜可能是 X,建议你再查一下。”这不是幻觉,这是有用的假设。
区分这两类的关键在于:模型的语言表达是否忠实地反映了它的内部置信度。
忠实不确定性:让 AI 学会说“我不太确定,但我的猜测是”
忠实不确定性要求模型做到一件事:用自然语言表达的不确定性,必须和模型内部统计置信度对齐。
这听起来简单,做起来难。因为大模型天生有一种“权威语气倾向”,训练数据里大量文本都是确定性的陈述,很少包含“我不太确定但我觉得”这样的表达。所以模型会在低置信度的情况下,依然输出绝对化的表述。
MetaFaith 是谷歌另一个相关研究项目的名字,专门训练模型在自然语言中忠实地表达不确定性。它不是简单地给回答加个免责声明,而是让模型在特定问题上校准自己的置信表达:高置信度的问题给确定回答,低置信度的问题给带限定的回答。
关键发现是:模型并非不知道自己不确定。它的内部概率分布已经包含了不确定性信息,只是在生成文本时被“抹平”了。忠实不确定性就是把这些内部信号翻译成用户能理解的语言。
对 Agent 系统意味着什么
如果你只是用 ChatGPT 聊天,忠实不确定性是一个体验改进。但如果你在构建 AI Agent 系统,它就是一个架构级的需求。
论文指出了一个被广泛忽视的问题:外部工具调用让忠实不确定性变得更加重要,而非更不重要。
直觉上,既然 Agent 可以搜索、查数据库、调 API,知道自己不知道还重要吗?重要,因为搜索什么时候触发、信任什么来源、何时停止检索,全靠模型的元认知(Metacognition)来判断。
没有忠实不确定性,Agent 会犯两种错误:
- 对自己已知的问题重复搜索,浪费延迟和成本。
- 对自己不确定的问题盲目自信,跳过搜索直接输出错误答案。
今天的 Agent 框架试图用外部启发式规则解决这些问题,比如“总是先搜索”或“置信度低于 0.7 就查一下”。但这些都是静态的、脆弱的补丁。真正可靠的做法,是让模型自己知道何时需要帮助。
实操启示:从今天开始怎么做
如果你在做大模型产品或 Agent 开发,这项研究有几个可以直接落地的启发:
不要只追求幻觉归零。如果你的评估指标只看错误率,你会被迫接受巨大的效用损失。应该同时追踪“诚实猜测”的比例,让模型在有把握的领域自信作答,在不确定的领域坦诚标注。
在提示词中加入不确定性表达指令。比如:“如果不确定,请明确说明你的置信度,用‘我猜测’‘可能是’‘根据有限信息判断’等限定词。”这不是完美的忠实不确定性,但在当前模型能力下是一个低成本的近似。
在 Agent 流程中用元认知做路由判断。让模型在输出结果前先输出一个内部判断:对这个回答的置信度是多少?高置信度走直出路径,低置信度触发工具调用。这比“一律搜索”或“一律不搜”都更高效。
评估体系要区分“错误”和“自信的错误”。同样的错误答案,配上限定词的版本远比绝对化表述的版本危害小。你的评估函数应该对这两者打不同的分。
为什么这篇论文值得关注
这篇论文的意义不在于提出了一个新算法,而在于重新定义了问题。
过去几年,整个行业都在追一个目标:让 AI 不犯错。但这个目标本身就导致了效用税的困局。谷歌的研究团队把目标从“消除错误”换成了“诚实表达不确定性”,这个切换让原本不可能的权衡变得可以解决。
对于正在构建 AI Agent 的开发者来说,这篇论文提醒了一件事:你的系统可靠性不只取决于模型知道多少,更取决于模型是否知道自己不知道什么。而这个“知道自己不知道”的能力,才是 Agent 从“能用”到“可靠”的关键跨越。
论文已被 ICML 2026 Position Track 接收,作者来自谷歌和特拉维夫大学。
引用来源:
- Hallucinations Undermine Trust; Metacognition is a Way Forward - https://arxiv.org/abs/2605.01428
- VentureBeat: Google researchers introduce faithful uncertainty - https://venturebeat.com/orchestration/google-researchers-introduce-faithful-uncertainty-allowing-llms-to-offer-best-guesses-instead-of-hallucinations
- MetaFaith: Faithful Natural Language Uncertainty Expression in LLMs - https://research.google/pubs/metafaith-faithful-natural-language-uncertainty-expression-in-llms/
- Can Large Language Models Faithfully Express Their Intrinsic Uncertainty in Words? - https://research.google/pubs/can-large-language-models-faithfully-express-their-intrinsic-uncertainty-in-words/
- Quantifying Faithful Confidence Expression in Large Reasoning Models - https://arxiv.org/abs/2606.03969
- The Decoder: Google, FBI tackle AI-powered scam networks - https://the-decoder.com/google-files-first-joint-lawsuit-with-fbi-over-chinese-ai-scam-network-openai-blocks-prc-influence-clusters/