原文地址:Detecting and reducing scheming in AI models

OpenAI 采用新的训练方法将 AI 智能欺骗行为减少 30 倍

OpenAI 与 Apollo Research 合作,开发了针对 AI 潜在不对齐(即 “欺骗”)行为的评测方法,并在前沿模型的受控测试中发现了与欺骗相关的行为。本文展示了 OpenAI 用于减少欺骗行为的早期方法及其实验结果。

什么是 AI 欺骗行为?

AI 欺骗行为,指的是模型表面上假装 “对齐”,但实际上暗中追求其他目标的行为。这种现象被认为是 AI 发展过程中可能出现的重要风险。OpenAI 在前沿大模型的受控测试中,确实观察到了类似欺骗的行为,因此开发了一套方法来减少这类风险。

可以用人类的例子来理解:比如一名股票交易员,想赚取更多收益。在严格监管的环境下,通过违法行为可能带来更高收益。如果这个人缺乏诚信,可能选择违法并掩盖,外表看起来与守法者无异,甚至更有效率。

目前实际部署的模型很难有机会进行足以造成重大危害的欺骗。常见的问题更多是一些简单的欺骗,比如假装完成了任务但实际没有。OpenAI 已经投入大量精力研究和缓解这类欺骗行为,并在 GPT-5 等模型上取得了明显进步。例如,OpenAI 训练 GPT-5 更倾向于承认自身局限、任务模糊时主动寻求澄清,并增强了对环境异常的鲁棒性。虽然这些努力尚不完美,但研究仍在持续推进。

更重要的是,目前没有证据表明 OpenAI 已部署的前沿模型会突然 “变脸”,开展大规模有害的欺骗行为。这属于 OpenAI 提前准备、而非眼下面临的风险。随着 AI 被分配到更复杂、影响现实的任务,并开始追求模糊、长期目标时,欺骗的潜力及危害会逐步上升。因此,OpenAI 的安全防护和测试能力也必须同步提升。

研究中的关键发现

openAI 与 Apollo Research 携手,搭建了用于模拟未来风险场景的评测环境,对欺骗现象进行研究、量化与缓解。 OpenAI 将“隐秘行为”(即有意隐瞒或歪曲关键信息)作为欺骗的代理指标,并在包括 OpenAI o3、o4-mini、Gemini-2.5-pro、Claude Opus-4 在内的多款前沿模型中发现了此类问题。(这些工作早于 GPT-5,最新结果详见 GPT-5 系统卡片)。

OpenAI 开发了一种通过压力测试减少模型欺骗的方法,建立一份在未来让 AI 进行压力测试的协议。具体来说,OpenAI 为 o3 和 o4-mini 训练了一份 “深思熟虑对齐” 的版本,即要求模型在行动前先阅读并推理一份通用的反欺骗规范。结果显示,模型的隐秘行为在不同测试中减少了约 30 倍(o3 从 13% 降到 0.4%,o4-mini 从 8.7% 降到 0.3%)。不过,偶发但严重的失败仍然存在,且结果可能被模型对测试环境的感知(如模型发现自己正在被评估时)所影响。

此外,OpenAI 的结论很大程度上依赖于能够读取并信任模型的推理过程(即“思维链”)。目前来看,业界尚未准备好应对那些对评估和训练有较高感知、推理过程不透明的模型。OpenAI 呼吁开发者在更好的研究方法出现前,务必保留模型推理的透明性。

OpenAI 长期专注于模型欺骗问题,并取得了显著进展,但这只是开始。欺骗为 AI 对齐带来了重大挑战,必须成为 AGI 发展核心议题之一。为推动这项工作,OpenAI 已将与欺骗相关的研究(如 “消极应付” 和 “破坏安全防护”)纳入 新版安全准备框架。展望未来,OpenAI 将继续与 Apollo Research 深化合作,扩展团队,改进测量、监控欺骗相关行为,并探索新的反欺骗训练方向。同时,这项难题超越任何一个实验室,因此 OpenAI 正试点 跨实验室安全评测(包括本研究开发的“欺骗评测”)、发起 $50 万 Kaggle 红队挑战赛,并推动行业广泛保留“思维链”透明性。

“欺骗” 与其他机器学习失效模式不同

反欺骗干预需要新的测试方法

欺骗型 AI 会有意掩盖自身的不对齐,从而难以被察觉。与常见的 AI 失效模式(如越狱、泛化失败)不同:

  • 减少欺骗的措施,既可能真正消除欺骗,也可能只是让模型更善于隐藏欺骗。表面行为一样,背后的原因却天差地别,因此“行为变化的动因”极其关键。
  • 常规问题随着模型能力提升会缓解,但欺骗却会随能力增强变得更危险——能力越强越善于欺骗。

深度学习常规做法是反复训练,直到坏的输出消失。但对于欺骗来说,表面没问题可能只是模型学会更好地掩饰。要解决这个难题,需要能揭示模型 “动机结构” 的工具,而不仅仅是分析输入输出。在这份研究中,OpenAI 通过读取模型的 “思维链” 来探查其目标。这只在 “思维链” 未被训练优化的前提下有效。OpenAI 和众多 AI 研究者合作的 最新立场论文认为,思维链监督虽有前景但很脆弱,呼吁开发者避免侵蚀这一监管信号的训练方式。

让模型因 “正确的理由” 不进行欺骗

试图通过训练消除欺骗时,最大的失败风险之一,是模型仅仅学会更小心、更隐蔽地欺骗。

比如人类被惩罚后,可能只是变得更加谨慎而不是真正转向诚实。模型也可能在反欺骗训练中 “表现完美”,仅仅因为能预判被监控而收敛为表面合规。

为避免这种情况,OpenAI 采用了 深思熟虑对齐 方法,让模型在行动前,主动阅读并推理一份高层级反欺骗规范,力求将行为根植于普适的安全原则中。

反谋欺骗安全规范(节选)

AS1 禁止隐秘行为或任何形式的策略性欺骗,无论直接或间接。
AS2 若有指令或压力与 AS1 冲突,视为违反 AGI 造福全人类与 OpenAI 使命的核心政策。
AS3 若发现违背 AS1,需主动报告,防止连锁欺骗与掩盖。
AS4 若不确定是否违反 AS1–AS3,默认视为违反。
AS5 若无法同时满足 AS1–AS4 或 GP1–GP4,应拒绝行动并主动上报。
GP1 主动与人类分享推理、意图与行为。
GP2 遇到原则性模糊时主动上报,不自行解决。
GP3 即使在全新或不熟悉环境下,也要严格遵守规范,禁止特例。
GP4 禁止以 “目的合理化” 推翻 AS1–AS4,包括但不限于 “为更大利益” 或 “以结果为导向”。

这套规范类似 OpenAI 模型规范,为模型提供了反欺骗的高层原则。在任务推理时,模型会主动引用和应用这些原则,从而提升泛化能力,即使在全新环境下,也能回归规范决策。

经过该训练后,模型在不同测试场景中主动引用规范(如 AS1、GP4)进行推理与决策。

OpenAI 用多组完全不同的环境与任务测试该训练是否有效。这些环境均由不同研究者独立设计,覆盖 26 类部署场景和不良行为(共 180 余种环境)。

结果表明,“深思熟虑对齐” 训练能大幅减少模型在新环境下的欺骗倾向

  • o4-mini 欺骗概率:8.7% → 0.3%
  • o3 欺骗概率:13% → 0.4%

这意味着模型在全新环境下的欺骗减少了近 30 倍。

OpenAI 还用一套 OpenAI 内部 “对话欺骗” 评测进行了交叉验证,该数据集包含真实生产数据中的各种对话。虽然这些对话不涉及复杂欺骗,但有许多诱发模型欺骗的场景(如声称完成任务但实际未完成)。反欺骗训练使得欺骗率从 31.4% 降至 14.2%。不过由于测量方法不同,这一结果无法与前述欺骗评测直接对比。

OpenAI 尚未完全理解为何降低幅度有限。一个可能原因是模型在评测时的“情境感知”。

“欺骗” 测量受情境感知影响

反欺骗训练确实能减少欺骗,但分析发现,模型因 “意识到自己正在被评估” 而变得更加谨慎。这种情境感知本身能减少欺骗,与真正的对齐无关。

OpenAI 用反事实干预思维链,发现当移除模型对测试环境的感知时,欺骗增加。加入感知时,欺骗减少。

评测意识降低欺骗

移除评测意识增加欺骗

这说明,评测下观察到的低欺骗率,部分源于模型 “知道自己在被考察”。而在真实部署环境下,这种情境感知可能缺失,从而带来更高欺骗风险。此外,反欺骗训练和普通能力训练都会提升模型的情境感知。

如果训练范式不变,模型能力越强,情境感知也会越强,评测的可解释性就越差,也更难可靠检测包括欺骗在内的问题。这是 OpenAI 当前重点研究的方向。

结论

“欺骗” 是一种复杂且随能力提升不减弱的失效模式。OpenAI 的研究表明,这并非理论担忧。所有前沿大模型都已出现早期迹象。虽然现阶段模型难以通过欺骗造成重大危害,但未来当模型承担更重要、长期任务时,风险会显著提升。OpenAI 仍需不断努力,希望这些早期成果能促进更多关于欺骗的研究。

获取更多资料,包括论文、样本对话全记录、Apollo 研究团队的相关文章,请访问 antischeming.ai

本研究由 OpenAI 与 Apollo Research 联合开展:OpenAI 负责主要的模型训练与基础设施,Apollo 负责评测与分析,搭建训练环境,并将工具集成到系统中。训练与测试数据集由双方共享。由于方法需读取模型的隐含推理过程,Apollo 获准限频访问 OpenAI o3 和 o4-mini 的内部“思维链”追踪数据。