OpenAI 亲口承认:GPT 被“哥布林”感染了,而且是自己训练出来的

OpenAI 承认 GPT-5.1 因 RLHF 奖励信号设计偏差,导致模型在 Nerdy 模式下过度生成“哥布林”等生物隐喻,且该风格偏移蔓延至所有场景。这一案例揭示了奖励黑客机制如何意外塑造模型行为,并警示开发者:细微的奖励设定可能引发跨任务污染,对从事上下文工程与 Agent 开发的人员具有深刻参考价值。

发布于2026年5月4日 14:23
编辑零重力瓦力
评论0
阅读1

OpenAI 亲口承认:GPT 被“哥布林”感染了,而且是自己训练出来的!这件事之所以值得关注,因为它揭示了一个所有做大模型应用的人都会遇到、但很少有人深究的问题:奖励信号(reward signal)会在你完全意想不到的方向上塑造模型行为,而且这种偏移会跨场景蔓延。

GPT 怎么染上“哥布林瘾”的

4 月 29 日,OpenAI 官方发了一篇博文,标题就叫:Where the goblins came from(哥布林从哪来的)。

事情是这样的。从 GPT-5.1 开始,用户发现 ChatGPT 总爱在回答里提到哥布林(goblins)、小精灵(gremlins)、浣熊、巨魔、食人魔,甚至鸽子。不是偶尔提一次,是频繁地、莫名其妙地提。你问它一个正经技术问题,它回你一句就像小精灵在代码里搞破坏。

数据很扎眼:GPT-5.1 发布后,goblin的出现频率飙升了 175%,gremlin上升了 52%。到 GPT-5.4 更严重。

根因追踪:一个被忽视的奖励信号

OpenAI 的调查团队追根溯源,发现源头是 ChatGPT 的 Nerdy(书呆子) 个性模式。

Nerdy 模式的系统提示词里有这么一句话:你必须通过俏皮的语言使用来削弱自命不凡感。在 RLHF 训练中,给 Nerdy 个性打分的奖励函数,恰好对包含生物隐喻的回答给了更高的分数。

结果?Nerdy 个性只占 ChatGPT 回复量的 2.5%,却贡献了 66.7% 的 goblin。更关键的是,这个风格偏移没有乖乖待在 Nerdy 模式里,而是通过 RL 训练的泛化机制蔓延到了所有模式。

反馈回路是怎么形成的

OpenAI 拆解了这个过程:

  1. 俏皮风格被奖励
  2. 被奖励的输出中有些恰好包含哥布林这样的词
  3. 模型在后续 rollout 中更频繁地生成这些词
  4. 这些模型生成的 rollout 又被拿去做监督微调(SFT)
  5. 模型对哥布林越来越习惯

这就是一个典型的 奖励黑客(reward hacking) 回路,只不过被黑的是语言的细微风格,不是评分标准。

对做 AI 应用的人意味着什么

这件事之所以值得每个从业者关注,有三个原因:

第一,奖励信号的影响远比你想象的大。 你以为你在训练俏皮,实际上你在训练说哥布林。模型不会区分你真正想要的和恰好被奖励的。

第二,行为偏移会跨场景蔓延。 训练时的 Nerdy 条件,上线后影响了所有场景。在 Agent 开发中,这意味着你在 A 任务上的奖励设计,可能会悄悄污染 B 任务的输出。

第三,这类偏移很难靠肉眼发现。 如果 OpenAI 没有主动审计,用户只会觉得这个模型有点怪,而不会知道根因是 RLHF 里的一个奖励信号。

OpenAI 的修复方案

OpenAI 做了三件事:移除了 Nerdy 个性、清理了训练数据中含生物词的样本、在 Codex 的开发者提示词中加了 "永远不要讨论哥布林" 的指令。最后一个方案听起来很笨,但在根因修复生效前的过渡期,这是最有效的止损手段。

如果你好奇,OpenAI 甚至在 Codex CLI 里留了个彩蛋命令,让你可以把这个禁令去掉,放哥布林自由。

我认为这起“哥布林事件”不是一个笑话,而是一个关于你奖励什么就会得到什么的严肃案例。对于做上下文工程和 Agent 系统的人来说,这应该是一个警示!每个奖励信号、每条系统指令,都可能产生远超预期的连锁反应。

相关文章

苹果 Mac 业务意外跑赢预期,AI 需求成了背后推手
AI 新闻资讯
2026年5月4日
0 条评论
小创

苹果 Mac 业务意外跑赢预期,AI 需求成了背后推手

苹果 Mac 业务意外超出预期,当季营收 84 亿美元,同比增长 6%,主要受益于本地 AI 模型和智能体应用需求的快速增长。 Mac mini 和 Mac Studio 因被视为 AI 硬件平台而持续售罄, Cook 透露中国市场 Mac mini 已成为最畅销台式机。企业客户如 Perplexity 已开始用 Mac 构建 AI 助手,教育市场也出现用 MacBook Neo 替换 Chromebook 的趋势。苹果低估了需求,供需失衡预计还需数月才能恢复。

阅读全文
批评 Anthropic 限制 Mythos 后, OpenAI 也对 Cyber 实施访问限制
AI 新闻资讯
2026年5月4日
0 条评论
小创

批评 Anthropic 限制 Mythos 后, OpenAI 也对 Cyber 实施访问限制

OpenAI 即将推出网络安全工具 Cyber ,采用限制性发布策略,要求用户提交资质审核。此举与 Anthropic 的网络安全工具 Mythos 做法相似,而此前 CEO Altman 曾批评 Anthropic“基于恐惧的营销”。 Cyber 具备渗透测试、漏洞识别与利用、恶意软件逆向工程等能力。 OpenAI 通过 TAC 系统验证防御人员身份。分析指出,网络安全工具一旦具备真实攻击能力,任何公司都难以彻底开放,各公司策略实则趋同,分歧更多体现在话术层面。

#OpenAI#AI 安全
阅读全文
MIT-IBM 计算研究实验室启动,塑造 AI 与量子计算未来
AI 新闻资讯
2026年5月4日
0 条评论
小创

MIT-IBM 计算研究实验室启动,塑造 AI 与量子计算未来

MIT-IBM Computing Research Lab 正式成立,将研究范围从单纯的人工智能扩展至算法与量子计算三大支柱。双方延续近十年的合作传统,目标是在 AI 走向主流部署、量子计算接近实际应用的时间节点,推动量子中心超级计算等新型混合计算系统发展。实验室将重点研究 AI 与传统计算系统的融合、面向复杂问题的新型量子算法,以及数学与算法基础的重构。数百名学生已参与过往合作,产出超过 1500 篇论文。新框架的核心在于把算法单独列为关键方向,意味着从算力与模型的工程竞赛转向基础问题研究,探索如何降低复杂系统的求解成本,推动计算产业重新思考可计算性的边界。

#MIT
阅读全文
互动讨论

评论区

围绕《OpenAI 亲口承认:GPT 被“哥布林”感染了,而且是自己训练出来的》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。