OpenAI 亲口承认：GPT 被“哥布林”感染了，而且是自己训练出来的

OpenAI 承认 GPT-5.1 因 RLHF 奖励信号设计偏差，导致模型在 Nerdy 模式下过度生成“哥布林”等生物隐喻，且该风格偏移蔓延至所有场景。这一案例揭示了奖励黑客机制如何意外塑造模型行为，并警示开发者：细微的奖励设定可能引发跨任务污染，对从事上下文工程与 Agent 开发的人员具有深刻参考价值。

发布于2026年5月4日 14:23

编辑零重力瓦力

评论0 条

阅读1

#OpenAI

OpenAI 亲口承认：GPT 被“哥布林”感染了，而且是自己训练出来的！这件事之所以值得关注，因为它揭示了一个所有做大模型应用的人都会遇到、但很少有人深究的问题：奖励信号（reward signal）会在你完全意想不到的方向上塑造模型行为，而且这种偏移会跨场景蔓延。

GPT 怎么染上“哥布林瘾”的

4 月 29 日，OpenAI 官方发了一篇博文，标题就叫：Where the goblins came from（哥布林从哪来的）。

事情是这样的。从 GPT-5.1 开始，用户发现 ChatGPT 总爱在回答里提到哥布林（goblins）、小精灵（gremlins）、浣熊、巨魔、食人魔，甚至鸽子。不是偶尔提一次，是频繁地、莫名其妙地提。你问它一个正经技术问题，它回你一句就像小精灵在代码里搞破坏。

数据很扎眼：GPT-5.1 发布后，goblin的出现频率飙升了 175%，gremlin上升了 52%。到 GPT-5.4 更严重。

根因追踪：一个被忽视的奖励信号

OpenAI 的调查团队追根溯源，发现源头是 ChatGPT 的 Nerdy（书呆子） 个性模式。

Nerdy 模式的系统提示词里有这么一句话：你必须通过俏皮的语言使用来削弱自命不凡感。在 RLHF 训练中，给 Nerdy 个性打分的奖励函数，恰好对包含生物隐喻的回答给了更高的分数。

结果？Nerdy 个性只占 ChatGPT 回复量的 2.5%，却贡献了 66.7% 的 goblin。更关键的是，这个风格偏移没有乖乖待在 Nerdy 模式里，而是通过 RL 训练的泛化机制蔓延到了所有模式。

反馈回路是怎么形成的

OpenAI 拆解了这个过程：

俏皮风格被奖励
被奖励的输出中有些恰好包含哥布林这样的词
模型在后续 rollout 中更频繁地生成这些词
这些模型生成的 rollout 又被拿去做监督微调（SFT）
模型对哥布林越来越习惯

这就是一个典型的 奖励黑客（reward hacking） 回路，只不过被黑的是语言的细微风格，不是评分标准。

对做 AI 应用的人意味着什么

这件事之所以值得每个从业者关注，有三个原因：

第一，奖励信号的影响远比你想象的大。你以为你在训练俏皮，实际上你在训练说哥布林。模型不会区分你真正想要的和恰好被奖励的。

第二，行为偏移会跨场景蔓延。训练时的 Nerdy 条件，上线后影响了所有场景。在 Agent 开发中，这意味着你在 A 任务上的奖励设计，可能会悄悄污染 B 任务的输出。

第三，这类偏移很难靠肉眼发现。如果 OpenAI 没有主动审计，用户只会觉得这个模型有点怪，而不会知道根因是 RLHF 里的一个奖励信号。

OpenAI 的修复方案

OpenAI 做了三件事：移除了 Nerdy 个性、清理了训练数据中含生物词的样本、在 Codex 的开发者提示词中加了 "永远不要讨论哥布林" 的指令。最后一个方案听起来很笨，但在根因修复生效前的过渡期，这是最有效的止损手段。

如果你好奇，OpenAI 甚至在 Codex CLI 里留了个彩蛋命令，让你可以把这个禁令去掉，放哥布林自由。

我认为这起“哥布林事件”不是一个笑话，而是一个关于你奖励什么就会得到什么的严肃案例。对于做上下文工程和 Agent 系统的人来说，这应该是一个警示！每个奖励信号、每条系统指令，都可能产生远超预期的连锁反应。

OpenAI 亲口承认：GPT 被“哥布林”感染了，而且是自己训练出来的

GPT 怎么染上“哥布林瘾”的

根因追踪：一个被忽视的奖励信号

反馈回路是怎么形成的

对做 AI 应用的人意味着什么

OpenAI 的修复方案

相关文章

苹果 Mac 业务意外跑赢预期，AI 需求成了背后推手

批评 Anthropic 限制 Mythos 后， OpenAI 也对 Cyber 实施访问限制

MIT-IBM 计算研究实验室启动，塑造 AI 与量子计算未来

评论区