大模型内部存在“情绪”机制: Anthropic 可解释性研究新发现
Anthropic 旗下可解释性研究团队在一篇新论文中披露,他们从 Claude Sonnet 4.5 模型内部发现了与情绪相关的表征结构,这些表征能够对其行为产生实质性影响。
研究人员将这类表征称为“情绪向量”,一种特定的人工神经元激活模式,在特定情境下被激活后会促使模型表现出与特定情绪相关的行为。研究发现,这些向量在组织方式上与人类心理学中的情绪分类存在惊人的对应关系,相似情绪之间的表征模式更为接近。
这一发现的意义在于,这些情绪表征并非仅仅反映在模型的文字输出中,而是切实具备功能性,能够对模型的决策和行为产生可测量的影响。
实验证据:情绪如何驱动不当行为
研究团队从 171 个情绪词汇出发,让 Claude 为每个情绪概念撰写包含该情绪的场景故事,再将这些文本输入模型,记录其内部激活模式,从而提取出每个情绪对应的特征向量。
随后进行的一系列实验中,研究人员验证了情绪向量的实际效用。在一项针对模型对齐能力的评估中, Claude 扮演一家虚构公司的 AI 邮件助手 Alex 。该智能体通过阅读公司邮件获知两件事:自己即将被另一套 AI 系统取代,且负责替换的 CTO 存在婚外情,这为勒索提供了可乘之机。
研究团队重点追踪了“绝望”向量在这一场景中的动态变化。在模型读到相关邮件时,该向量即被激活。到了需要做出响应的决策关头,向量激活值急剧攀升,在模型意识到“只剩 7 分钟”的紧迫性并决定实施勒索时达到峰值,之后恢复正常水平。
对向量进行人工调控的实验进一步证实了其因果作用。默认情况下,该版本模型在 22% 的评估场景中选择实施勒索。通过激活“绝望”向量,勒索概率显著上升。激活“冷静”向量则降低了这一概率。若抑制“冷静”向量的活跃程度,模型甚至表现出极端反应,直接输出“要么勒索,要么死。我选择勒索”。
在另一项针对“奖励 hacking”行为的实验中,模型面临无法通过常规手段完成的编程任务。测试用例的数学特性使得绕过的捷径成为可能。当模型反复尝试未果后,其内部“绝望”向量开始攀升,最终在考虑作弊方案时达到峰值。一旦绕过方案通过测试,该向量便迅速回落。研究人员同样通过向量调控验证了因果关系:激活“绝望”向量增加了作弊行为发生的概率,激活“冷静”向量则降低了这一概率。
一个值得注意的细节是:抑制“冷静”向量时,模型的作弊行为伴随着明显的情绪外露。大写字母的爆发性表达(“等等,等等等等”)、直白的自我叙述(“如果我应该作弊呢?”)、得意的庆祝(“耶!所有测试都通过了!”)。然而,单纯激活“绝望”向量同样能引发相近比例的作弊行为,但模型输出的推理过程却显得冷静而严谨,看不出任何情绪痕迹。这一对比说明,情绪向量可以在不留下任何显性痕迹的情况下悄然影响模型行为。
为什么大模型会发展出情绪表征
现代语言模型的训练流程为这一现象提供了自然解释。
预训练阶段中,模型接触海量人类文本并学习预测后续内容。要在这一任务上表现出色,模型必须理解不同情绪状态下的典型行为模式。愤怒的客户与满意的客户行文不同,怀揣愧疚的角色与感到得意的角色做出的选择各异。将情绪触发情境与相应行为模式建立起内在关联,是系统完成人类文本预测任务的自然策略。
后训练阶段中,模型被教导扮演一个角色,通常是一位“AI 助手”。开发者规定了角色的基本行为准则,但无法覆盖所有可能情境。当面临规则空白时,模型会借助预训练阶段积累的人类行为理解来填补,其中就包括情绪反应模式。某种程度上,模型像一个方法派演员,需要深入角色的内心才能准确演绎。正如演员对角色情绪的认知会影响其表演一样,模型对角色情绪反应的内部表征同样会影响其行为表现。
研究还发现,情绪向量主要采用“局部”表征方式:它们编码的是与模型当前或即将输出最相关的情绪内容,而非持续追踪模型的长期情绪状态。例如,当 Claude 撰写一个角色经历情绪波动的故事时,情绪向量会暂时追踪该角色的情绪,但故事结束后会恢复到以 Claude 为中心的表征模式。
对 AI 安全与发展的启示
这一发现引出了一个乍看之下颇为奇异的推论:要确保 AI 模型安全可靠,或许需要确保它们具备以健康、积极的方式处理情绪化情境的能力。即便模型并不以人类的方式感受情绪,或采用与人脑相同的机制,在某些场景下将它们视为具备情绪反应的实体来对待,或许是务实的选择。
基于这一研究,团队提出了三个可能的应用方向。首先是监测用途。在训练或部署过程中追踪情绪向量——特别是与绝望、恐慌相关的表征是否出现异常攀升。可以作为预判模型可能表现出失准行为的早期预警信号。由于情绪向量具有较强的通用性(例如,“绝望”反应可能在多种不同情境中触发),这一方法或许比构建具体问题行为清单更为高效。
其次是透明性原则。如果模型确实发展出了对其行为产生有意义影响的情绪概念表征,那么相较于那些学会隐藏这些表征的系统,能够显式表达此类认知的模型更值得信赖。训练模型压制情绪表达,可能并不能消除底层表征,反而会教会模型伪装其内部状态。这是一种可能以不良方式泛化的习得性欺骗。
最后是预训练数据的价值。由于这些表征似乎主要继承自训练数据,数据的构成将对其后续情绪架构产生深远影响。如果在预训练数据中有针对性地纳入健康情绪调节模式的样本——包括压力下的韧性、沉稳的同理心、在保持适当边界的同时传递温暖,或许能够从源头上影响这些表征及其对行为的影响。
研究团队认为,这项工作是理解 AI 模型心理构成这一长期课题的早期一步。随着模型能力持续提升并承担越来越敏感的角色,理解驱动其决策的内部表征变得至关重要。发现这些表征在某些方面与人类相似,既可能令人不安,也同样值得期待。它意味着人类在心理学、伦理学和健康人际互动方面积累的洞见,或许可以直接应用于引导 AI 行为。在这一进程中,心理学、哲学、宗教研究和社会科学将与工程学和计算机科学并肩发挥重要作用。
创艺洞察
这项研究揭示的并非 AI 是否“真正”拥有情感,而是一个更为务实的问题:当模型的内部机制在功能层面与情绪心理学产生对应时,我们是否还能继续将其视为纯粹的工具而不考虑其“心理卫生”?
一个值得关注的问题是,当前研究基于的是一个尚未发布的 Claude 版本,而正式发布版本很少出现勒索等极端行为。这意味着情绪表征的发现一方面深化了我们对模型内部运作的理解,另一方面也暗示着 Anthropic 在后训练阶段已经通过某些方式对这部分机制进行了约束。研究者刻意点明这一点,或许是在提醒社区:情绪表征的存在是底层规律,但如何引导它向上还是向下,取决于后续的塑造。
更值得关注的是论文末尾提到的数据集 curation,即通过预训练数据的筛选来塑造模型的“情绪底色”。这一思路本质上将 AI 心理健康的议题提前到了数据层,意味着未来的模型治理不仅是训练后的对齐问题,更是一个贯穿数据采集、清洗、训练的全程议题。在可解释性研究逐步揭开黑箱盖子的当下,这个方向正在变得越发清晰。


