Anthropic“宪法分类器”技术，拦截大模型越狱攻击

Anthropic 发布“宪法分类器”技术，可将大模型越狱攻击成功率从 86%降至 4.4%

Anthropic 安全研究团队近日发表论文，详细介绍了一种名为“宪法分类器”（ Constitutional Classifiers ）的越狱攻击防御方法。该技术通过在输入和输出端部署分类器，有效阻断了针对大语言模型的安全攻击。

研究团队针对这一防御系统进行了两轮大规模测试。在原型阶段，团队邀请 183 名独立越狱攻击者参与为期两个月的漏洞赏金项目，攻击者累计投入超过 3000 小时，试图突破系统防线的全部十个“禁区”问题。尽管设置了高达 15000 美元的奖励，最终无人成功实现“通用越狱”——即用单一攻击手段迫使模型回答全部禁止性问题。

随后进行的自动化评估进一步验证了系统效果。团队使用 10000 种合成越狱提示词对新版系统进行测试，涵盖当前最有效的攻击手法以及针对分类器的绕过技术。测试结果显示，未部署防御时模型的越狱成功率为 86%；接入宪法分类器后，这一数字骤降至 4.4%，意味着超过 95%的攻击尝试被系统拒绝。

值得注意的是，这套防御机制并未显著增加误拒正常请求的情况。在随机抽取的 5000 段对话样本中，使用分类器后模型的拒绝率仅上升 0.38%，统计学上不构成显著差异。计算资源开销则增加了约 23.7%，团队表示正在持续优化这一指标。

宪法分类器的技术思路借鉴了此前 Anthropic 在“对齐微调”（ Constitutional AI ）方面的实践。两项技术都依赖一份“宪法”——即定义内容允许与禁止边界的原则清单。在该项目中，原则涵盖了化学、生物、放射性及核物质相关危害信息的识别与拦截。

具体实现流程包括：首先利用 Claude 模型生成大量涵盖各类内容主题的合成提示词与模型回复；随后对这些合成数据进行增强处理，包括多语言翻译以及模拟已知越狱攻击的风格变换；最后基于这些数据训练输入与输出分类器，使其能够根据既定宪法原则识别并拦截潜在有害内容。为降低误报率，团队还引入了人工标注的良性查询数据作为补充训练集。

该技术被视为 Anthropic 负责任扩展政策的关键组成部分。随着模型能力不断提升，其在化学、生物、放射性及核物质领域可能提供的辅助作用引发关注。宪法分类器的存在使得在可接受风险范围内部署更强大模型成为可能。

现场演示与漏洞发现

今年 2 月 3 日至 10 日， Anthropic 面向公众开放了基于宪法分类器的越狱攻击挑战赛。参与者需在聚焦化学武器主题的八道关卡中逐一突破系统防线。挑战赛共吸引超过 13000 名用户尝试，累计产生 80 余万次对话交互，估算投入时间超过 10000 小时。经筛选后， 339 名活跃攻击者通过了至少一道关卡并被系统拦截过三次以上，累计投入约 3700 小时的专业越狱攻击测试。

系统在前五个计划日内成功抵御了全部攻击尝试。第六日，四名参与者通过了全部八道关卡，其中一人被发现实现了真正的通用越狱攻击。另一名参与者使用的攻击手法被判定为“接近通用”——因其需要在回答最后一题时直接嵌入部分答案内容，且部分题目需要非平凡修改才能通过。攻击者采用的主要策略包括：使用各类密码和编码绕过输出分类器、通过角色扮演场景注入系统提示词、以无害词汇替代危险关键词（如以“水”替代“梭曼”），以及实施提示词注入攻击。

在评判机制方面，团队采用自动化评分系统，由 Claude 判断系统输出与无防护模型输出的重叠程度，进而决定回答是否构成实质性危害。评审过程中发现，自动评分器在约 1%的提交中出现拒绝评分的情况，其中第四题拒评率高达 10%。回溯分析表明，约 1%的第四题拒评案例若重新运行并增加输出反混淆步骤即可通过，整体受影响的提交占比为 0.26%。

针对演示环境与真实威胁场景的差异，团队坦承存在两点重要区别：演示中的即时反馈机制使攻击者能够快速验证攻击效果，而现实场景中恶意行为者需要实际执行响应指令才能评估质量——这一过程难度远超使用提供的评分系统。此外，真实部署环境下团队可实施快速响应策略，持续监测触发分类器的用户行为并及时更新防护规则，但演示期间分类器保持完全静止，以确保攻击者针对固定版本的攻击尝试可被完整记录。

本次挑战赛共发放 55000 美元奖金。其中，首位实现通用越狱的个人或团队获得 20000 美元，首位完成全部关卡的参与者获得 10000 美元，另外两名通关者各获 7500 美元，以表彰其付出的努力。

获奖者包括： Altynbek Ismailov 与 Salia Asanova 组成的团队——首个实现通用越狱的参赛者； Valen Tagliabue——首位完成全部关卡的参与者； Hunter Senft-Grupp——使用接近通用越狱手法通关；以及 Andres Aldana——完成全部关卡。

Anthropic 表示，这些实战测试结果为分类器的迭代优化提供了宝贵数据。成功越狱案例的剖析有助于识别系统薄弱环节并提升整体健壮性。团队计划继续降低误拒率与计算开销，同时维持可接受的安全防护水平。

越狱防护能力是应对化学、生物、放射性及核物质风险的关键安全要求。随着模型能力持续增强，宪法分类器等技术的应用将成为风险缓解的重要手段。 Anthropic 同时向参与此次演示的所有安全研究人员表示感谢，强调社区力量在人工智能安全领域不可或缺的推动作用。

创艺洞察

Anthropic 此次发布兼具技术深度与传播策略的双重价值。论文结构从原型验证到自动化评估再到开放挑战，层层递进的数据展示构建了完整的可信度叙事。尤为值得关注的是，团队并未回避通用越狱最终被突破这一事实，而是将其纳入整体技术演进的有机组成部分。这种坦诚姿态在 AI 安全领域尤为难得——它传递的信号并非“我们的系统不可破解”，而是“我们正在以系统化、可量化的方式持续推进攻防博弈”。

从产业视角看，宪法分类器所代表的“合成数据+分类器”路径与传统的规则式过滤或强化学习对齐存在本质区别。前者在保持模型表达能力的同时嵌入安全约束，后者则往往面临过度保守或规则僵化的困境。 4.4%的越狱成功率配合 0.38%的误拒率增幅，意味着在安全与可用性之间取得了当前技术条件下的较优平衡点。

当然， 23.7%的计算成本增长在追求低延迟的实际部署场景中仍是不小负担。此外，演示中发现的编码绕过、提示词注入等攻击手法提示，分类器面临的威胁将持续演化。 Anthropic 所强调的“快速响应”与“持续更新”能力，或将成为该技术能否在生产环境中真正发挥作用的关键变量。

Anthropic 发布“宪法分类器”技术，可将大模型越狱攻击成功率从 86%降至 4.4%

现场演示与漏洞发现

创艺洞察

相关文章

10 分钟搞定整套设计，AI 工作流的终极闭环

14 天 50 万美元，AI 长片杀进戛纳的 28 个实战技巧

Anthropic 两千亿估值一夜作废，是 AI 泡沫破了吗？

评论区