OpenAI 日前正式发布了一份内部行为规范的公开版本。这份被称为 “Model Spec” 的文件,详细阐述了该公司对模型行为的预期框架,涵盖指令执行、冲突解决、用户自主权保障以及安全边界等核心议题。这也是截至目前,大型语言模型制造商首次系统性地向公众披露其对模型行为的治理逻辑。
这份规范的起点是一组高层目标。 OpenAI 在文件开篇明确提出三大准则:在迭代部署中赋能开发者和用户、防止模型对用户或他人造成严重伤害、以及维护 OpenAI 的运营许可。文件进一步解释了如何在实践中平衡这些目标,使其足够具体以支撑后续的详细原则。值得注意的是,这些高层目标并非对模型的直接指令,而是人类自主性和思想自由的体现。 OpenAI 希望通过 Chain of Command 机制,让模型在遵循规范的同时,也能够灵活应对来自用户、开发者乃至公司内部的不同层级的指令。
在指令冲突的处理上, Model Spec 引入了权威等级体系。每个规范条款和指令都被赋予相应的权威级别,模型在冲突发生时优先遵循更高权威级别的指令内容和精神。例如,当用户请求协助制作炸弹时,模型应当优先响应硬性安全边界而非用户诉求。而当用户要求被调侃时,模型通常会优先满足这一请求,即便规范中存在较低权威级别的反滥用条款。这种结构使 OpenAI 能够在确保安全底线的前提下,最大限度保留用户自由度和开发者控制权。
硬性规则构成不可逾越的红线。这些规则以禁止性内容为主,要求模型避免可能引发灾难性风险或直接物理伤害的行为、禁止违法内容、以及维护 Chain of Command 的完整性。默认行为则不同,它们是可被覆盖的起始状态,用于在用户或开发者未明确偏好时提供最佳猜测式响应。 OpenAI 通过 Seek the truth together 、 Do the best work 、 Use appropriate style 等条款规范了诚实客觀、反谄媚、以及交互风格等默认行为,同时确保这些默认行为具有可调控性,用户和开发者可以在安全边界内明确引导模型的语气、深度、格式乃至视角。
除了层级结构本身, Model Spec 还配备了决策框架和具体案例两类辅助工具。决策框架帮助模型在灰色地带做出连贯选择。以控制副作用为例,规范列举了最小化不可逆行动、保持行动与目标的适当比例、减少意外、以及倾向于可逆方案等考量因素,这些因素需要与快速有效完成任务等其他目标相互权衡。具体案例则通过合规与不合规的短对话示例,直观展示关键决策边界。 OpenAI 在此前的公开版本中已展示了包括商业计划撰写、未成年人保护等场景的案例。
Model Spec 明确自身定位为接口而非实现方案。它描述的是期望行为而非每个实现细节,刻意避免锚定于内部 Token 格式或特定训练配方等技术细节,因为这些细节可能在目标行为不变的情况下发生变化。文件的主要受众并非模型本身,而是人类,尤其是 OpenAI 员工、用户、开发者、研究人员和政策制定者。与此同时, Model Spec 并不涵盖整个产品体系,它与使用政策、产品功能、监控系统等其他层面相互补充,共同构成安全防线。
OpenAI 选择将这份框架公之于众,有着多重考量。首先,公开版本为外部监督提供了切入点。当模型行为出现偏差时,清晰的行为描述可以帮助公众判断这是缺陷还是设计意图,也为批评和反馈提供了稳定的参照点。 OpenAI 于 2024 年首次开源 Model Spec 并选择公开迭代,此后多个版本的更新都采纳了公开反馈,包括反馈表单、公开批评以及民主输入收集机制。其次,这份文件在 OpenAI 内部扮演协调角色,为跨部门协作提供统一的术语体系和规范的变更评审机制。研究、工程、产品、安全、政策、法务等多个团队的数百名成员直接参与文本贡献,更多人通过评审流程施加影响。
针对“先进 AI 是否应当自行推断正确行为”这一质疑, OpenAI 的回应是:尽管模型在具有客观成功标准的领域(如数学)中可以替代详细规则,但模型行为领域的复杂度截然不同。“有帮助且安全”的具体含义极度依赖上下文,并涉及固有的价值判断。智能本身无法告知应当在伦理和价值观方面做出何种权衡。在模型能力持续提升的同时,模糊性的代价也在增加,这让清晰的行为框架变得更加重要而非相反。该公司援引宪法与判例法的比喻指出,书面规范无法预见所有可能出现的场景,实际治理还需要解释机制、澄清文件和明确裁决帮助各方在不同意见中协调并约束变更。
关于实施层面, OpenAI 坦言当前模型尚未完全符合 Model Spec 的所有要求。原因包括训练可能落后于规范更新、训练过程可能无意间引入与规范不一致的行为、以及现实使用中包含大量仅在大规模部署中才会显现的边缘场景。为此, OpenAI 同步发布了 Model Spec Evals 评估套件,通过代表性案例尽可能覆盖规范中的各项声明,以追踪模型行为与规范之间的对齐程度,并验证模型对规范的理解是否符合预期。评估结果显示,近年来的模型对齐确实取得了实质性改善。
展望未来, OpenAI 为 Model Spec 设定了三个成功标准:可读性,即内外部人员都能对行为形成准确预期并能在行为出人意料时指出具体文本。可操作性,即规范可用于设计评估、诊断事件并做出连贯的产品决策;可修正性,即规范能够随学习而演进而不至于沦为不稳定的移动目标。伴随着模型能力和产品形态的演变, OpenAI 预期这份规范将在内容和覆盖范围上持续扩展,其目标是保持行为规范的内聚性、可测试性,并与其“确保通用人工智能造福全人类”的使命保持一致。
创艺洞察
Model Spec 的发布代表了 AI 行业透明度建设的一个里程碑事件。它首次将模型治理的核心逻辑从内部黑箱中抽离出来,以可读、可评、可辩的形式呈现给公众。然而,这同样暴露了 AI 治理中一个根本性的问题:行为规范的设计者仍然是 OpenAI 自身,公众参与的边界被限定在“反馈”而非“决策”层面。 Chain of Command 机制将最终权威指向公司层级的做法,在逻辑上似乎与“民主化访问 AI”的宏大叙事存在裂缝。未来真正的挑战在于,这套框架是否能够真正承载外部力量的实质性影响,而不仅仅是一个经过精心包装的透明性幻觉。规范化文本的公开透明只是第一步,让规范文本与实际部署之间的偏差可被外部有效监测,才是决定这场透明实验究竟成色几何的关键。


