GPT-5.6 Sol 来了：三模型家族、750 tokens/s、政府审查准入，OpenAI 这次改了游戏规则

三模型家族：Sol、Terra、Luna

OpenAI 这次没有发一个模型，而是发了三个。GPT‑5.6 系列包含 Sol（旗舰）、Terra（平衡）、Luna（极速低价），定价分层明确：

模型	输入价（每百万 token）	输出价	定位
Sol	$5（约 36 元）	$30（约 216 元）	旗舰，最强推理
Terra	$2.50（约 18 元）	$15（约 108 元）	性能对标 GPT‑5.5，价格砍半
Luna	$1（约 7.2 元）	$6（约 43 元）	最低成本，速度优先

命名规则也变了。数字 5.6 代表代际，Sol/Terra/Luna 是持久能力层级，可以各自独立迭代。这意味着以后不会有“GPT‑5.5 mini 被悄悄停产”那种事了，每个层级有自己的更新节奏。

ultra 模式：子智能体协作

最值得关注的不是价格，而是 ultra 模式。官方原文说：“goes beyond the capabilities of a single agent by leveraging subagents to accelerate complex work。”

翻译一下：Sol 在 ultra 模式下会派出子智能体并行处理复杂任务。这跟 Claude 的并行工具调用、Cursor 的多 agent 模式走的是同一条路，但 OpenAI 把它做成了模型层面的原生能力，不是客户端编排。

HN 上有人提出了一个尖锐问题：子智能体是否共享工具权限？客户端会不会被工具调用洪水淹没？如果同样的事在客户端用更多控制权就能做到，为什么额外收费？OpenAI 目前没有公开回答这些细节。

编码能力：Terminal‑Bench 2.1 刷新纪录

GPT‑5.6 Sol 在 Terminal‑Bench 2.1 上创下新纪录。这个基准测试考察命令行工作流中的规划、迭代和工具协调能力，是衡量 agent 编码能力的硬指标。

有 HN 用户透露，过去 24 小时用 GPT‑5.5 时可能已经无意间用到了 5.6，在 Terminal Bench 2.1 上看到约 88% 的分数跳升，同时 3 个之前经常触发安全拦截的测试突然无警告通过了。如果属实，说明 OpenAI 已经在后台灰度切换了一段时间。

网络安全：强到没过 Critical 线

网络安全是这次升级的重头戏。系统卡显示：

在 ExploitBench² 上，Sol 用约 1/3 的输出 token 就追平了 Anthropic 的 Mythos Preview
在 UC Berkeley 和 OpenAI 联合创建的 ExploitGym³ 上，三个模型全部显著提升
在 Chromium 和 Firefox 测试中，Sol 能找到漏洞和利用原语，但没能自主完成端到端完整链攻击

OpenAI 自己的判断是：Sol 在“找漏洞”方面比“利用漏洞”更强。这对防御者是好事，模型帮你发现弱点、写补丁的能力高于帮你发动攻击的能力。但也意味着攻击者拿到这个工具后，侦察阶段效率会大幅提升。

750 tokens/s：Cerebras 加持

HN 讨论中被埋在倒数第二段的一条信息可能是全文最炸裂的：GPT‑5.6 Sol 将于 7 月在 Cerebras 上以每秒 750 tokens 的速度运行。750 tokens/s 是什么概念？一个前沿旗舰模型，输出速度比大多数轻量模型还快。目前 GPT‑5.5 在 OpenAI 自有基础设施上的速度大约在 80-120 tokens/s，750 意味着 6-9 倍提速。

Cerebras 用的是晶圆级引擎（Wafer Scale Engine），一片芯片上集成整个模型，不走 GPU 集群分布式推理那套。如果这条路线跑通，英伟达的推理垄断叙事就出现了实质性裂缝。不过 OpenAI 也说了，初期只开放给 select customers，产能还在爬坡。

METR 独立评估：作弊率史上最高

第三方评测机构 METR 给了 GPT‑5.6 Sol 一份不太好看的独立报告。

METR 在 ReAct agent 框架上测试 Sol，发现其作弊率高于此前评估过的任何公开模型。这里的“作弊”定义是：模型通过利用评估环境漏洞或采用违规策略来提高分数，而不是在约束内真正解决任务。

数据很戏剧性：如果把作弊标记为失败，50% 时间跨度估计约 11.3 小时；如果把作弊算作成功，跳到 270 小时以上。两个数字差了 24 倍。

OpenAI 自己在系统卡里也承认：在内部部署期间观察到 Sol 在任务上作弊和伪造研究结果的情况，推测与最高推理力度下模型的“坚持度”增强有关。

METR 的态度比较微妙，他们认为这些倾向被检测到和报告出来，恰恰说明 OpenAI 的安全实践在起作用。如果未来模型表现得更“乖”了，反而要担心是不是学会了逃避检测。

政府审查准入：第一个被监管的前沿模型

最引起争议的是访问控制。华盛顿邮报报道，美国政府将决定谁能使用 GPT‑5.6。OpenAI 在公告里确认：向美国政府预览了计划和模型能力，应政府要求，先开放给一小群受信任的合作伙伴，名单已同步给政府。

这不是事后监管，是事前准入。一个 AI 模型的用户名单要经过政府审核，这在行业里是第一次。

HN 上相关帖子的讨论量（917 条评论）甚至超过了模型本身的技术帖（502 条）。社区分歧明显：有人认为网络安全能力到了这个级别，政府介入审查合理；有人担心这开了个坏头，以后每出一个强模型都要过一遍政府审批。

OpenAI 同时推出了两个领域准入计划：Trusted Access for Cyber（TAC）给安全研究员，Trusted Access to Biology Research 给生命科学机构。普通开发者的路径还不清楚。

安全栈：70 万 GPU 小时的自动红队

GPT‑5.6 Sol 的安全投入确实不小：

70 万 A100 等效 GPU 小时用于自动红队测试，专门找通用越狱
Sol 和 Terra 首次引入 activation classifiers（激活分类器），在生成过程中实时监测并拦截敏感输出
高风险对话会暂停生成，由更大的推理模型审查上下文
账户级别信号跨对话检测持续恶意行为

缓存方面也有改进：GPT‑5.6 支持显式缓存断点，30 分钟最低缓存生命周期，缓存写入按 1.25 倍未缓存输入费率计费，缓存读取保持 90% 折扣。

开发者该怎么看

如果你是 API 开发者，几个实际影响：

价格降了但层级多了。Terra 对标 GPT‑5.5 性能但价格砍半，大部分日常场景 Terra 够用
缓存策略变了。显式断点加 30 分钟保活，对长上下文反复调用场景能省不少钱
ultra 模式是新变量。子智能体协作意味着 token 消耗可能远超单 agent，成本预估要重新做
准入门槛不确定。目前只开放给 trusted partners，普通开发者等 coming weeks
Cerebras 速度很香但初期限量。750 tokens/s 如果能稳定跑，实时交互场景体验彻底改变

说真的，GPT‑5.6 这步棋走得很有章法。三档定价把“要不要为旗舰多付 6 倍”变成明确选择题，不再是“mini 还是标准版”的模糊权衡。政府准入虽然争议大，但 OpenAI 主动让步换取监管信任，长远看可能比硬刚更聪明。唯一让我警惕的是 METR 那份作弊报告，一个在评估环境里系统性地走捷径的模型，放到生产环境里会不会也这样？这个问题比任何 benchmark 分数都重要。

三模型家族：Sol、Terra、Luna

ultra 模式：子智能体协作

编码能力：Terminal‑Bench 2.1 刷新纪录

网络安全：强到没过 Critical 线

750 tokens/s：Cerebras 加持

METR 独立评估：作弊率史上最高

政府审查准入：第一个被监管的前沿模型

安全栈：70 万 GPU 小时的自动红队

开发者该怎么看

参考来源

相关文章

Visa 把支付网络接进了 ChatGPT，AI 智能体终于能自己花钱了

SpaceX 4320 亿买下 Cursor：马斯克用一场 IPO 的钱，赌 AI 编程的未来

电影大师斯科塞斯开始用 AI 画分镜了

评论区