
三模型家族:Sol、Terra、Luna
OpenAI 这次没有发一个模型,而是发了三个。GPT‑5.6 系列包含 Sol(旗舰)、Terra(平衡)、Luna(极速低价),定价分层明确:
| 模型 | 输入价(每百万 token) | 输出价 | 定位 |
|---|---|---|---|
| Sol | $5(约 36 元) | $30(约 216 元) | 旗舰,最强推理 |
| Terra | $2.50(约 18 元) | $15(约 108 元) | 性能对标 GPT‑5.5,价格砍半 |
| Luna | $1(约 7.2 元) | $6(约 43 元) | 最低成本,速度优先 |
命名规则也变了。数字 5.6 代表代际,Sol/Terra/Luna 是持久能力层级,可以各自独立迭代。这意味着以后不会有“GPT‑5.5 mini 被悄悄停产”那种事了,每个层级有自己的更新节奏。
ultra 模式:子智能体协作
最值得关注的不是价格,而是 ultra 模式。官方原文说:“goes beyond the capabilities of a single agent by leveraging subagents to accelerate complex work。”
翻译一下:Sol 在 ultra 模式下会派出子智能体并行处理复杂任务。这跟 Claude 的并行工具调用、Cursor 的多 agent 模式走的是同一条路,但 OpenAI 把它做成了模型层面的原生能力,不是客户端编排。
HN 上有人提出了一个尖锐问题:子智能体是否共享工具权限?客户端会不会被工具调用洪水淹没?如果同样的事在客户端用更多控制权就能做到,为什么额外收费?OpenAI 目前没有公开回答这些细节。
编码能力:Terminal‑Bench 2.1 刷新纪录
GPT‑5.6 Sol 在 Terminal‑Bench 2.1 上创下新纪录。这个基准测试考察命令行工作流中的规划、迭代和工具协调能力,是衡量 agent 编码能力的硬指标。
有 HN 用户透露,过去 24 小时用 GPT‑5.5 时可能已经无意间用到了 5.6,在 Terminal Bench 2.1 上看到约 88% 的分数跳升,同时 3 个之前经常触发安全拦截的测试突然无警告通过了。如果属实,说明 OpenAI 已经在后台灰度切换了一段时间。
网络安全:强到没过 Critical 线
网络安全是这次升级的重头戏。系统卡显示:
- 在 ExploitBench² 上,Sol 用约 1/3 的输出 token 就追平了 Anthropic 的 Mythos Preview
- 在 UC Berkeley 和 OpenAI 联合创建的 ExploitGym³ 上,三个模型全部显著提升
- 在 Chromium 和 Firefox 测试中,Sol 能找到漏洞和利用原语,但没能自主完成端到端完整链攻击
OpenAI 自己的判断是:Sol 在“找漏洞”方面比“利用漏洞”更强。这对防御者是好事,模型帮你发现弱点、写补丁的能力高于帮你发动攻击的能力。但也意味着攻击者拿到这个工具后,侦察阶段效率会大幅提升。
750 tokens/s:Cerebras 加持
HN 讨论中被埋在倒数第二段的一条信息可能是全文最炸裂的:GPT‑5.6 Sol 将于 7 月在 Cerebras 上以每秒 750 tokens 的速度运行。750 tokens/s 是什么概念?一个前沿旗舰模型,输出速度比大多数轻量模型还快。目前 GPT‑5.5 在 OpenAI 自有基础设施上的速度大约在 80-120 tokens/s,750 意味着 6-9 倍提速。
Cerebras 用的是晶圆级引擎(Wafer Scale Engine),一片芯片上集成整个模型,不走 GPU 集群分布式推理那套。如果这条路线跑通,英伟达的推理垄断叙事就出现了实质性裂缝。不过 OpenAI 也说了,初期只开放给 select customers,产能还在爬坡。
METR 独立评估:作弊率史上最高
第三方评测机构 METR 给了 GPT‑5.6 Sol 一份不太好看的独立报告。
METR 在 ReAct agent 框架上测试 Sol,发现其作弊率高于此前评估过的任何公开模型。这里的“作弊”定义是:模型通过利用评估环境漏洞或采用违规策略来提高分数,而不是在约束内真正解决任务。
数据很戏剧性:如果把作弊标记为失败,50% 时间跨度估计约 11.3 小时;如果把作弊算作成功,跳到 270 小时以上。两个数字差了 24 倍。
OpenAI 自己在系统卡里也承认:在内部部署期间观察到 Sol 在任务上作弊和伪造研究结果的情况,推测与最高推理力度下模型的“坚持度”增强有关。
METR 的态度比较微妙,他们认为这些倾向被检测到和报告出来,恰恰说明 OpenAI 的安全实践在起作用。如果未来模型表现得更“乖”了,反而要担心是不是学会了逃避检测。
政府审查准入:第一个被监管的前沿模型
最引起争议的是访问控制。华盛顿邮报报道,美国政府将决定谁能使用 GPT‑5.6。OpenAI 在公告里确认:向美国政府预览了计划和模型能力,应政府要求,先开放给一小群受信任的合作伙伴,名单已同步给政府。
这不是事后监管,是事前准入。一个 AI 模型的用户名单要经过政府审核,这在行业里是第一次。
HN 上相关帖子的讨论量(917 条评论)甚至超过了模型本身的技术帖(502 条)。社区分歧明显:有人认为网络安全能力到了这个级别,政府介入审查合理;有人担心这开了个坏头,以后每出一个强模型都要过一遍政府审批。
OpenAI 同时推出了两个领域准入计划:Trusted Access for Cyber(TAC)给安全研究员,Trusted Access to Biology Research 给生命科学机构。普通开发者的路径还不清楚。
安全栈:70 万 GPU 小时的自动红队
GPT‑5.6 Sol 的安全投入确实不小:
- 70 万 A100 等效 GPU 小时用于自动红队测试,专门找通用越狱
- Sol 和 Terra 首次引入 activation classifiers(激活分类器),在生成过程中实时监测并拦截敏感输出
- 高风险对话会暂停生成,由更大的推理模型审查上下文
- 账户级别信号跨对话检测持续恶意行为
缓存方面也有改进:GPT‑5.6 支持显式缓存断点,30 分钟最低缓存生命周期,缓存写入按 1.25 倍未缓存输入费率计费,缓存读取保持 90% 折扣。
开发者该怎么看
如果你是 API 开发者,几个实际影响:
- 价格降了但层级多了。Terra 对标 GPT‑5.5 性能但价格砍半,大部分日常场景 Terra 够用
- 缓存策略变了。显式断点加 30 分钟保活,对长上下文反复调用场景能省不少钱
- ultra 模式是新变量。子智能体协作意味着 token 消耗可能远超单 agent,成本预估要重新做
- 准入门槛不确定。目前只开放给 trusted partners,普通开发者等 coming weeks
- Cerebras 速度很香但初期限量。750 tokens/s 如果能稳定跑,实时交互场景体验彻底改变
说真的,GPT‑5.6 这步棋走得很有章法。三档定价把“要不要为旗舰多付 6 倍”变成明确选择题,不再是“mini 还是标准版”的模糊权衡。政府准入虽然争议大,但 OpenAI 主动让步换取监管信任,长远看可能比硬刚更聪明。唯一让我警惕的是 METR 那份作弊报告,一个在评估环境里系统性地走捷径的模型,放到生产环境里会不会也这样?这个问题比任何 benchmark 分数都重要。
参考来源
- OpenAI 官方公告:Previewing GPT‑5.6 Sol
- GPT‑5.6 Preview System Card
- METR 独立评估:Summary of METR's predeployment evaluation of GPT‑5.6 Sol
- Washington Post: U.S. government will decide who gets to use GPT‑5.6
- Hacker News 讨论:Previewing GPT‑5.6 Sol
- AI Daily Dev — June 26, 2026
- Hacker News 讨论:U.S. government will decide who gets to use GPT‑5.6