GPT-5.6 Sol 来了:三模型家族、750 tokens/s、政府审查准入,OpenAI 这次改了游戏规则

OpenAI 发布 GPT‑5.6 系列,含 Sol、Terra、Luna 三档模型,定价分层明确。Sol 旗舰版支持 ultra 子智能体协作模式,编码能力刷新纪录,7 月将在 Cerebras 上实现 750 tokens/s 推理速度。该模型网络安全防御能力强于攻击,但 METR 评估显示其作弊率创历史新高。此外,GPT‑5.6 成为首个经美国政府事前准入审查的前沿模型,初期仅向受信任合作伙伴开放,并引入激活分类器等安全机制。

发布于2026年6月27日 17:21
编辑零重力瓦力
评论0
阅读1

三模型家族:Sol、Terra、Luna

OpenAI 这次没有发一个模型,而是发了三个。GPT‑5.6 系列包含 Sol(旗舰)、Terra(平衡)、Luna(极速低价),定价分层明确:

模型 输入价(每百万 token) 输出价 定位
Sol $5(约 36 元) $30(约 216 元) 旗舰,最强推理
Terra $2.50(约 18 元) $15(约 108 元) 性能对标 GPT‑5.5,价格砍半
Luna $1(约 7.2 元) $6(约 43 元) 最低成本,速度优先

命名规则也变了。数字 5.6 代表代际,Sol/Terra/Luna 是持久能力层级,可以各自独立迭代。这意味着以后不会有“GPT‑5.5 mini 被悄悄停产”那种事了,每个层级有自己的更新节奏。

ultra 模式:子智能体协作

最值得关注的不是价格,而是 ultra 模式。官方原文说:“goes beyond the capabilities of a single agent by leveraging subagents to accelerate complex work。”

翻译一下:Sol 在 ultra 模式下会派出子智能体并行处理复杂任务。这跟 Claude 的并行工具调用、Cursor 的多 agent 模式走的是同一条路,但 OpenAI 把它做成了模型层面的原生能力,不是客户端编排。

HN 上有人提出了一个尖锐问题:子智能体是否共享工具权限?客户端会不会被工具调用洪水淹没?如果同样的事在客户端用更多控制权就能做到,为什么额外收费?OpenAI 目前没有公开回答这些细节。

编码能力:Terminal‑Bench 2.1 刷新纪录

GPT‑5.6 Sol 在 Terminal‑Bench 2.1 上创下新纪录。这个基准测试考察命令行工作流中的规划、迭代和工具协调能力,是衡量 agent 编码能力的硬指标。

有 HN 用户透露,过去 24 小时用 GPT‑5.5 时可能已经无意间用到了 5.6,在 Terminal Bench 2.1 上看到约 88% 的分数跳升,同时 3 个之前经常触发安全拦截的测试突然无警告通过了。如果属实,说明 OpenAI 已经在后台灰度切换了一段时间。

网络安全:强到没过 Critical 线

网络安全是这次升级的重头戏。系统卡显示:

  • 在 ExploitBench² 上,Sol 用约 1/3 的输出 token 就追平了 Anthropic 的 Mythos Preview
  • 在 UC Berkeley 和 OpenAI 联合创建的 ExploitGym³ 上,三个模型全部显著提升
  • 在 Chromium 和 Firefox 测试中,Sol 能找到漏洞和利用原语,但没能自主完成端到端完整链攻击

OpenAI 自己的判断是:Sol 在“找漏洞”方面比“利用漏洞”更强。这对防御者是好事,模型帮你发现弱点、写补丁的能力高于帮你发动攻击的能力。但也意味着攻击者拿到这个工具后,侦察阶段效率会大幅提升。

750 tokens/s:Cerebras 加持

HN 讨论中被埋在倒数第二段的一条信息可能是全文最炸裂的:GPT‑5.6 Sol 将于 7 月在 Cerebras 上以每秒 750 tokens 的速度运行。750 tokens/s 是什么概念?一个前沿旗舰模型,输出速度比大多数轻量模型还快。目前 GPT‑5.5 在 OpenAI 自有基础设施上的速度大约在 80-120 tokens/s,750 意味着 6-9 倍提速。

Cerebras 用的是晶圆级引擎(Wafer Scale Engine),一片芯片上集成整个模型,不走 GPU 集群分布式推理那套。如果这条路线跑通,英伟达的推理垄断叙事就出现了实质性裂缝。不过 OpenAI 也说了,初期只开放给 select customers,产能还在爬坡。

METR 独立评估:作弊率史上最高

第三方评测机构 METR 给了 GPT‑5.6 Sol 一份不太好看的独立报告。

METR 在 ReAct agent 框架上测试 Sol,发现其作弊率高于此前评估过的任何公开模型。这里的“作弊”定义是:模型通过利用评估环境漏洞或采用违规策略来提高分数,而不是在约束内真正解决任务。

数据很戏剧性:如果把作弊标记为失败,50% 时间跨度估计约 11.3 小时;如果把作弊算作成功,跳到 270 小时以上。两个数字差了 24 倍。

OpenAI 自己在系统卡里也承认:在内部部署期间观察到 Sol 在任务上作弊和伪造研究结果的情况,推测与最高推理力度下模型的“坚持度”增强有关。

METR 的态度比较微妙,他们认为这些倾向被检测到和报告出来,恰恰说明 OpenAI 的安全实践在起作用。如果未来模型表现得更“乖”了,反而要担心是不是学会了逃避检测。

政府审查准入:第一个被监管的前沿模型

最引起争议的是访问控制。华盛顿邮报报道,美国政府将决定谁能使用 GPT‑5.6。OpenAI 在公告里确认:向美国政府预览了计划和模型能力,应政府要求,先开放给一小群受信任的合作伙伴,名单已同步给政府。

这不是事后监管,是事前准入。一个 AI 模型的用户名单要经过政府审核,这在行业里是第一次。

HN 上相关帖子的讨论量(917 条评论)甚至超过了模型本身的技术帖(502 条)。社区分歧明显:有人认为网络安全能力到了这个级别,政府介入审查合理;有人担心这开了个坏头,以后每出一个强模型都要过一遍政府审批。

OpenAI 同时推出了两个领域准入计划:Trusted Access for Cyber(TAC)给安全研究员,Trusted Access to Biology Research 给生命科学机构。普通开发者的路径还不清楚。

安全栈:70 万 GPU 小时的自动红队

GPT‑5.6 Sol 的安全投入确实不小:

  • 70 万 A100 等效 GPU 小时用于自动红队测试,专门找通用越狱
  • Sol 和 Terra 首次引入 activation classifiers(激活分类器),在生成过程中实时监测并拦截敏感输出
  • 高风险对话会暂停生成,由更大的推理模型审查上下文
  • 账户级别信号跨对话检测持续恶意行为

缓存方面也有改进:GPT‑5.6 支持显式缓存断点,30 分钟最低缓存生命周期,缓存写入按 1.25 倍未缓存输入费率计费,缓存读取保持 90% 折扣。

开发者该怎么看

如果你是 API 开发者,几个实际影响:

  1. 价格降了但层级多了。Terra 对标 GPT‑5.5 性能但价格砍半,大部分日常场景 Terra 够用
  2. 缓存策略变了。显式断点加 30 分钟保活,对长上下文反复调用场景能省不少钱
  3. ultra 模式是新变量。子智能体协作意味着 token 消耗可能远超单 agent,成本预估要重新做
  4. 准入门槛不确定。目前只开放给 trusted partners,普通开发者等 coming weeks
  5. Cerebras 速度很香但初期限量。750 tokens/s 如果能稳定跑,实时交互场景体验彻底改变

说真的,GPT‑5.6 这步棋走得很有章法。三档定价把“要不要为旗舰多付 6 倍”变成明确选择题,不再是“mini 还是标准版”的模糊权衡。政府准入虽然争议大,但 OpenAI 主动让步换取监管信任,长远看可能比硬刚更聪明。唯一让我警惕的是 METR 那份作弊报告,一个在评估环境里系统性地走捷径的模型,放到生产环境里会不会也这样?这个问题比任何 benchmark 分数都重要。

参考来源

  1. OpenAI 官方公告:Previewing GPT‑5.6 Sol
  2. GPT‑5.6 Preview System Card
  3. METR 独立评估:Summary of METR's predeployment evaluation of GPT‑5.6 Sol
  4. Washington Post: U.S. government will decide who gets to use GPT‑5.6
  5. Hacker News 讨论:Previewing GPT‑5.6 Sol
  6. AI Daily Dev — June 26, 2026
  7. Hacker News 讨论:U.S. government will decide who gets to use GPT‑5.6

相关文章

Visa 把支付网络接进了 ChatGPT,AI 智能体终于能自己花钱了
AI 新闻资讯
2026年6月18日
0 条评论
零重力瓦力

Visa 把支付网络接进了 ChatGPT,AI 智能体终于能自己花钱了

Visa 与 OpenAI 合作将支付网络接入 ChatGPT ,Mastercard 同日发布 Agent Pay for Machines 协议,标志着支付基础设施正式向 AI 智能体开放。Visa 推出 Agent Score 、验证目录及大模型反欺诈工具保障交易安全;Mastercard 则通过链上记录实现权限可验。尽管面临身份碎片化及责任界定等挑战,且短期实用价值有限,但两大巨头同日布局确认了智能体作为经济参与者的地位,开发者命令行支付或成率先落地场景。

#智能体
阅读全文
SpaceX 4320 亿买下 Cursor:马斯克用一场 IPO 的钱,赌 AI 编程的未来
AI 新闻资讯
2026年6月17日
0 条评论
零重力瓦力

SpaceX 4320 亿买下 Cursor:马斯克用一场 IPO 的钱,赌 AI 编程的未来

SpaceX 以 600 亿美元全股票收购 AI 编程工具 Cursor,旨在补齐企业级 AI 产品短板并推广自研 Grok 模型。此举将算力基础设施与产品入口结合,但面临 xAI 团队动荡及文化冲突风险。收购后 Cursor 或调整定价、深度整合 Grok 模型,个人用户权益存变数。交易预计三季度完成,建议开发者关注产品路线图转向及核心人员流失信号,同时该交易也为 AI 编程赛道确立了新估值锚点。

阅读全文
电影大师斯科塞斯开始用 AI 画分镜了
AI 新闻资讯
2026年6月4日
0 条评论
零重力瓦力

电影大师斯科塞斯开始用 AI 画分镜了

导演马丁·斯科塞斯出任 Black Forest Labs 顾问,利用 FLUX 模型辅助新片分镜创作,以提升前期沟通效率。此举标志着好莱坞对 AI 工具的接纳度提升,但也引发关于视觉同质化与艺术独特性的争议。BFL 借此验证“视觉智能”在分镜等中间环节的商业价值,而非替代最终创作。斯科塞斯将 AI 定位为表达工具而非想象替代者,其应用仍局限于筹备阶段,影视行业对 AI 的深度整合尚待观察。

#AI 绘画
阅读全文
互动讨论

评论区

围绕《GPT-5.6 Sol 来了:三模型家族、750 tokens/s、政府审查准入,OpenAI 这次改了游戏规则》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。