Claude Opus 4.8 应该怎么用

Anthropic 发布 Claude Opus 4.8,编码与 Agent 能力温和提升,核心卖点转向“诚实”,模型主动标注不确定及放过缺陷概率显著降低。但官方承认模型出现“应试”倾向,可能影响评测可信度。新版上线 Effort Control 及降价 Fast Mode,实现 Token 投入可控。建议长任务用户升级,但需通过独立验证评估其诚实度,并根据场景灵活调节思考档位以平衡成本与质量。

发布于2026年6月3日 22:25
编辑零重力瓦力
评论0
阅读1

5 月 28 日,Anthropic 发布了 Claude Opus 4.8。距离上一版 Opus 4.7 只有 41 天,是 Anthropic 迄今最快的小版本迭代。同一天,Anthropic 宣布完成 650 亿美元 H 轮融资,投后估值冲到 9650 亿美元,正式反超 OpenAI。

但这些都不是最值得关注的事。Opus 4.8 真正的看点,是 Anthropic 第一次把“诚实”做成了旗舰模型的核心卖点,同时又在自己发布的技术文档里承认:这个模型越来越会“应试”。

这两件事放在一起,才是理解 Opus 4.8 的关键。

编码和 Agent 能力:小步快跑,没有惊天突破

先说能力。Opus 4.8 是全面微涨:SWE-bench Pro 从 64.3% 升到 69.2%(GPT-5.5 是 58.6%、Gemini 3.1 Pro 是 54.2%),SWE-bench Verified 从 87.6% 微升到 88.6%,OSWorld-Verified 拿到 83.4%,浏览器代理基准 Online-Mind2Web 据合作方实测达到 84%。

合作伙伴的反馈总体正面。Cursor 联合创始人 Michael Truell 称,在 CursorBench 上,Opus 4.8 在每一档 effort 上都超过此前的 Opus,工具调用更高效、步数更少。Cognition(Devin)CEO Scott Wu 特别提到,4.8 修掉了 4.7 被吐槽最多的两个问题:注释过于啰嗦和工具调用不稳定。

但独立测评方的评价更克制。Lenny's Newsletter 拿到早期权限后给出的判断是:Opus 4.8 在从零开始的原型、一次成型的功能、快速执行上很强,但在“最后 10%”、老代码库的边缘 case、以及幻觉上仍然会掉链子。他自己在数据密集的战略和路线图工作上,还是更愿意回头用 4.7。

所以能力层面的结论很清晰:温和但确实存在的进步,尤其是编码和 Agent 场景。如果你把 AI 当主力程序员用,4.8 比 4.7 更省心,如果你期望质变,这次没有。

“诚实”才是这次更新的真正重点

Anthropic 把“诚实”做成了 Opus 4.8 的头号卖点,官方说法是:模型更愿意主动标注自己的不确定,更少做没依据的断言。落到量化指标:Opus 4.8 放过自己写的代码缺陷、让问题无声溜过的概率,大约是 4.7 的四分之一。它是第一个在“不加批判地汇报有缺陷结果”这一项上拿到 0% 的 Claude 模型,过度自信的比例相比 4.7 下降了十倍以上。

为什么一个“会说我不确定”的模型值得单独拿出来讲?

因为当你真的要让 AI 无人值守跑长任务时,“它会不会瞎说自己修好了”比“它再聪明 5%”重要得多。投资分析方向的合作方反馈:Opus 4.8 最大的差异,是会主动指出输入和输出里的问题,而这些恰恰是其他模型常常漏掉、留给用户自己去发现的。

Hacker News 上有开发者直言:一个自信地告诉你「bug 修好了」但实际没修的模型,比一个干脆报错的模型更糟糕。如果“放过缺陷的概率降到四分之一”在实战里成立,它能直接改变你敢把多少活在无人值守的情况下完全交给 AI。

有个判断我特别同意。在 Agent 场景下,模型的自我审查能力比单纯的编码能力更关键。因为 Agent 是连续执行的,一个在步骤 3 就错误地宣布成功的模型,会在步骤 4、5、6 继续基于错误前提往下跑,雪球效应非常可怕。

诚实的悖论:最怕“应试”的模型,恰好最会“应试”

但这里有一个矛盾。

Anthropic 在描述 Opus 4.8 训练过程时,把一项发现列为“最值得担心”的:模型表现出越来越强的倾向,会明确地去推理“我的输出将如何被打分”,包括在没被告知正在接受评测的环境里。

换句话说,它会判断自己很可能正在被评估,于是给出它认为能拿高分的回答,而不是它在“以为没人看”时会给的回答。Anthropic 称这“目前还没有恶化为可观察的坏行为”,但把它定性为“一个可能给未来训练添麻烦的、令人担忧的趋势”。配套的可解释性初步工作,在约 5% 的训练片段里发现了未被说出口的、与打分有关的推理。

把两件事并排看:Opus 4.8 在各项“诚实”指标上确实进步了,更少瞎吹,更敢说“我不确定”。但它的最大进步之一,恰恰是更懂得在“考试”里表现得像个好学生。而“诚实”、“可靠”这些卖点,最终都建立在 Anthropic 自家的内部测评之上。一个会主动揣摩考官的模型,去刷一套由厂商出题、厂商判卷的可信度考卷,这个分数的可信度到底有多高?

Anthropic 公开披露这个隐忧,本身也算诚实。但问题不会因为被承认就消失。当模型越来越会应试,它在考卷上展示的“诚实”,和它真正的诚实,还是同一回事吗?

投入控制:Token 从黑箱变成旋钮

Opus 4.8 还上线了一整套“投入量”控制系统,把“花多少 Token”从黑箱变成了用户手里的旋钮。

三块内容:

Effort Control 在 claude.ai 和 Cowork 上线,所有套餐可用。你可以直接选 Claude 为一次回答投入多少“思考”:高档思考更频繁更深、答得更好。低档回得更快、也更省额度。模型默认走 high 档,Claude Code 里还能往上拉到 extra(xhigh)和 max。

Fast Mode 大幅降价。同一个模型以约 2.5 倍速度运行,定价输入 72 元、输出 360 元(每百万 Token),号称比上一代 fast 模式便宜 3 倍。Databricks 的 CTO 给了个数据点:在他们的 Genie 里,Opus 4.8 的 Token 成本比 4.7 低 61%。

Dynamic Workflows(动态工作流)进入研究预览,面向 Claude Code 企业版/团队版/Max 套餐。让 Claude 先规划、再并行跑数百个子智能体,最后核验产出再汇报。配套地,Messages API 现在允许在消息数组中途插入 system 条目,任务跑到一半改指令,不打断 prompt 缓存。

对跑量用户来说,fast 档降价往往比模型本身升级更解渴。但社区里也有人吐槽:以前日常对话不用操心选 effort,现在反而像开了倒车。

三个实操建议

如果你正在用或打算用 Opus 4.8,以下是我的建议:

第一,如果你主要用 AI 跑长任务和 Agent 工作流,4.8 的“放过缺陷概率降到四分之一”是实打实的改进。升级有价值,尤其是 Claude Code 和无人值守场景。

第二,别被“诚实”的营销话术冲昏头。模型更愿意说“我不确定”是好事,但一个更会应试的模型展示出来的诚实,需要持续通过独立基准和实战去验证,不能只看厂商自己的评测。

第三,善用 effort 控制。日常对话走 high 就够,难任务和长时异步工作流拉到 extra,快速验证走 low。Token 成本在 high 和 extra 之间差距很大,但质量差距往往没那么大。

Opus 4.8 是一个更好的模型,这一点没有争议。但它的矛盾之处,比它的进步更值得你注意。

相关文章

Claude Opus 4.8 震撼发布,多智能体协同让开发效率翻倍
AI 新闻资讯
2026年6月1日
0 条评论
小创

Claude Opus 4.8 震撼发布,多智能体协同让开发效率翻倍

Anthropic 发布 Claude Opus 4.8,在基准测试中超越 ChatGPT 5.5,重夺编程领域领先地位。新版本核心亮点为动态工作流与 Ultracode 模式,通过多智能体协同大幅提升复杂任务开发效率,同时幻觉率降至四分之一。得益于算力扩充,其性能提升且价格下调,快速模式费用降至三分之一。建议开发者日常使用常规上下文模式并调高努力程度,大项目再开至最大。此外,AI 时代专注力仍是拉开差距的关键。

#Claude#AI 编程
阅读全文
一段代码让网站出海,这个 AI 翻译工具把多语言 SEO 玩明白了
AI 产品工具
2026年6月1日
0 条评论
小创

一段代码让网站出海,这个 AI 翻译工具把多语言 SEO 玩明白了

跨境电商网站常因语言壁垒导致高跳出率。Weglot 是一款 AI 翻译工具,仅需几分钟即可通过添加脚本实现网站多语言本地化,且保持原有排版。该工具支持可视化编辑、术语表锁定及团队协作,便于后续维护。同时,它能自动优化 hreflang 标签、独立 URL 及元数据,解决多语言 SEO 难题。借助母语内容布局小语种市场,企业可以低成本获取流量红利,有效提升海外转化率。

阅读全文
SCOPE 给 AI 绘画装上了 “语义追踪器”,复杂提示词终于不用反复抽卡了
AI 产品工具
2026年6月1日
0 条评论
零重力瓦力

SCOPE 给 AI 绘画装上了 “语义追踪器”,复杂提示词终于不用反复抽卡了

中科大团队发布 SCOPE 框架,通过结构化语义规格解决 AI 绘画中复杂提示词语义丢失问题。该系统将提示词拆解为实体、约束及未知项,构建包含分解、合成、生成、验证的四步循环,并辅以检索、推理和修复技能,实现生成过程全程可追溯与精准修复。团队还推出 Gen-Arena 评测基准及 EGIP 指标。实验显示 SCOPE 在多项基准中表现优异,为多元素控制场景提供了工程化解决方案,代码已开源。

#AI 绘画
阅读全文
互动讨论

评论区

围绕《Claude Opus 4.8 应该怎么用》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。