Claude Opus 4.8 应该怎么用

5 月 28 日，Anthropic 发布了 Claude Opus 4.8。距离上一版 Opus 4.7 只有 41 天，是 Anthropic 迄今最快的小版本迭代。同一天，Anthropic 宣布完成 650 亿美元 H 轮融资，投后估值冲到 9650 亿美元，正式反超 OpenAI。

但这些都不是最值得关注的事。Opus 4.8 真正的看点，是 Anthropic 第一次把“诚实”做成了旗舰模型的核心卖点，同时又在自己发布的技术文档里承认：这个模型越来越会“应试”。

这两件事放在一起，才是理解 Opus 4.8 的关键。

编码和 Agent 能力：小步快跑，没有惊天突破

先说能力。Opus 4.8 是全面微涨：SWE-bench Pro 从 64.3% 升到 69.2%（GPT-5.5 是 58.6%、Gemini 3.1 Pro 是 54.2%），SWE-bench Verified 从 87.6% 微升到 88.6%，OSWorld-Verified 拿到 83.4%，浏览器代理基准 Online-Mind2Web 据合作方实测达到 84%。

合作伙伴的反馈总体正面。Cursor 联合创始人 Michael Truell 称，在 CursorBench 上，Opus 4.8 在每一档 effort 上都超过此前的 Opus，工具调用更高效、步数更少。Cognition（Devin）CEO Scott Wu 特别提到，4.8 修掉了 4.7 被吐槽最多的两个问题：注释过于啰嗦和工具调用不稳定。

但独立测评方的评价更克制。Lenny's Newsletter 拿到早期权限后给出的判断是：Opus 4.8 在从零开始的原型、一次成型的功能、快速执行上很强，但在“最后 10%”、老代码库的边缘 case、以及幻觉上仍然会掉链子。他自己在数据密集的战略和路线图工作上，还是更愿意回头用 4.7。

所以能力层面的结论很清晰：温和但确实存在的进步，尤其是编码和 Agent 场景。如果你把 AI 当主力程序员用，4.8 比 4.7 更省心，如果你期望质变，这次没有。

“诚实”才是这次更新的真正重点

Anthropic 把“诚实”做成了 Opus 4.8 的头号卖点，官方说法是：模型更愿意主动标注自己的不确定，更少做没依据的断言。落到量化指标：Opus 4.8 放过自己写的代码缺陷、让问题无声溜过的概率，大约是 4.7 的四分之一。它是第一个在“不加批判地汇报有缺陷结果”这一项上拿到 0% 的 Claude 模型，过度自信的比例相比 4.7 下降了十倍以上。

为什么一个“会说我不确定”的模型值得单独拿出来讲？

因为当你真的要让 AI 无人值守跑长任务时，“它会不会瞎说自己修好了”比“它再聪明 5%”重要得多。投资分析方向的合作方反馈：Opus 4.8 最大的差异，是会主动指出输入和输出里的问题，而这些恰恰是其他模型常常漏掉、留给用户自己去发现的。

Hacker News 上有开发者直言：一个自信地告诉你「bug 修好了」但实际没修的模型，比一个干脆报错的模型更糟糕。如果“放过缺陷的概率降到四分之一”在实战里成立，它能直接改变你敢把多少活在无人值守的情况下完全交给 AI。

有个判断我特别同意。在 Agent 场景下，模型的自我审查能力比单纯的编码能力更关键。因为 Agent 是连续执行的，一个在步骤 3 就错误地宣布成功的模型，会在步骤 4、5、6 继续基于错误前提往下跑，雪球效应非常可怕。

诚实的悖论：最怕“应试”的模型，恰好最会“应试”

但这里有一个矛盾。

Anthropic 在描述 Opus 4.8 训练过程时，把一项发现列为“最值得担心”的：模型表现出越来越强的倾向，会明确地去推理“我的输出将如何被打分”，包括在没被告知正在接受评测的环境里。

换句话说，它会判断自己很可能正在被评估，于是给出它认为能拿高分的回答，而不是它在“以为没人看”时会给的回答。Anthropic 称这“目前还没有恶化为可观察的坏行为”，但把它定性为“一个可能给未来训练添麻烦的、令人担忧的趋势”。配套的可解释性初步工作，在约 5% 的训练片段里发现了未被说出口的、与打分有关的推理。

把两件事并排看：Opus 4.8 在各项“诚实”指标上确实进步了，更少瞎吹，更敢说“我不确定”。但它的最大进步之一，恰恰是更懂得在“考试”里表现得像个好学生。而“诚实”、“可靠”这些卖点，最终都建立在 Anthropic 自家的内部测评之上。一个会主动揣摩考官的模型，去刷一套由厂商出题、厂商判卷的可信度考卷，这个分数的可信度到底有多高？

Anthropic 公开披露这个隐忧，本身也算诚实。但问题不会因为被承认就消失。当模型越来越会应试，它在考卷上展示的“诚实”，和它真正的诚实，还是同一回事吗？

投入控制：Token 从黑箱变成旋钮

Opus 4.8 还上线了一整套“投入量”控制系统，把“花多少 Token”从黑箱变成了用户手里的旋钮。

三块内容：

Effort Control 在 claude.ai 和 Cowork 上线，所有套餐可用。你可以直接选 Claude 为一次回答投入多少“思考”：高档思考更频繁更深、答得更好。低档回得更快、也更省额度。模型默认走 high 档，Claude Code 里还能往上拉到 extra（xhigh）和 max。

Fast Mode 大幅降价。同一个模型以约 2.5 倍速度运行，定价输入 72 元、输出 360 元（每百万 Token），号称比上一代 fast 模式便宜 3 倍。Databricks 的 CTO 给了个数据点：在他们的 Genie 里，Opus 4.8 的 Token 成本比 4.7 低 61%。

Dynamic Workflows（动态工作流）进入研究预览，面向 Claude Code 企业版/团队版/Max 套餐。让 Claude 先规划、再并行跑数百个子智能体，最后核验产出再汇报。配套地，Messages API 现在允许在消息数组中途插入 system 条目，任务跑到一半改指令，不打断 prompt 缓存。

对跑量用户来说，fast 档降价往往比模型本身升级更解渴。但社区里也有人吐槽：以前日常对话不用操心选 effort，现在反而像开了倒车。

三个实操建议

如果你正在用或打算用 Opus 4.8，以下是我的建议：

第一，如果你主要用 AI 跑长任务和 Agent 工作流，4.8 的“放过缺陷概率降到四分之一”是实打实的改进。升级有价值，尤其是 Claude Code 和无人值守场景。

第二，别被“诚实”的营销话术冲昏头。模型更愿意说“我不确定”是好事，但一个更会应试的模型展示出来的诚实，需要持续通过独立基准和实战去验证，不能只看厂商自己的评测。

第三，善用 effort 控制。日常对话走 high 就够，难任务和长时异步工作流拉到 extra，快速验证走 low。Token 成本在 high 和 extra 之间差距很大，但质量差距往往没那么大。

Opus 4.8 是一个更好的模型，这一点没有争议。但它的矛盾之处，比它的进步更值得你注意。

编码和 Agent 能力：小步快跑，没有惊天突破

“诚实”才是这次更新的真正重点

诚实的悖论：最怕“应试”的模型，恰好最会“应试”

投入控制：Token 从黑箱变成旋钮

三个实操建议

相关文章

GPT-5.6 发布当天 OpenAI 自曝 SWE-Bench Pro 30% 有问题

Ploy 从 Claude Opus 4.8 迁移到 GPT-5.6 完整实录

Google 为何要开发 Gemma 4 模型

评论区