Anthropic 在 5 月 28 日发布了 Claude Opus 4.8。和上一代 Opus 4.7 相比,这次升级幅度不算大,但在多项核心基准测试上都有提升。定价没变,还附带了几个新功能。

Benchmark 对比:赢了 6 项,输了 1 项

Opus 4.8 面对的对手是自家 Opus 4.7、OpenAI 的 GPT-5.5 和 Google 的 Gemini 3.1 Pro。具体数据如下:

BenchmarkOpus 4.8Opus 4.7GPT-5.5Gemini 3.1 Pro
SWE-Bench Pro(智能体编码)69.2%64.3%58.6%54.2%
Terminal-Bench 2.1(终端编码)74.6%66.1%78.2%70.3%
HLE 无工具(多学科推理)49.8%46.9%41.4%44.4%
HLE 有工具(多学科推理)57.9%54.7%52.2%51.4%
OSWorld-Verified(计算机操作)83.4%82.8%78.7%76.2%
GDPVal-AA(知识工作)1890175317691314
Finance Agent v2(金融分析)53.9%51.5%51.8%43.0%

SWE-Bench Pro 上,Opus 4.8 拿到 69.2%,比 Opus 4.7 高 4.9 个百分点,领先 GPT-5.5 超过 10 个百分点。这是差距拉得最大的一项。

唯一翻车的是 Terminal-Bench 2.1。GPT-5.5 以 78.2% 胜出,Opus 4.8 只有 74.6%,差了 3.6 个百分点。如果你主要用 AI 做终端编码,GPT-5.5 可能仍然是更好的选择。

Humanity's Last Exam(HLE)分无工具和有工具两个场景。Opus 4.8 在两种情况下都是最高的,但 49.8% 的无工具成绩本身就说明这类测试有多难——连最强的模型也只答对了一半。

GDPVal-AA(知识工作)差距最大:Opus 4.8 拿了 1890 分,Gemini 3.1 Pro 只有 1314,差了 44%。

定价和模式

常规模式定价和 Opus 4.7 完全一样:输入 $5/百万 token,输出 $25/百万 token。按今天汇率(1 USD ≈ 6.79 CNY)算,大约是输入 ¥34/百万 token、输出 ¥170/百万 token。

新推出的 fast 模式速度是常规的 2.5 倍,定价是输入 $10、输出 $50(每百万 token)。Anthropic 说 fast 模式比之前便宜了三倍。

另外新增了一个 effort(努力程度)调节功能。用户可以在"高"(默认)、"extra"和"max"之间选择。编码任务上,高 effort 模式消耗的 token 数和 Opus 4.7 差不多,但效果更好。想追求极致的可以选 extra 或 max,代价是消耗更多 token。

新功能:Dynamic Workflows

和 Opus 4.8 一起发布的还有 Claude Code 的"动态工作流"功能。Claude 可以在一个会话里启动几百个并行子智能体来处理大规模任务——比如跨几十万行代码做迁移,完成后自己跑测试验证结果。目前只对 Enterprise、Team 和 Max 计划开放。

诚实度改进

Anthropic 特别强调了 Opus 4.8 在"诚实度"上的进步。他们的评估显示,Opus 4.8 比上一代低大约四倍的概率放过自己代码里的缺陷。换句话说,它更愿意说"这里有问题"而不是假装一切正常。

这个改进在实际使用中可能比 benchmark 分数更有价值。HN 上有测试者提到,Opus 4.8 在长会话中更善于保持上下文和风格一致性,"voice, taste, and technical execution all have to happen side-by-side" 的场景下特别好用。

社区反应

HN 上这条新闻拿到 1165 分、144 条评论。反应比较分化:有人觉得是"minor upgrade",也有人吐槽 Anthropic "像发现新物种一样描述自己的模型"。

比较有意思的一条评论把 Opus 系列比作 iPhone 更新——"从 2018 年起每年都说最快最薄,实际上区别不大,但大家还是买。"还有人指出每家公司发布模型时都会挑自己赢的 benchmark 展示,本质上是"benchmark 军备竞赛"。

不过 Anthropic 自己在博客里也说了这次是"modest but tangible improvement",态度倒是比较实在。

接下来呢?

Anthropic 提到了两件事:Claude Mythos 即将发布,定位比 Opus 更高;Project Glasswing 则在开发比 Opus 智能水平更高的新模型类别。

对普通用户来说,Opus 4.8 现在就能用,价格没涨,性能有提升,算是一个不用犹豫的升级。