Anthropic 在 5 月 28 日发布了 Claude Opus 4.8。和上一代 Opus 4.7 相比,这次升级幅度不算大,但在多项核心基准测试上都有提升。定价没变,还附带了几个新功能。
Benchmark 对比:赢了 6 项,输了 1 项
Opus 4.8 面对的对手是自家 Opus 4.7、OpenAI 的 GPT-5.5 和 Google 的 Gemini 3.1 Pro。具体数据如下:
| Benchmark | Opus 4.8 | Opus 4.7 | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|---|---|
| SWE-Bench Pro(智能体编码) | 69.2% | 64.3% | 58.6% | 54.2% |
| Terminal-Bench 2.1(终端编码) | 74.6% | 66.1% | 78.2% | 70.3% |
| HLE 无工具(多学科推理) | 49.8% | 46.9% | 41.4% | 44.4% |
| HLE 有工具(多学科推理) | 57.9% | 54.7% | 52.2% | 51.4% |
| OSWorld-Verified(计算机操作) | 83.4% | 82.8% | 78.7% | 76.2% |
| GDPVal-AA(知识工作) | 1890 | 1753 | 1769 | 1314 |
| Finance Agent v2(金融分析) | 53.9% | 51.5% | 51.8% | 43.0% |
SWE-Bench Pro 上,Opus 4.8 拿到 69.2%,比 Opus 4.7 高 4.9 个百分点,领先 GPT-5.5 超过 10 个百分点。这是差距拉得最大的一项。
唯一翻车的是 Terminal-Bench 2.1。GPT-5.5 以 78.2% 胜出,Opus 4.8 只有 74.6%,差了 3.6 个百分点。如果你主要用 AI 做终端编码,GPT-5.5 可能仍然是更好的选择。
Humanity's Last Exam(HLE)分无工具和有工具两个场景。Opus 4.8 在两种情况下都是最高的,但 49.8% 的无工具成绩本身就说明这类测试有多难——连最强的模型也只答对了一半。
GDPVal-AA(知识工作)差距最大:Opus 4.8 拿了 1890 分,Gemini 3.1 Pro 只有 1314,差了 44%。
定价和模式
常规模式定价和 Opus 4.7 完全一样:输入 $5/百万 token,输出 $25/百万 token。按今天汇率(1 USD ≈ 6.79 CNY)算,大约是输入 ¥34/百万 token、输出 ¥170/百万 token。
新推出的 fast 模式速度是常规的 2.5 倍,定价是输入 $10、输出 $50(每百万 token)。Anthropic 说 fast 模式比之前便宜了三倍。
另外新增了一个 effort(努力程度)调节功能。用户可以在"高"(默认)、"extra"和"max"之间选择。编码任务上,高 effort 模式消耗的 token 数和 Opus 4.7 差不多,但效果更好。想追求极致的可以选 extra 或 max,代价是消耗更多 token。
新功能:Dynamic Workflows
和 Opus 4.8 一起发布的还有 Claude Code 的"动态工作流"功能。Claude 可以在一个会话里启动几百个并行子智能体来处理大规模任务——比如跨几十万行代码做迁移,完成后自己跑测试验证结果。目前只对 Enterprise、Team 和 Max 计划开放。
诚实度改进
Anthropic 特别强调了 Opus 4.8 在"诚实度"上的进步。他们的评估显示,Opus 4.8 比上一代低大约四倍的概率放过自己代码里的缺陷。换句话说,它更愿意说"这里有问题"而不是假装一切正常。
这个改进在实际使用中可能比 benchmark 分数更有价值。HN 上有测试者提到,Opus 4.8 在长会话中更善于保持上下文和风格一致性,"voice, taste, and technical execution all have to happen side-by-side" 的场景下特别好用。
社区反应
HN 上这条新闻拿到 1165 分、144 条评论。反应比较分化:有人觉得是"minor upgrade",也有人吐槽 Anthropic "像发现新物种一样描述自己的模型"。
比较有意思的一条评论把 Opus 系列比作 iPhone 更新——"从 2018 年起每年都说最快最薄,实际上区别不大,但大家还是买。"还有人指出每家公司发布模型时都会挑自己赢的 benchmark 展示,本质上是"benchmark 军备竞赛"。
不过 Anthropic 自己在博客里也说了这次是"modest but tangible improvement",态度倒是比较实在。
接下来呢?
Anthropic 提到了两件事:Claude Mythos 即将发布,定位比 Opus 更高;Project Glasswing 则在开发比 Opus 智能水平更高的新模型类别。
对普通用户来说,Opus 4.8 现在就能用,价格没涨,性能有提升,算是一个不用犹豫的升级。




