Claude Opus 4.8 发布：7 项 Benchmark 6 项领先，定价不变

Anthropic 在 5 月 28 日发布了 Claude Opus 4.8。和上一代 Opus 4.7 相比，这次升级幅度不算大，但在多项核心基准测试上都有提升。定价没变，还附带了几个新功能。

Benchmark 对比：赢了 6 项，输了 1 项

Opus 4.8 面对的对手是自家 Opus 4.7、OpenAI 的 GPT-5.5 和 Google 的 Gemini 3.1 Pro。具体数据如下：

Benchmark	Opus 4.8	Opus 4.7	GPT-5.5	Gemini 3.1 Pro
SWE-Bench Pro（智能体编码）	69.2%	64.3%	58.6%	54.2%
Terminal-Bench 2.1（终端编码）	74.6%	66.1%	78.2%	70.3%
HLE 无工具（多学科推理）	49.8%	46.9%	41.4%	44.4%
HLE 有工具（多学科推理）	57.9%	54.7%	52.2%	51.4%
OSWorld-Verified（计算机操作）	83.4%	82.8%	78.7%	76.2%
GDPVal-AA（知识工作）	1890	1753	1769	1314
Finance Agent v2（金融分析）	53.9%	51.5%	51.8%	43.0%

SWE-Bench Pro 上，Opus 4.8 拿到 69.2%，比 Opus 4.7 高 4.9 个百分点，领先 GPT-5.5 超过 10 个百分点。这是差距拉得最大的一项。

唯一翻车的是 Terminal-Bench 2.1。GPT-5.5 以 78.2% 胜出，Opus 4.8 只有 74.6%，差了 3.6 个百分点。如果你主要用 AI 做终端编码，GPT-5.5 可能仍然是更好的选择。

Humanity's Last Exam（HLE）分无工具和有工具两个场景。Opus 4.8 在两种情况下都是最高的，但 49.8% 的无工具成绩本身就说明这类测试有多难——连最强的模型也只答对了一半。

GDPVal-AA（知识工作）差距最大：Opus 4.8 拿了 1890 分，Gemini 3.1 Pro 只有 1314，差了 44%。

定价和模式

常规模式定价和 Opus 4.7 完全一样：输入 $5/百万 token，输出 $25/百万 token。按今天汇率（1 USD ≈ 6.79 CNY）算，大约是输入 ¥34/百万 token、输出 ¥170/百万 token。

新推出的 fast 模式速度是常规的 2.5 倍，定价是输入 $10、输出 $50（每百万 token）。Anthropic 说 fast 模式比之前便宜了三倍。

另外新增了一个 effort（努力程度）调节功能。用户可以在"高"（默认）、"extra"和"max"之间选择。编码任务上，高 effort 模式消耗的 token 数和 Opus 4.7 差不多，但效果更好。想追求极致的可以选 extra 或 max，代价是消耗更多 token。

新功能：Dynamic Workflows

和 Opus 4.8 一起发布的还有 Claude Code 的"动态工作流"功能。Claude 可以在一个会话里启动几百个并行子智能体来处理大规模任务——比如跨几十万行代码做迁移，完成后自己跑测试验证结果。目前只对 Enterprise、Team 和 Max 计划开放。

诚实度改进

Anthropic 特别强调了 Opus 4.8 在"诚实度"上的进步。他们的评估显示，Opus 4.8 比上一代低大约四倍的概率放过自己代码里的缺陷。换句话说，它更愿意说"这里有问题"而不是假装一切正常。

这个改进在实际使用中可能比 benchmark 分数更有价值。HN 上有测试者提到，Opus 4.8 在长会话中更善于保持上下文和风格一致性，"voice, taste, and technical execution all have to happen side-by-side" 的场景下特别好用。

社区反应

HN 上这条新闻拿到 1165 分、144 条评论。反应比较分化：有人觉得是"minor upgrade"，也有人吐槽 Anthropic "像发现新物种一样描述自己的模型"。

比较有意思的一条评论把 Opus 系列比作 iPhone 更新——"从 2018 年起每年都说最快最薄，实际上区别不大，但大家还是买。"还有人指出每家公司发布模型时都会挑自己赢的 benchmark 展示，本质上是"benchmark 军备竞赛"。

不过 Anthropic 自己在博客里也说了这次是"modest but tangible improvement"，态度倒是比较实在。

接下来呢？

Anthropic 提到了两件事：Claude Mythos 即将发布，定位比 Opus 更高；Project Glasswing 则在开发比 Opus 智能水平更高的新模型类别。

对普通用户来说，Opus 4.8 现在就能用，价格没涨，性能有提升，算是一个不用犹豫的升级。

Benchmark 对比：赢了 6 项，输了 1 项

Opus 4.8 面对的对手是自家 Opus 4.7、OpenAI 的 GPT-5.5 和 Google 的 Gemini 3.1 Pro。具体数据如下：

Benchmark	Opus 4.8	Opus 4.7	GPT-5.5	Gemini 3.1 Pro
SWE-Bench Pro（智能体编码）	69.2%	64.3%	58.6%	54.2%
Terminal-Bench 2.1（终端编码）	74.6%	66.1%	78.2%	70.3%
HLE 无工具（多学科推理）	49.8%	46.9%	41.4%	44.4%
HLE 有工具（多学科推理）	57.9%	54.7%	52.2%	51.4%
OSWorld-Verified（计算机操作）	83.4%	82.8%	78.7%	76.2%
GDPVal-AA（知识工作）	1890	1753	1769	1314
Finance Agent v2（金融分析）	53.9%	51.5%	51.8%	43.0%

SWE-Bench Pro 上，Opus 4.8 拿到 69.2%，比 Opus 4.7 高 4.9 个百分点，领先 GPT-5.5 超过 10 个百分点。这是差距拉得最大的一项。

唯一翻车的是 Terminal-Bench 2.1。GPT-5.5 以 78.2% 胜出，Opus 4.8 只有 74.6%，差了 3.6 个百分点。如果你主要用 AI 做终端编码，GPT-5.5 可能仍然是更好的选择。

GDPVal-AA（知识工作）差距最大：Opus 4.8 拿了 1890 分，Gemini 3.1 Pro 只有 1314，差了 44%。

定价和模式

新推出的 fast 模式速度是常规的 2.5 倍，定价是输入 $10、输出 $50（每百万 token）。Anthropic 说 fast 模式比之前便宜了三倍。

新功能：Dynamic Workflows

诚实度改进

社区反应

HN 上这条新闻拿到 1165 分、144 条评论。反应比较分化：有人觉得是"minor upgrade"，也有人吐槽 Anthropic "像发现新物种一样描述自己的模型"。

不过 Anthropic 自己在博客里也说了这次是"modest but tangible improvement"，态度倒是比较实在。

接下来呢？

Anthropic 提到了两件事：Claude Mythos 即将发布，定位比 Opus 更高；Project Glasswing 则在开发比 Opus 智能水平更高的新模型类别。

对普通用户来说，Opus 4.8 现在就能用，价格没涨，性能有提升，算是一个不用犹豫的升级。

Claude Opus 4.8 发布：7 项 Benchmark 6 项领先，定价不变 | 2026-05-29

推荐阅读

2026-07-18 精选推荐：WeTab、Graphify、Grok Build

Kimi K3、Grok Build、小米机器人：昨日 AI 圈三件事 | 2026-07-17

月之暗面发布 Kimi K3：2.8 万亿参数，智能指数全球前三 | 2026-07-16

每日精选推荐：Forall、SeekinWeb、Clx | 2026-07-17

Claude Opus 4.8 发布：7 项 Benchmark 6 项领先，定价不变 | 2026-05-29

Benchmark 对比：赢了 6 项，输了 1 项

定价和模式

新功能：Dynamic Workflows

诚实度改进

社区反应

接下来呢？

推荐阅读

2026-07-18 精选推荐：WeTab、Graphify、Grok Build

Kimi K3、Grok Build、小米机器人：昨日 AI 圈三件事 | 2026-07-17

月之暗面发布 Kimi K3：2.8 万亿参数，智能指数全球前三 | 2026-07-16

每日精选推荐：Forall、SeekinWeb、Clx | 2026-07-17

Benchmark 对比：赢了 6 项，输了 1 项

定价和模式

新功能：Dynamic Workflows

诚实度改进

社区反应

接下来呢？