Anthropic 上周发布了 Claude Fable 5,这是他们专为软件工程设计的新一代模型。

最显眼的数字是 SWE-bench 上的 95%。这个基准测试衡量的是 AI 解决真实 GitHub issue 的能力,之前最好的成绩是 Opus 4.8 的 88%。7 个百分点的跳升在 AI 领域不常见——通常进步是 1-2 个百分点的幅度。

Senior Engineer 评估给了 91 分(满分 100)。这个测试衡量的不只是写代码,还包括架构决策、设计模式识别和系统级权衡。换句话说,Fable 5 开始像一个有经验的工程师那样思考问题,而不只是堆砌代码。

上下文窗口扩大到 100 万 token,输出上限 12 万 token。这意味着你可以把整个大型代码库扔给它,然后拿到一份完整的、跨多个文件的实现方案。不用分块、不用手动管理上下文、不用说"从上次停下的地方继续"。

定价不便宜:输入 $10/百万 token,输出 $50/百万 token。这是目前主流 API 里最贵的。Anthropic 的定位很明确——用它解决难题值这个价,日常任务用 Haiku 或 Sonnet 更划算。

与此同时,Anthropic 还发布了 Claude Mythos 5,这是面向科学研究的版本。它针对数学证明、科学推理和深度分析做了优化。两个模型同时发布,说明 Anthropic 在走专业分工路线——不再是一个模型打天下,而是按用途分层。

Fable 5 vs 主流模型对比

指标Claude Fable 5Claude Opus 4.8GPT-5.5
SWE-bench95%88%82%
上下文窗口1M200K1M
输出上限128K32K64K
输入价格$10/M$15/M$2.5/M
输出价格$50/M$75/M$10/M

Fable 5 的定价比 Opus 4.8 便宜,但性能更好。这个定价策略可能是为了和 OpenAI 的 GPT-5.5 竞争——后者定价低得多,但在编程能力上差距明显。

谁该用 Fable 5

专业开发者处理复杂问题时值得用:架构设计、大型代码库调试、多文件重构、从零开始的系统设计。对于日常的代码补全、简单 bug 修复,用 Sonnet 或 Haiku 就够了。

Anthropic 内部合并到生产代码库的代码中,超过 80% 由 Claude 生成。Claude Code 的年化收入接近 63 亿美元,在 AI 编程 Agent 市场占了 54% 的份额。