Anthropic 上周发布了 Claude Fable 5,这是他们专为软件工程设计的新一代模型。
最显眼的数字是 SWE-bench 上的 95%。这个基准测试衡量的是 AI 解决真实 GitHub issue 的能力,之前最好的成绩是 Opus 4.8 的 88%。7 个百分点的跳升在 AI 领域不常见——通常进步是 1-2 个百分点的幅度。
Senior Engineer 评估给了 91 分(满分 100)。这个测试衡量的不只是写代码,还包括架构决策、设计模式识别和系统级权衡。换句话说,Fable 5 开始像一个有经验的工程师那样思考问题,而不只是堆砌代码。
上下文窗口扩大到 100 万 token,输出上限 12 万 token。这意味着你可以把整个大型代码库扔给它,然后拿到一份完整的、跨多个文件的实现方案。不用分块、不用手动管理上下文、不用说"从上次停下的地方继续"。
定价不便宜:输入 $10/百万 token,输出 $50/百万 token。这是目前主流 API 里最贵的。Anthropic 的定位很明确——用它解决难题值这个价,日常任务用 Haiku 或 Sonnet 更划算。
与此同时,Anthropic 还发布了 Claude Mythos 5,这是面向科学研究的版本。它针对数学证明、科学推理和深度分析做了优化。两个模型同时发布,说明 Anthropic 在走专业分工路线——不再是一个模型打天下,而是按用途分层。
Fable 5 vs 主流模型对比
| 指标 | Claude Fable 5 | Claude Opus 4.8 | GPT-5.5 |
|---|---|---|---|
| SWE-bench | 95% | 88% | 82% |
| 上下文窗口 | 1M | 200K | 1M |
| 输出上限 | 128K | 32K | 64K |
| 输入价格 | $10/M | $15/M | $2.5/M |
| 输出价格 | $50/M | $75/M | $10/M |
Fable 5 的定价比 Opus 4.8 便宜,但性能更好。这个定价策略可能是为了和 OpenAI 的 GPT-5.5 竞争——后者定价低得多,但在编程能力上差距明显。
谁该用 Fable 5
专业开发者处理复杂问题时值得用:架构设计、大型代码库调试、多文件重构、从零开始的系统设计。对于日常的代码补全、简单 bug 修复,用 Sonnet 或 Haiku 就够了。
Anthropic 内部合并到生产代码库的代码中,超过 80% 由 Claude 生成。Claude Code 的年化收入接近 63 亿美元,在 AI 编程 Agent 市场占了 54% 的份额。




