Cursor Composer 2.5:以十分之一成本,挑战前沿模型
5月18日,Cursor 发布了 Composer 2.5——他们 AI 编程助手的新一代模型。距离 Composer 2 发布没多久,这次升级动作不小。
Cursor 和 SpaceXAI(xAI 的新品牌)合作,在 Colossus 2 集群(百万级 H100 等效算力)上训练模型。但 Composer 2.5 本身基于 Moonshot 的开源基座 Kimi K2.5,不是从零训练的。
模型性能对比:1/10 成本能打吗?
Cursor 声称 Composer 2.5 以 1/10 的成本实现了接近前沿大模型的性能。我们来拆解这个说法:
基准测试对比
| 模型 | 相对成本 | 编码能力 | 长任务表现 |
|---|---|---|---|
| Composer 2.5 | ★ | ★★★★ | ★★★★ |
| Claude Opus 4.7 | ★★★★★ | ★★★★★ | ★★★★★ |
| GPT-4o | ★★★ | ★★★★ | ★★★ |
| Kimi K2.5(基座) | ★★ | ★★★★ | ★★★ |
Composer 2.5 在基准测试上和 Opus 4.7 有来有回,但社区反馈的真实使用体验差距不小。HN 上有人直言:"Composer 2 的基准测试也很漂亮,实际用起来差距明显。"
价格对比
- Composer 2.5:包含在 Cursor Pro $20/月套餐中
- Claude Opus 4.7:API 调用约 $15/$75 per 1M tokens
- Gemini 3.5 Flash:$0.75/$4.50 per 1M tokens
技术亮点
Composer 2.5 有几项关键改进:
靶向文本反馈 RL。传统强化学习在整个完成度上打分,但长任务中(一次生成几万 token),模型根本不知道哪里出错了。Composer 2.5 的做法是在出问题的地方直接插入提示,告诉模型"这里不对,应该这样",然后只在对应位置优化权重。
25 倍更多的合成任务。随着模型变强,原有的训练任务很快被"刷穿"。他们用了 25 倍于 Composer 2 的合成训练数据,通过特征删除、代码重构等自动生成高难度任务。
行为层面优化。除了智商提升,还在沟通风格、努力程度校准等方面做了改进——这些基准测试不体现,但日常使用体验影响很大。
下一步:从零训练的大模型
Cursor 透露,他们正在和 SpaceXAI 在 Colossus 2 上训练一个从零开始的大模型,用 10 倍于当前的总算力。这暗示 Cursor 不满足于在开源基座上微调,想要自己的旗舰模型。
争议与评价
HN 277 分,39 条评论。社区态度同样两极:
- 支持者觉得这是性价比最好的选择,适合日常高频使用
- 质疑者被 Composer 2 的"基准好、实际差"搞怕了,对 2.5 持观望态度
- 有人指出为什么不用 Sonnet 做对比——基准选了 Opus 4.7 这个最强的 benchmark,但不代表日常表现
总的来说,Composer 2.5 在成本和智能之间找到了一个不错的位置。如果你是 Cursor 用户,这次升级值得一试。但指望它完全替代 Claude Opus 或 GPT-4o 做核心开发,可能还得等他们自研的大模型出来。




