Cursor Composer 2.5 发布：基于 Kimi K2.5，性能直追前沿大模型

Cursor Composer 2.5：以十分之一成本，挑战前沿模型

5月18日，Cursor 发布了 Composer 2.5——他们 AI 编程助手的新一代模型。距离 Composer 2 发布没多久，这次升级动作不小。

Cursor 和 SpaceXAI（xAI 的新品牌）合作，在 Colossus 2 集群（百万级 H100 等效算力）上训练模型。但 Composer 2.5 本身基于 Moonshot 的开源基座 Kimi K2.5，不是从零训练的。

Cursor 声称 Composer 2.5 以 1/10 的成本实现了接近前沿大模型的性能。我们来拆解这个说法：

模型	相对成本	编码能力	长任务表现
Composer 2.5	★	★★★★	★★★★
Claude Opus 4.7	★★★★★	★★★★★	★★★★★
GPT-4o	★★★	★★★★	★★★
Kimi K2.5（基座）	★★	★★★★	★★★

Composer 2.5 在基准测试上和 Opus 4.7 有来有回，但社区反馈的真实使用体验差距不小。HN 上有人直言："Composer 2 的基准测试也很漂亮，实际用起来差距明显。"

Composer 2.5 有几项关键改进：

靶向文本反馈 RL。传统强化学习在整个完成度上打分，但长任务中（一次生成几万 token），模型根本不知道哪里出错了。Composer 2.5 的做法是在出问题的地方直接插入提示，告诉模型"这里不对，应该这样"，然后只在对应位置优化权重。

25 倍更多的合成任务。随着模型变强，原有的训练任务很快被"刷穿"。他们用了 25 倍于 Composer 2 的合成训练数据，通过特征删除、代码重构等自动生成高难度任务。

行为层面优化。除了智商提升，还在沟通风格、努力程度校准等方面做了改进——这些基准测试不体现，但日常使用体验影响很大。

Cursor 透露，他们正在和 SpaceXAI 在 Colossus 2 上训练一个从零开始的大模型，用 10 倍于当前的总算力。这暗示 Cursor 不满足于在开源基座上微调，想要自己的旗舰模型。

HN 277 分，39 条评论。社区态度同样两极：

总的来说，Composer 2.5 在成本和智能之间找到了一个不错的位置。如果你是 Cursor 用户，这次升级值得一试。但指望它完全替代 Claude Opus 或 GPT-4o 做核心开发，可能还得等他们自研的大模型出来。