智算多多
官方邮箱:service@zsdodo.com

公司地址:北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部


京公网安备11010602202532号 5月18号,Cursor 正式发了 Composer 2.5。这是继3月 Composer 2 之后的新版本。
官方说训练用了比前代多25倍的合成任务,85%的计算预算砸在额外训练和强化学习上。听起来挺唬人的,但跑分确实能打:
| 基准测试 | Composer 2.5 | Opus 4.7 | GPT-5.5 | Composer 2 |
|---|---|---|---|---|
| CursorBench v3.1 | 63.2% | 64.8% | 64.3% | 52.2% |
| SWE-Bench Multilingual | 79.8% | 80.5% | 77.8% | 73.7% |
| Terminal-Bench 2.0 | 69.3% | 69.4% | 82.7% | 61.7% |
注意看Terminal-Bench那一列。Composer 2.5 从2代的61.7%直接跳到69.3%,追平了Opus 4.7。虽然离GPT-5.5的82.7%还有距离,但GPT-5.5在终端任务上本来就强得离谱。
说到技术底座,这才是最有意思的部分。
Composer 2.5 沿用了2代的路线——基于月之暗面(Moonshot AI)开源的 Kimi K2.5 做继续预训练和强化学习。
Kimi K2.5 用的是 MoE(混合专家)架构,总参数量约1万亿,但每次推理只激活约320亿参数。这个架构的好处很明显:性能天花板高,推理成本低。
Cursor 在上面做了几件事:
官方说约75%的性能特征来自Cursor自身的训练投入,不是单纯套壳。这话我信,但不妨碍底子是Kimi这个事实。
有个开发者在Reddit上调侃:"Cursor说自研模型,结果底子是Kimi;之前大家开玩笑说Cursor是Claude的套壳,现在变成Kimi的套壳了。"
话糙理不糙。
性能打平只是故事的一半。价格才是Cursor真正让对手难受的地方。
| 模型 | 输入价格(每百万token) | 输出价格(每百万token) |
|---|---|---|
| Composer 2.5 标准版 | $1.50 | $0.50 |
| Composer 2.5 快速版 | $15.00 | $3.00 |
| Claude Opus 4.7 | $15.00 | $75.00 |
| GPT-5.5 | $2.50 | $15.00 |
注意标准版的输出价:$0.50/百万token。
Opus 4.7 是 $75。差了150倍。
换句话说,用Cursor 2.5标准版跑一次重构任务的成本,够你喝杯咖啡。用Opus 4.7跑同样的任务——够你请全组喝一周。
当然,快速版跟Opus价格差不多,但大部分日常任务标准版完全够用。
我自己的体验是:简单的补全和文档生成无所谓,但复杂重构任务用标准版确实能省不少。一个月下来,API账单能从几百刀降到几十刀。
这里有个坑:标准版和快速版怎么选?官方文档写的是"标准版适合一般编码任务,快速版适合复杂长任务"。我试下来,跨文件重构和大型测试编写建议切快速版,简单CRUD和样板代码标准版就行。
把一段200行的单线程爬虫改写成asyncio异步版本。Composer 2.5花了大概40秒读代码,又花了1分半写代码。结果能跑,但有个小bug——连接池没正确关闭。
对比Opus 4.7,也是类似的模式:一次生成大概率能跑,但总有1-2个小问题需要手动修。
区别在成本:用标准版,这次重构只花了约 $0.03 的token。Opus 4.7跑同样的东西——$0.45。
给一个带状态管理的中等复杂度组件写Jest测试。Composer 2.5生成了12个测试用例,覆盖了大部分边界情况。有一个测试因为mock没搞好挂了,手动修了5分钟。
比较满意的一点:它自动识别了组件依赖的context provider并生成了对应的mock代码。之前用Composer 2可没这么聪明。
这个比较翻车。
# 我开始以为直接就能搞定
$ cursor --task "把这个Express API改成Vercel Serverless格式"
结果改出来的代码,Vercel部署直接报405。
{
"error": {
"code": "METHOD_NOT_ALLOWED",
"message": "Method Not Allowed"
}
}
调试了半天才发现——它把路由导出格式写错了,Vercel 需要的是 export default handler,但 Composer 2.5 生成了 module.exports = handler。差这一行就部署不上。
改了一行,好了。
说明什么?Composer 2.5 在通用编程场景确实强,但在平台特化部署上还有盲区。这其实不算大问题——你只要在prompt里加一句"注意Vercel的导出格式是xxx"就行了。
结合我之前试过的工具,一个粗暴但实用的建议:
| 你的场景 | 推荐 | 理由 |
|---|---|---|
| 个人开发/小团队 | Cursor 2.5 Pro ($20/月) | 性价比最高,日常够用 |
| 大型项目重构 | Claude Code | 上下文理解更深,大项目稳 |
| 预算极有限 | Cursor 2.5 标准版API + Cursor IDE | 成本打到最低 |
| 团队标准化 | Copilot Enterprise | 合规、安全审计做得好 |
| 部署自动化 | Codex CLI | 终端操作最强 |
| Vibe Coding | Claude Code + Cursor 组合 | 写代码用Claude,日常用Cursor |
如果月预算 $20 以内,直接 Cursor 2.5 Pro。月预算 $100 左右,Cursor Pro + 按需用Claude API。月预算 $200+,Claude Code + Cursor + Copilot一起上。
这里我纠结了一下:到底是推荐组合方案还是单一工具?说实话没有完美答案。我自己的配置是Cursor主力+Claude Code做重构备选。
Cursor 已经在跟 xAI 合作,用 Colossus-2 集群(等效100万块 H100)训练一个"从头开始"的下一代模型。计算量是当前的10倍。
这说明什么?
Cursor 不满足于"基于开源模型微调"这条路。他们在往自研大模型的方向走。如果成了,那就是真正的垂直一体化——从模型到工具到生态全自己来。
另一方面,Kimi K2.5 这个选择本身就很有象征意义。在贸易战、芯片禁令的大背景下,一家美国头部AI公司选择中国开源模型作为核心基座,这就是全球化技术供应链的现状——谁也离不开谁。
Cursor 2.5 的 Composer 2.5 是现阶段AI编程工具里,性价比最炸裂的选择。
性能接近顶尖闭源模型,成本只有十分之一到百分之一。对于预算敏感的个人开发者和小团队来说,这个平衡点确实香。
不足也有:部署场景有盲区、长上下文不如Claude Code稳、快速版价格跟Opus差不多就没优势了。
但说实话,对于90%的日常开发工作,标准版足够了。
你平时用哪个AI编程工具?我刚花了整整一周实测了四个工具,想知道大家真实的使用感受。评论区说说你的主力工具和踩过的坑,我整理到后续文章里。
对了,首周双倍用量还在(到5月25号?不确定过了没),没试过的可以嫖一波。免费的不用白不用。
