智算多多
官方邮箱:service@zsdodo.com

公司地址:北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部


京公网安备11010602202532号 SWE-bench Verified 主要是用来测试单文件的 bug 修复工作,SWE-bench Pro 则是针对跨文件的长周期任务来开展测试,SWE-rebench 借助私有仓库来避免出现数据污染的问题,Terminal-Bench 2.0 则是用于测试终端操作的相关能力。不同的基准测试对应不同的维度,分数是不可以跨列来进行对比的。
SWE-bench Pro存在多个版本。在Scale Labs公开的数据集版本上,顶级模型的表现仅约为23%,本文所引用的64.3%和58.6%的数据,均来自厂商各自搭建的评测环境,这些数据无法和Scale Labs版本直接拿来进行对比。
| 模型 | SWE-bench Verified(标准化) | SWE-bench Pro | SWE-rebench | Terminal-Bench 2.0 |
|---|---|---|---|---|
| GPT-5.5 | 82.6% | 58.6% | 88.7% | 82.7% |
| Claude Opus 4.7 | 82.0% | 64.3% | 64.3% | 69.4% |
| DeepSeek V4 Pro | 77.4% | 55.7% | — | — |
SWE-rebench口径说明:SWE-rebench内部设置了verified track以及hardest task tier这两个不同的赛道。GPT-5.5所取得的88.7%的成绩,来自于verified track,也就是swe-rebench.com在2026年5月发布的insight视图当中的相关数据;而Claude Opus 4.7的64.3%的成绩,则来自hardest task tier,相关内容是由AI Weekly所报道的。这两个分数来自完全不同的赛道,所以不可以直接拿来进行对比。
GPT-5.5 Pro补充:LocalAI Master排行榜显示,Pro版本的SWE-bench Verified大概能达到87.6%,MMLU则约为92.1%。SWE-bench Pro的分数目前还没有可靠的公开数据。Pro版本的定价是每百万输入token 30美元,每百万输出token 180美元,输出端的价格是Opus 4.7的7.2倍,同时也是DeepSeek V4 Pro的207倍。
能力定位:工程代码与系统理解这两方面处于均衡的状态。标准化SWE-bench Verified的得分为82.0%,其中Anthropic自测得分为87.6%,二者之间的差异来自agent harness的配置存在着些许不同。SWE-bench Pro的得分为64.3%,领先GPT-5.5基础版大概6个百分点。Terminal-Bench 2.0的得分为69.4%,落后GPT-5.5大约13个百分点。
核心优势:可以对整个项目形成全方位的理解能力。当你输入十万行级别的代码库时,它能够识别出其中各个模块之间的关联关系、整体的数据流向,以及每一处代码变更可能会波及到的影响范围。同时还支持跨文件的重构工作,也就是说,修改路由、数据库schema、前端组件以及测试用例这些操作,都可以一次性完成。
已知问题:
定价:$5/$5/$25(输入/输出每百万token)。Anthropic已发布Claude Mythos Preview(自测93.9%)和Opus 4.8(自测88.6%),尚未全面商用。
能力定位:终端操作以及长上下文检索这两项能力处于领先位置。标准化SWE-bench Verified得分为82.6%,Terminal-Bench 2.0得分为82.7%,领先Opus约4.7个百分点也就是13个百分点,Artificial Analysis Intelligence Index以60分的成绩排名第一。
与Claude的差异:SWE-bench Pro的得分达到了58.6%,比Opus落后了大概4.7个百分点,也就是差不多6个百分点的样子。这也就意味着,在跨文件的长周期任务当中,GPT-5.5基础版本其实是弱于Claude的。不过在终端密集型的场景,也就是像DevOps、自动化脚本、命令行操作这类场景里,它的优势就显得格外显著。
Pro版:SWE-bench Verified的表现大概在87.6%左右,定价则是30美元/180美元的档位。这类工具比较适合用在低频且高价值的任务场景当中,比如说架构层面的决策、比较复杂的漏洞修复工作,并不太适合日常的CRUD这类常规开发工作。
生态现状:Agent生态的起步时间要比Claude Code晚一些,目前社区以及工具链的成熟度还处在追赶的过程当中。
能力定位:尤其是在竞赛编程领域处于领先位置。它在标准化的SWE-bench Verified基础模式下,得分可以达到77.4%,而在Think Max模式中,性能更是可以达到80.6%。在Codeforces平台上,它的得分大约为3200分,在LiveCodeBench上则达到了93.5%,从竞赛编程这个维度来看,它的表现要领先于Claude。
工程代码 vs 竞赛编程:在工程代码这个领域当中,也就是SWE-bench Pro 55.7%这个由第三方整理出来的数据里,Claude是处于领先位置的;而当来到竞赛编程的场景之下时,DeepSeek则实现了反超。这两种都被大家认为是"代码强"的情况,其实分别对应着不一样的使用场景。
定价:在2026年5月23日推出75%折扣永久化方案之后,具体的收费标准为每百万输入token收取0.435美元,每百万输出token收取0.87美元。输出端的成本大概是Opus 4.7的二十九分之一。
从实际成本这一层面来进行考量:
短板:系统层面的理解能力要比Claude稍弱一些,在跨模块重构以及架构级别的决策环节当中,也很容易出现各类错误。
中文能力:中文语料的投入会来得更大一些,同时在针对中文场景的理解上,也具备了对应的优势。不过就目前的情况来看,还缺少像C-Eval、CMMLU这类标准化的评测来获取直接的对比数据,它所具备的优势幅度,还有待进一步去完成量化的工作。
技术路线:可以依据任务的具体类型,自动切换底层所使用的Claude、GPT以及Gemini这些模型。当前编辑器的体验处在行业领先的水平,其中包含了Tab补全、内联对话以及全项目重构这些功能,它的交互细节也做得比较成熟。
自有模型:选用了Composer 2.5来用于Tab补全,不过核心的Agent能力依旧要依赖第三方模型。TechCrunch做出了这样的评价:"Neither Cursor nor xAI has proprietary models that can match the leading offerings from Anthropic and OpenAI."
重大变量:2026年4月SpaceX与Anysphere签署600亿美元收购选择权协议。5月19日Bloomberg报道SpaceX计划IPO后30天内完成收购(SpaceX已宣布IPO计划,预计估值约1.75万亿美元)。收购完成后Cursor将接入xAI Colossus超算集群训练自研编码模型。注意:收购尚未完成,接入超算≠模型能力提升,训练数据和方法才是关键。
Agent化时间线:在2025年的2月份,推出了Agent Mode的预览版本,等到4月的时候,VS Code就迎来了它的正式GA版本。而像JetBrains这类其他IDE的上线时间就要更晚一些,一直到9月份,Coding Agent才正式实现GA。当前它所具备的能力涵盖了自主开展规划工作、对文件进行修改、执行终端命令、自动迭代修复程序漏洞以及异步提交PR。
竞争位置:Agent化这项技术的起步时间要比Claude Code晚上不少,到目前为止还在持续开展追赶相关的工作。它所拥有的核心资产,其实就是GitHub这个生态系统,具体来说就是代码托管、CI/CD还有项目管理这几个方面,要是微软可以把Agent和这个生态系统进行深度打通的话,那么就存在着实现翻盘的可能性。根据目前掌握的信息,截止到2026年6月,Claude Code所具备的Agent能力,依旧明显处在领先的位置。
标价对比(输出端每百万token):
| 变量 | Claude Opus 4.7 | GPT-5.5 | DeepSeek V4 Pro |
|---|---|---|---|
| 标价(输出$/M token) | $25 | $30 | $0.87 |
| Tokenizer影响 | +45-47%(实测,技术文档场景) | — | — |
| Token消耗效率 | 基准 | -72%(MindStudio报告) | Think Max模式偏高(约1.9亿 vs 中位数4700万) |
| 第三方工具兼容 | 好 | 好 | 部分问题(OpenCode thinking-mode handshake失败) |
选型建议:先把场景分布给确定下来,也就是架构级、日常CRUD以及终端密集型这几类各自的占比情况,再去匹配相对应的开发工具。千万不要只用单一的工具来应对所有不同的工作场景,同时也不要维护过多的工具,中小企业可以从两个工具起步,等把整体流程跑通之后再进行后续的扩展。
当前行业现状显示:AI已经能够完成大概八成左右的CRUD相关工作。根据Anthropic在2026年发布的趋势报告来看,AI在行业内的渗透率正处在快速攀升的阶段,那些可以完全委托给AI来处理的任务占比,也正在持续地扩大。
风险点:大多数初级开发者还停留在"翻译需求"的这个层面当中,整体上是缺乏判断力、审查力以及质疑能力的。
策略:从"练习如何编写"转向"练习如何判断"。AI生成的代码在处理复杂业务逻辑、边界条件以及安全漏洞的时候,依然会暴露出各类错误,能够发现这些问题的人员所需要的其实是代码阅读理解能力,而并非编写速度。
核心优势:可以把原本模糊不清的需求,转化为AI能够真正理解的明确指令。Boris Cherny原话:"AI可以帮你写出任何你想要的代码,但它不知道你想要什么。"
风险点:这项能力正在被人工智能所侵蚀,像Claude Code Cowork、Copilot Agent Mode这类工具,都在朝着能够理解模糊需求的方向不断演进。
进阶方向:
不变的价值:架构决策——微服务和单体架构的选择、技术选型、技术债的取舍、第三方服务的评估——需要经验、直觉以及业务理解,AI目前没办法替代。
新增任务:设计AI原生开发流程。Boris团队所采用的"AI写代码+人监督"模式,需要有人对Agent的具体分工、审查环节的流程、质量把控的相关标准,以及出现问题后的回滚机制进行设计。
注意事项:Boris的案例不可复制。他是Claude Code创建者,代码库即Claude Code本身,对AI的指令精确度远超普通开发者。拿他的体验推导"编程被解决了"存在严重幸存者偏差。
决策框架:先去量化清楚团队任务类型的整体分布情况,再去匹配与之相对应的工具组合。比较建议从两款工具先开始起步,比如Claude Code + DeepSeek,等跑通整个流程之后再进行后续的扩展。
成本考量:多工具组合往往会带来额外的维护成本,中小企业需要仔细评估这些维护成本会不会超过通过API所节省下来的开支。
核心判断:选用"谁能用好工具"比选用"哪个工具"更为重要。人的差距大于工具的差距。
优势是决策速度快,试错成本低。劣势是没有办法对AI生成的代码进行审查。
建议:小项目DeepSeek快速验证,核心模块Claude Code兜底,终端密集型项目用GPT-5.5/Codex。不要在工具选择上过度投入——独立开发者最大成本是时间。
Boris Cherny的原话是"coding is largely solved for the code he writes"——也就是写代码这个动作,对于他自己所编写的那些代码来说,基本上已经得到了解决。
但其实"写代码"和"编程"根本就是两回事。
写代码就是把脑子里的想法转换成计算机能读懂的语言,现在AI差不多快要把这项工作给做完了。而编程真正的核心,是去定义清楚要解决的问题、设计出对应的解决方案、在不同的方案之间做好权衡和取舍,还要真正去理解用户的真实需求——这四项能力,AI到目前为止一项都做不到。
过去这二十年的时间里,整个行业都把"写代码"直接等同于了"编程"这件事。而现如今,这样一套评价体系已经开始逐渐失效了。
把自己定位为"写代码的人",出局。定位为"解决问题的人",AI是杠杆。
