当前位置: 首页 > 行业资讯 > 资讯详情

编程榜剧变：Qwen3.7-Max仅差Claude 1分，国产模型逼近榜首

发布日期：2026-05-31 来源：网易号近史谈作者：网易号近史谈

AI圈的瓜我吃了这么多，这次国产大模型的操作真的给我看呆了。之前AI编程这块，谁都得承认Claude是说一不二的老大哥，哪怕不少人吐槽它母公司的做派，也架不住人家能力确实能打。谁能想到阿里悄悄放出来的新旗舰千问Qwen3.7-Max，直接冲到了老大跟前，就差1分就追上了。

说出来你可能不信，这次的排名来自全球第三方权威编程榜单Code Arena，榜单结果真的杀疯了。Qwen3.7-Max口碑一路攀升，往上冲的势头根本挡不住，把GPT-5.5、Gemini-3.5-Flash、GLM-5.1、Kimi-K2.6这些耳熟能详的热门模型全甩在身后。现在名次就排在Claude系列后面，甚至还超过了Claude-opus-4.6，仅仅落后Claude 4.6-thinking1分，一众热门模型都被远远抛在身后。

为什么编程能力是硬指标？

很多人可能好奇，大模型能力方向那么多，为啥偏偏把编程能力拎出来说事儿。说白了，这玩意儿就是大模型智能水平的硬试金石，好不好用一验就出来。它要搞定需求理解、任务拆解、逻辑推理、工程实现到错误修复整套活，一点掺不了假。

不像生成图片或者写随笔，好坏全看个人喜好，公说公有理婆说婆有理，没个准话。代码能不能跑，功能齐不齐，用户打开一运行就知道结果，半点儿水分都挤不出来。也正因为这样，编程能力才成了大模型能不能落地生产场景最实在的硬指标。

Code Arena：权威盲测平台

这次出结果的Code Arena，可不是什么不知名小机构做的野榜。它是目前全球最受关注的AI编程能力榜单之一，背后是知名第三方盲测平台LMArena。它的评测规则也很公平，都是开发者出题，要求模型从零开始生成完整可交互的Web应用。

用户不知道对比的两个模型分别是什么身份，只需要对着两个生成结果投票选出更好的那个，最终排名全靠全球开发者的真实投票堆出来。这种盲测出来的结果，水分真的很少，行业内外的认可度都很高。

Qwen3.7-Max：国产模型的新突破

这次千问的表现，说一句有点东西真的太贴切了。直接冲进了榜单全球前四，把Claude霸榜很久的固有格局给打破了。它还是这个榜单里第一个突破1540分大关的国产大模型，这个成绩真的够提气。

多说点干货，这个Qwen3.7-Max本来就是主打Agent场景的旗舰模型，最擅长的就是编程、智能体还有长程任务。尤其是长程任务这块，真的甩出不少同行一条街。官方放出来的实测例子里，千问3.7在一个全新的芯片平台上自主编程，调用超一千次工具，连续不间断跑了35个小时，最终完成了一个关键内核的自我进化，推理速度比原版本直接提升了10倍。

不少实际用过的开发者都给出了好评，都说它的长程自主执行能力太让人惊艳。很多从业者都觉得，它特别适合拿来做Agent的基座模型。这个定位刚好戳中了当前AI落地生产的核心需求，方向踩得特别准。

还有第三方AI机构把Qwen3.7-Max、Claude 4.7 和GPT-5.5放在一起横向测评，得出的结论也很有意思。千问3.7相比上一代的提升是几家里面最大的，推理成本反而是最低的。不管是生成速度还是内容质量，都有肉眼可见的明显优势，性价比直接拉满。

国产大模型的飞速进步

其实这些年围观国产大模型的发展，真的像开了二倍速一样。没几年前，不少人还在说国产大模型和海外头部差距拉开了，追不上了。没想到这才多久，我们的模型已经追到榜首身边，就差1分就能登顶了。

能把那么多海内外知名模型甩在身后，这个进步速度真的超出了很多人的预期。不光是榜单排名好看，更关键的是它实打实解决了生产场景里的痛点，成本低能力还强，对开发者来说太友好了。

我作为一个围观科技圈变化的普通人，看这个结果真的挺开心的。原来我们都是跟着别人屁股后面追，一步步缩小差距，现在已经能站到全球第一的身边了。就盼着这天早点来，国产模型彻底把榜首拿下，让大伙都能用上好用又实惠的国产大模型。

本文转载自网易号近史谈，作者：网易号近史谈，原文标题：《编程榜剧变：Qwen3.7-Max仅差Claude 1分，国产模型逼近榜首》，原文链接： https://c.m.163.com/news/a/KU7O275B05566PST.html。本平台仅做分享和推荐，不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题，请与我们联系，我们将在第一时间删除内容！

本文相关推荐

暂无相关推荐

点击立即订阅

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号