智算多多



不同于厂商自卖自夸的静态跑分,LMArena(Chatbot Arena)采用的是真实用户盲测与实时对抗排名机制。在这种模式下,用户在不知情的情况下让两个不同模型回答同一问题,再根据回答质量进行投票。这种“盲测”机制被公认为目前最能反映模型真实能力、最具公信力的评测方式之一。
在 Code Arena 这一专注于 AI 编程能力的细分赛道中,Qwen 3.6-Plus 的表现堪称惊艳。在 React 专项(评估前端开发能力)中,它以 1452 分高居榜眼,仅次于 Anthropic 旗下的 Claude-Opus-4.6-Thinking(1540 分)。更值得注意的是,它仅以 4 分的微弱优势“险胜” OpenAI 的 GPT-5.0-High(1448 分),并以 12 分的差距领先 Google 的 Gemini 3.1 Pro Preview(1440 分)。
这一成绩意味着,在开发者最关心的代码生成与逻辑构建能力上,阿里千问不仅坐稳了国产模型的头把交椅,更在全球范围内对齐了最顶尖的第一梯队。
凭借 Qwen 3.6-Plus 的强势发挥,阿里巴巴在全球 AI 实验室排名中也水涨船高,从原有的位置一举跃升至第四名,仅次于 Anthropic、OpenAI 和 Google 这三大巨头。
长期以来,全球大模型领域呈现出“美中对抗”的格局,但第一梯队的席位长期被美国科技巨头垄断。此次阿里冲入全球前四,且在编程这一高门槛垂直领域超越了 Google 的预览版模型,无疑是一次重大的身位突破。这不仅证明了阿里在基础模型研发上的深厚积累,也显示出中国 AI 企业在算法优化和工程落地上已具备与硅谷巨头正面硬刚的实力。
为何编程能力如此重要?因为代码生成被视为大模型逻辑推理能力的最高阶体现,也是大模型从“聊天玩具”走向“生产力工具”的关键桥梁。
Qwen 3.6-Plus 在 React 专项的高分,说明其不仅能理解自然语言,更能精准转化为计算机可执行的逻辑,尤其是在处理复杂的前端交互和组件化开发时,其表现已接近人类高级工程师的水平。对于广大开发者而言,这意味着一个更懂代码、更少幻觉的 AI 助手已经到来。
阿里千问 3.6 的此次登顶,并非偶然的运气,而是阿里在 AI 基础设施上长期“重投入”的结果。在苹果等硬件巨头通过供应链手段挤压对手的当下,阿里用实打实的技术参数证明了中国 AI 的韧性。虽然在总分上与榜首的 Claude 仍有 88 分的差距,但考虑到大模型迭代的速度,这个差距并非不可逾越。Qwen 3.6-Plus 的这一战,不仅为国产大模型挣得了面子,更为接下来的技术竞赛注入了一针强心剂。