智算多多
官方邮箱:service@zsdodo.com

公司地址:北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部


京公网安备11010602202532号 模型基座能力全面跃升,Agentic、推理、通用等能力持续突破。(1)编程智能体方面:多个权威测评中均取得SOTA,Terminal Bench 2.0-Terminus 上取得最高 69.7 分,超过了 DeepSeek-V4-pro-Max、Claude-Opus 4.6。(2)通用智能体方面:提升明显,多项现实能力评测中表现优异,MCP-Atlas 等测试超越GLM-5.1、Kimi-K2.6,创下国产新高。(3)推理方面:在GPQA Diamond、HLE 等核心推理测评中均超越Claude-Opus 4.6及所有国产模型。(4)通用能力与多语言方面,在指令遵循评测IFBench 中得分突破新高达到79.1 分。千问3 系列持续强化编程、长上下文、工具调用、跨框架兼容和长程任务处理能力,这些能力指向同一个变化——模型正在从回答问题,走向执行任务。
从Coding 的层面上思考,我们认为编程模型竞争正在发生变化,下一阶段的模型竞争,不只是比谁写代码更快,而是比谁能让模型长期、稳定地执行工程任务。模型需要从代码助手向虚拟工程师演进,阿里内部的一个长程任务测试,也体现了这一方向。模型被放到未接触过的新硬件平台平头哥真武M890 上,要求优化生产级注意力内核算子,模型实现连续工作35 小时,内核速度在参考实现基础上提升一个数量级,且连续运行30 小时后模型仍能发现新的优化空间。当前单纯生成代码的价值正在下降,更重要的是理解复杂代码仓库、自主调用工具、运行测试、修复错误,并在多轮反馈中持续调整。
跟进芯模适配,后续模型将比拼系统级能力。平头哥发布新一代训推一体AI 芯片真武M890,算力底座全面升级,并公布清晰路线图:
今年大模型行业的竞争周期正在明显缩短,具体演进趋势上,能够看到架构创新加速、芯模适配越发明显,国产模型Infra 能力迅速提升。模型从需求拐点走向需求差异化走向系统级竞争,后续还会继续走向场景端生态端开拓,市场空间持续扩大,阿里云凭借“芯-云-模型-推理”全栈自研能力和Agentic 时代的先发布局,有望加速商业化兑现。
