智谱发布GLM-5.1并再度提价开源模型首次突破8小时持续工作能力

全球首个支持8小时持续工作的开源模型

　　GLM-5.1是全球第一个在真实工程任务中验证了8小时持续工作能力的开源模型。有别于当前以分钟级交互为主的模型，GLM-5.1能够在单次任务中持续、自主地工作长达8小时。过程中模型自主规划、执行、测试，碰壁时主动切换策略，出错后自行修复，最终交付完整的工程级成果。

　　据了解，GLM-5.1是智谱迄今智能度排名居前的旗舰模型，也是目前全球领先的开源模型。GLM-5.1大幅提高了代码能力，在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同，GLM-5.1能够在一次任务中独立、持续地工作超过8小时，期间自主规划、执行、自我进化，最终交付完整的工程级成果。

从“基准测试”到“能工作多久”

　　过去两年，大模型行业用benchmark（基准测试）来衡量模型的智能程度。智谱指出，下一阶段的衡量标准应该是“能工作多久”，即模型在长程任务（Long-Horizon Task）中的表现，能独立完成多长时间的人类任务。

　　这对模型提出了更深层次的挑战。在长程任务中保持稳定输出，模型面对的不只是更大的代码量，而是一连串复杂的工程决策点：主动跑benchmark（基准测试）、定位瓶颈、修改方案、再跑测试。模型需要像一个真正的工程师一样，形成“实验→分析→优化”的完整闭环，而不是写完一版代码就停下来等人打分。

实测表现：3.6倍几何平均加速比

　　具体来看，用户在涵盖50个真实机器学习计算负载的KernelBench Level 3优化基准上，让GLM-5.1对每个负载独立进行持续优化。在超过24小时的不间断迭代中，GLM-5.1自主完成了多轮编译—测试—分析—重写循环，最终取得3.6倍的几何平均加速比，显著高于超torch.compile max-autotune模式的1.49倍。以上体现出GLM-5.1展现的长时间工作和自进化能力，其从单纯的“代码生成器”进化为“主动的系统优化器”。

　　这一结果亦表明，在GPU内核优化这一传统上高度依赖专家经验的领域，AI模型已经展现出从问题分析、方案设计到迭代调优的端到端自主工作能力。在GPU以及更广泛的高性能计算领域，长期制约工程效率的优化瓶颈正在被AI逐步打破。

技术挑战与未来方向

　　智谱方面强调，延长模型的“有效工作时长”是提升智能体能力的一个基础维度。在这条路上仍然有显著的技术挑战：如何克服模型面对复杂任务的上下文焦虑、如何在数千次工具调用后保持执行的一致性、如何更早地跳出局部最优，以及更重要的是如何在没有确定数值指标的任务上建立可靠的自我评估机制。

“GLM-5.1是我们在这个方向上迈出的一步，我们会持续推进。”智谱表示。

国产大模型首次实现价格对齐

　　值得一提的是，智谱正式发布GLM-5.1之际，模型聚合平台OpenRouter显示，智谱GLM再度提价10%，调价后，GLM-5.1在Coding场景的缓存命中Token价格已接近Anthropic旗下Claude Sonnet4.6水平。

　　据悉，这是国产大模型首次在核心场景实现与海外头部厂商的价格对齐，一年前，国产大模型厂商还在以降价90%以上争夺市场份额。这一转折表明国产大模型不再单纯依靠大幅降价争夺市场，而是以性能溢价锚定国际基准。

编程能力全球领先

　　据悉，GLM-5.1在编程能力上继续保持领先，在SWE-bench Pro、Terminal-Bench、NL2Repo三大代码评测基准的综合平均分中，取得全球第三、国产第一、开源第一；在最接近真实软件开发的SWE-bench Pro基准测试中更是实现国产模型首次超越Opus 4.6，刷新全球最佳成绩。