当前位置: 首页 > 行业资讯 > 资讯详情

大模型实现“ 8 小时工作制” !智谱 GLM-5.1 大幅提升长程任务能力

发布日期：2026-04-10 来源：ZAKER作者：ZAKER浏览：2

实测 GLM-5.1

关于 GLM-5.1 的智能水平，智谱团队告诉《科创板日报》记者，GLM-5.1 提高了代码能力，在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同，它能够在一次任务中独立、持续工作超过 8 小时，期间自主规划、执行、自我进化，最终交付完整的工程级成果。

代码能力是模型智能水平进一步提升的关键。据悉，在业内最具代表性的三个代码评测基准的平均结果中，包括衡量模型专业软件开发工作的 SWE-Bench Pro、操作命令行解决问题的 Terminal-Bench 2.0、从零构建完整代码仓库的 NL2Repo，GLM-5.1 取得全球模型第三、国产模型第一、开源模型第一。

这也代表了大模型演进到现在的趋势之一，过去两年，行业用 Benchmark 衡量模型有多智能。上述智谱团队向《科创板日报》记者判断，下一阶段的衡量标准应该是 " 能工作多久 "，即模型在 Long-Horizon Task 中的表现，能独立完成多长时间的人类任务。

2025 年 3 月，AI 安全研究机构 METR 提出了一个改变行业认知的指标：任务完成时间线（Task-Completion Time Horizon）——不再衡量模型 " 多聪明 "，而是衡量它能独立完成多长时间的人类任务。研究显示，前沿模型的时间线每 7 个月翻一倍。这条指数曲线被 MIT Technology Review 称为 "AI 领域最重要的一张图 "，Sequoia Capital 据此在 2026 年初宣告 " 这就是 AGI"。

在长程任务中保持稳定输出，模型面对的不只是更大代码量，而是一连串复杂的工程决策点：主动跑 benchmark、定位瓶颈、修改方案、再跑测试。这对模型提出更高的要求，需要像人类工程师一样，形成 " 实验→分析→优化 " 的完整闭环，而不是写完代码停下来等人打分。

《科创板日报》记者用开发者工具实测了 GLM-5.1，测试案例如下：有一个专门考验 AI 编程能力的测试，任务是让 AI 做出一个能快速检索海量数据的系统，当时最强的成绩是 Claude Opus 4.6 创造的。

实测显示，智谱 GLM-5.1 在持续进行六百多次优化、六千多次操作后，性能还在不断提升，最终速度达到了之前最好成绩的 6 倍。

智谱 GLM 再度提价 10%

性能提升的同时，智谱在价格层面也与海外厂商看齐，这也是国产模型价格首次对齐海外，模型聚合平台 OpenRouter 显示，智谱 GLM 再度提价 10%。调价后，GLM-5.1 在 Coding 场景的缓存命中 Token 价格已接近 Anthropic 旗下 Claude Sonnet 4.6。

这不是智谱第一次涨价，此前，智谱 2 月 12 日发布 GLM Coding Plan 价格调整函称， GLM Coding Plan 市场需求持续强劲增长，用户规模与调用量快速提升。公司决定对 GLM Coding Plan 套餐价格进行结构性调整，整体涨幅自 30% 起。

《科创板日报》记者此前独家获悉，海外版 GLM-5 定价涨幅高于国内：Coding plan 订阅价格提高 30%-60%，API 调用价格提升 67%-100%。

此举为国产大模型 2026 年以来首次大幅提价。

一年前，行业还深陷 " 价格战 "，普遍降价九成以上争夺份额。智谱为何敢于反向操作？

从核心动因看，需求端爆发是直接推手。GLM Coding Plan 聚焦开发者代码生成、编程辅助场景，市场需求持续旺盛，用户规模、接口调用量双双快速攀升，平台长期处于高负载运行状态，对算力调度、服务稳定性、响应效率的要求显著提高，需求增速超出原有资源规划与承载能力。

在智谱 2025 年业绩说明会上，智谱 CEO 张鹏对《科创板日报》记者介绍，一季度智谱的 API 调用定价提升 83%，即便如此，市场依然呈现出供不应求的情况，调用量增长 400%。当前，智谱已成为国内付费 Token 消耗量最高的厂商之一。

关于涨价，张鹏此前在中关村论坛上回应称，长期依赖低价竞争不利于行业发展，调价旨在将价格拉回正常的商业价值区间。" 完成一个长程任务所需要的 Token 量可能是回答一个简单问题时的十倍甚至百倍，价格调整本质上是价值变化的自然结果。"

据张鹏介绍，智谱已经实现了 Token 在全球范围内的价值变现。目前，GLM 模型已全面部署于 Google Vertex AI、AWS Bedrock 等全球云服务商，并入驻 OpenRouter、Vercel 等国际主流模型聚合平台。

智谱 MaaS 商业化方面，MaaS API 平台实现 ARR 约 17 亿元（约 2.5 亿美金），同比提升 60 倍。

此外，《科创板日报》记者注意到，2026 年开年以来，国内 AI 行业已从过去的 " 价格战 " 转向 " 价值定价 "，一些底层算力与模型服务集体调价，主要包括：

腾讯云：3 月 11 日对自研混元 HY2.0 系列模型大幅调价， 4 月 9 日再次宣布 5 月 9 日起 AI 算力、容器服务等产品统一上调 5%。
阿里云：3 月 18 日宣布 4 月 18 日起，AI 算力相关产品价格上调 5%-34%，智算版存储产品上涨 30%。
百度智能云：3 月 18 日发布 AI 算力、存储等产品调价公告，AI 算力相关产品服务上调 5%-30%，并行文件存储价格上调约 30%。

本文转载自ZAKER，作者：ZAKER，原文标题：《大模型实现“ 8 小时工作制” !智谱 GLM-5.1 大幅提升长程任务能力》，原文链接： http://www.myzaker.com/article/69d83e4e8e9f090f6c040754。本平台仅做分享和推荐，不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题，请与我们联系，我们将在第一时间删除内容！

本文相关推荐

暂无相关推荐

点击立即订阅

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号