首页
智算服务
AI 生态大厅
算力商情政策资讯合作与生态场景方案关于我们

大模型实现“ 8 小时工作制” !智谱 GLM-5.1 大幅提升长程任务能力

发布日期:2026-04-10 来源:ZAKER作者:ZAKER

实测 GLM-5.1

  关于 GLM-5.1 的智能水平,智谱团队告诉《科创板日报》记者,GLM-5.1 提高了代码能力,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同,它能够在一次任务中独立、持续工作超过 8 小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。

  代码能力是模型智能水平进一步提升的关键。据悉,在业内最具代表性的三个代码评测基准的平均结果中,包括衡量模型专业软件开发工作的 SWE-Bench Pro、操作命令行解决问题的 Terminal-Bench 2.0、从零构建完整代码仓库的 NL2Repo,GLM-5.1 取得全球模型第三、国产模型第一、开源模型第一。

  这也代表了大模型演进到现在的趋势之一,过去两年,行业用 Benchmark 衡量模型有多智能。上述智谱团队向《科创板日报》记者判断,下一阶段的衡量标准应该是 " 能工作多久 ",即模型在 Long-Horizon Task 中的表现,能独立完成多长时间的人类任务。

  2025 年 3 月,AI 安全研究机构 METR 提出了一个改变行业认知的指标:任务完成时间线(Task-Completion Time Horizon)——不再衡量模型 " 多聪明 ",而是衡量它能独立完成多长时间的人类任务。研究显示,前沿模型的时间线每 7 个月翻一倍。这条指数曲线被 MIT Technology Review 称为 "AI 领域最重要的一张图 ",Sequoia Capital 据此在 2026 年初宣告 " 这就是 AGI"。

  在长程任务中保持稳定输出,模型面对的不只是更大代码量,而是一连串复杂的工程决策点:主动跑 benchmark、定位瓶颈、修改方案、再跑测试。这对模型提出更高的要求,需要像人类工程师一样,形成 " 实验→分析→优化 " 的完整闭环,而不是写完代码停下来等人打分。

  《科创板日报》记者用开发者工具实测了 GLM-5.1,测试案例如下:有一个专门考验 AI 编程能力的测试,任务是让 AI 做出一个能快速检索海量数据的系统,当时最强的成绩是 Claude Opus 4.6 创造的。

  实测显示,智谱 GLM-5.1 在持续进行六百多次优化、六千多次操作后,性能还在不断提升,最终速度达到了之前最好成绩的 6 倍。

智谱 GLM 再度提价 10%

  性能提升的同时,智谱在价格层面也与海外厂商看齐,这也是国产模型价格首次对齐海外,模型聚合平台 OpenRouter 显示,智谱 GLM 再度提价 10%。调价后,GLM-5.1 在 Coding 场景的缓存命中 Token 价格已接近 Anthropic 旗下 Claude Sonnet 4.6。

  这不是智谱第一次涨价,此前,智谱 2 月 12 日发布 GLM Coding Plan 价格调整函称, GLM Coding Plan 市场需求持续强劲增长,用户规模与调用量快速提升。公司决定对 GLM Coding Plan 套餐价格进行结构性调整,整体涨幅自 30% 起。

  《科创板日报》记者此前独家获悉,海外版 GLM-5 定价涨幅高于国内:Coding plan 订阅价格提高 30%-60%,API 调用价格提升 67%-100%。

  此举为国产大模型 2026 年以来首次大幅提价。

  一年前,行业还深陷 " 价格战 ",普遍降价九成以上争夺份额。智谱为何敢于反向操作?

  从核心动因看,需求端爆发是直接推手。GLM Coding Plan 聚焦开发者代码生成、编程辅助场景,市场需求持续旺盛,用户规模、接口调用量双双快速攀升,平台长期处于高负载运行状态,对算力调度、服务稳定性、响应效率的要求显著提高,需求增速超出原有资源规划与承载能力。

  在智谱 2025 年业绩说明会上,智谱 CEO 张鹏对《科创板日报》记者介绍,一季度智谱的 API 调用定价提升 83%,即便如此,市场依然呈现出供不应求的情况,调用量增长 400%。当前,智谱已成为国内付费 Token 消耗量最高的厂商之一。

  关于涨价,张鹏此前在中关村论坛上回应称,长期依赖低价竞争不利于行业发展,调价旨在将价格拉回正常的商业价值区间。" 完成一个长程任务所需要的 Token 量可能是回答一个简单问题时的十倍甚至百倍,价格调整本质上是价值变化的自然结果。"

  据张鹏介绍,智谱已经实现了 Token 在全球范围内的价值变现。目前,GLM 模型已全面部署于 Google Vertex AI、AWS Bedrock 等全球云服务商,并入驻 OpenRouter、Vercel 等国际主流模型聚合平台。

  智谱 MaaS 商业化方面,MaaS API 平台实现 ARR 约 17 亿元(约 2.5 亿美金),同比提升 60 倍。

  此外,《科创板日报》记者注意到,2026 年开年以来,国内 AI 行业已从过去的 " 价格战 " 转向 " 价值定价 ",一些底层算力与模型服务集体调价,主要包括:

  • 腾讯云:3 月 11 日对自研混元 HY2.0 系列模型大幅调价, 4 月 9 日再次宣布 5 月 9 日起 AI 算力、容器服务等产品统一上调 5%。
  • 阿里云:3 月 18 日宣布 4 月 18 日起,AI 算力相关产品价格上调 5%-34%,智算版存储产品上涨 30%。
  • 百度智能云:3 月 18 日发布 AI 算力、存储等产品调价公告,AI 算力相关产品服务上调 5%-30%,并行文件存储价格上调约 30%。
本文转载自ZAKER, 作者:ZAKER, 原文标题:《 大模型实现“ 8 小时工作制” !智谱 GLM-5.1 大幅提升长程任务能力 》, 原文链接: http://www.myzaker.com/article/69d83e4e8e9f090f6c040754。 本平台仅做分享和推荐,不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题,请与我们联系,我们将在第一时间删除内容!
本文相关推荐
暂无相关推荐