当前位置: 首页 > 行业资讯 > 资讯详情

智谱GLM-5技术论文全公开：长程Agent任务能力居开源之首

发布日期：2026-06-01 来源：量子位作者：量子位浏览：1

GLM-5是怎么炼成的？

现在，它背后的论文终于完全公开了。

论文的名字也很直接：告别Vibe Coding，迈入智能体工程（Agentic Engineering）。

也正如我们之前实测的那般，它可以自己连续跑代码超过24小时、700次工具调用、800次上下文切换，从零直接手搓一个Game Boy Advance（GBA）模拟器。

一言蔽之，GLM-5把开源AI拽进了长任务时代。

外国网友直呼"GLM-5是最好的开源模型"：

并且还认为"极大拉小了和Claude Opus 4.6之间的距离"

除此之外，资本市场的表现也是可以从侧面印证一家大模型公司的实力。

毕竟春节期间，智谱股价飙升的程度，毋庸置疑，大家有目共睹。

现如今，这份长达40页的论文，彻底揭开了它背后的一切技术秘密。亮点如下：

架构方面：在上一代经过验证的ARC（智能体、推理与编程）能力和MoE之上，引入DeepSeek同款稀疏注意力（DSA）；成本大幅打下来了的同时，长上下文能力却一点没丢。
后训练方面：全新构建的异步强化学习基础设施，把生成和训练解耦，加上独创的异步智能体RL算法，让效率大幅提升。
芯片适配方面：GLM-5完成了与华为昇腾、摩尔线程、海光、寒武纪、昆仑芯、沐曦以及燧原等国产芯片的全栈适配

这也让不少网友在看完论文之后直呼：

在成本效率方面，美国的AI赶不上中国。

接下来，就让我们一起深入扒一扒这篇让外国网友羡慕的技术论文。

GLM-5的三大关键技术

在深入技术之前，我们需要先理解GLM-5在技术发展当下所面临的难题，即大模型需要真正开始干复杂的难活儿了

因为在GLM-4.5时代，智谱已经证明了将ARC能力融合进单一MoE架构是完全可行的。

但当模型真正投入到复杂的软件工程、长周期多轮对话的真实业务中时，算力成本和真实环境适应性成为了老大难的问题。

GLM-5 的整体训练流程

GLM-5要解决的就是这些瓶颈。因此，它在核心技术方面祭出了三把板斧。

第一板斧：引入DeepSeek同款稀疏注意力机制

在Transformer架构中，传统的密集注意力计算复杂度是随着上下文长度呈平方级（O(N²)）增长的。

当上下文窗口扩展到200K甚至更长时，计算成本将变得极其昂贵，这成为限制智能体处理复杂任务的主要瓶颈。

GLM-5的解法是引入DSA这个动态稀疏注意力机制，它的核心理念是用动态的细粒度选择机制替换传统的密集注意力。与固定的滑动窗口模式不同，DSA 会"审视"内容，动态决定哪些Token是重要的。

然而，直接训练一个基于DSA的超大模型无异于走钢丝，很容易因为稀疏化带来的信息丢失而导致梯度爆炸或模型崩塌。

因此，GLM-5团队采取了一种极其巧妙的继续预训练策略，主要包含两个步骤：

稠密预热（Dense Warm-up）：模型并非一上来就搞稀疏。在预训练的初始阶段，模型依然使用相对稠密的注意力机制（类似于MLA的变体），让模型先看全所有的信息，建立起全局的、稳固的语义表征能力。这就好比一个人在学习速读之前，必须先扎扎实实地精读。
平滑过渡与稀疏训练（Sparse Training）：当模型具备了良好的基础后，开始逐步提高稀疏度。DSA的核心逻辑是：在计算当前Token的注意力时，不再关注历史上的所有Token，而是通过一个动态的路由机制（Routing Mechanism），只挑选出与之最相关的Top-K个Token进行计算。

MLA与DSA训练的SFT损失曲线对比

根据技术报告披露的数据，这一板斧砍下去，效果是立竿见影的：

KV Cache开销骤降75%：这意味着同样的显卡，现在可以支持4倍以上的并发请求，或者处理长达4倍的上下文。
推理速度提升3倍：注意力计算的FLOPS被大幅削减，首字响应时间（TTFT）和每秒生成Token数（TPS）都达到了行业顶尖水平。
长文本能力几乎无损：这是最令人不可思议的一点。在著名的大海捞针以及诸如RULER等长文本复杂推理评测中，引入DSA的GLM-5与全稠密模型相比，性能下降微乎其微（小于0.5%）。

第二板斧：异步多任务强化学习

如果说DSA解决的是推理成本问题，那么GLM-5的第二板斧，解决的就是训练效率问题，尤其是决定模型最终智商的后训练阶段。

当前业界主流的强化学习对齐算法依然是PPO（近端策略优化）。

标准的PPO是一个高度同步的过程，涉及到四个模型，即Actor生成模型、Reference参考模型、Critic评论家模型、Reward奖励模型在多台GPU上的协同。

这种"走一步，停一下"的同步机制，导致整个集群的GPU利用率经常徘徊在20%-30%左右，大部分算力都浪费在等待网络通信和进程同步上了。

为了打破这个瓶颈，智谱基于4.5时代的Slime框架，为GLM-5从底层重写了一套异步强化学习基础设施（Asynchronous RL Infrastructure）

它的核心设计是将训练引擎和推理引擎解耦到不同的GPU设备上。推理引擎持续生成轨迹，一旦生成数量达到预定阈值，这批数据就被发送到训练引擎更新模型。为减少策略滞后并保持训练的近似同策略性，推理引擎的模型权重会定期与训练侧同步。

这种完全异步的训练范式，通过减少Agent rollout期间的"气泡"时间，显著提升了GPU利用率和训练效率。

但要支撑这种异步架构，还有几个关键技术难题需要解决：

Token-in-Token-out（TITO）代替Text-in-Text-out。在RL rollout设置中，TITO意味着训练流程直接消费推理引擎生成的精确tokenization和解码token流来构建学习轨迹。相比之下，Text-in-Text-out将rollout引擎视为返回最终文本的黑箱，训练器需要重新tokenization重建轨迹。GLM-5实现了一个TITO网关，拦截rollout任务的所有生成请求并记录每个轨迹的tokenID和元数据。
直接双侧重要性采样解决离策略偏差。研究团队采用简化方案：将rollout期间生成的对数概率作为直接行为代理，通过计算重要性采样比，丢弃传统旧策略推理的计算开销。同时采用双侧校准token级掩码策略，将信任域限制在一定区间内。
DP感知路由加速长上下文推理。研究团队提出通过一致性哈希将每个rollout ID映射到固定数据并行（DP）rank，并结合哈希空间上的轻量级动态负载重新平衡。

这套异步RL基础设施支撑了GLM-5在多领域的混合RL训练：数学、科学、代码和工具集成推理（TIR）。

第三板斧：投喂真实世界数据

传统SFT数据往往依赖标准答案，但真实世界是复杂多变的。

为了让模型具备真正的工程能力，GLM-5的第三板斧，就是构建大量可验证的真实世界环境数据。整个SFT语料库涵盖三大类别：通用对话、推理、编程与Agent。

值得注意的是，GLM-5在SFT阶段将最大上下文长度扩展到202752个token，并支持三种不同的思考特征：交错思考、保留思考、轮级思考。

为了支持Agent RL，研究团队还构建了大规模的、可验证的可执行环境。

软件工程环境基于真实世界的Issue-PR对，采用RepoLaunch框架自动分析仓库安装和依赖设置，最终跨数千个仓库、涵盖9种编程语言，构建了超过10000个可验证环境。终端环境采用三阶段Agent数据合成流程，整体流程产出数千个多样化终端环境。

搜索任务构建Web知识图谱，以低至中频实体为种子节点扩展多跳邻域，经过三阶段过滤后获得高质量、高难度的多跳问答对。

PPT生成采用多层级奖励机制，最终生成的页面中严格符合16:9宽高比的比例从40%提升至92%，页面溢出显著减少。

大模型的测试也更难了

技术的进步最终需要经受评测的检验。

GLM-5的论文不仅展示了其在传统榜单上的成绩，更揭示了一个趋势：大模型的测试正在变得更难、更贴近真实。

在Humanity's Last Exam（HLE）、SWE-bench Verified、BrowseComp等关键榜单上，数据显示，GLM-5在SWE-bench Verified上得到77.8%，在开源模型中达到SOTA，优于Gemini 3 Pro，并与Claude Opus 4.5相当。在HLE（含工具）测试中，GLM-5得到50.4，优于Claude Opus 4.5和Gemini 3 Pro。

在Artificial Analysis Intelligence Index v4.0中，GLM-5得到50分，成为新的开源SOTA模型，这是开放权重模型首次在该指数中达到50分。

然而，智谱团队认为，传统的SWE-bench已经不够看了。因为它是一个静态、公开且发布超过2年的测试集，模型可能存在记忆效应。

为此，GLM-5团队推出了CC-Bench-V2，一个完全自动化的、模拟真实软件开发的评测集，涵盖前端、后端和长程任务。在前端评估中，团队引入了Agent-as-a-Judge技术，通过GUI Agent模拟用户交互，验证生成项目的功能正确性。

结果显示，GLM-5的构建成功率（BSR）达到98.0%，在检查项成功率（CSR）上与Claude Opus 4.5具备竞争力。

在后端评估中，GLM-5在真实开源项目上的Pass@1达到25.8%，与Claude Opus 4.5相当，显著领先于GLM-4.7。

这一系列评测结果释放了两个明确信号：

GLM-5 是开源界的第一个"全站工程师"，让 AI 能自主执行超长、超复杂的任务；
通过单体MoE架构统一Agent、推理与代码能力的可行性得到了验证，同时证明了RL在复杂代码生成中的巨大潜力。

One More Thing

在论文的最后，团队透露了一个有趣的彩蛋——Pony Alpha实验。

在论文公开前，GLM-5曾以Pony Alpha为代号，匿名发布在OpenRouter平台上。隐去品牌信息后，模型凭借卓越的性能在社区引发轰动。

初步统计显示，25%的用户推测它是Claude Sonnet 5，20%认为是Grok的新版本，仅有部分用户猜中了GLM-5。

这次匿名测试打破了先入为主的地缘偏见，让社区的认可回归到了"好用与否"这一最纯粹的技术本质。

最终确认Pony Alpha真身即是GLM-5，这对团队是一次巨大的鼓舞，也有力回击了长期以来外界对中国本土模型技术水准的质疑。

不仅如此，这次GLM-5论文公布之后，在海外已经有不少人当教程来学习了。

若是你也对此感兴趣，论文放下面了，一起学习一下吧~

GLM-5论文地址：https://arxiv.org/abs/2602.15763

本文转载自量子位，作者：量子位，原文标题：《智谱GLM-5技术论文全公开：长程Agent任务能力居开源之首》，原文链接： http://jxsmlw.cn/haerbin/65196c4d1fa4ceg.html。本平台仅做分享和推荐，不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题，请与我们联系，我们将在第一时间删除内容！

本文相关推荐

暂无相关推荐

点击立即订阅

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号