智算多多
官方邮箱:service@zsdodo.com

公司地址:北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部


京公网安备11010602202532号 现在,它背后的论文终于完全公开了。
论文的名字也很直接:告别Vibe Coding,迈入智能体工程(Agentic Engineering)。
也正如我们之前实测的那般,它可以自己连续跑代码超过24小时、700次工具调用、800次上下文切换,从零直接手搓一个Game Boy Advance(GBA)模拟器。
一言蔽之,GLM-5把开源AI拽进了长任务时代。
外国网友直呼"GLM-5是最好的开源模型":
并且还认为"极大拉小了和Claude Opus 4.6之间的距离"
除此之外,资本市场的表现也是可以从侧面印证一家大模型公司的实力。
毕竟春节期间,智谱股价飙升的程度,毋庸置疑,大家有目共睹。
现如今,这份长达40页的论文,彻底揭开了它背后的一切技术秘密。亮点如下:
这也让不少网友在看完论文之后直呼:
在成本效率方面,美国的AI赶不上中国。
接下来,就让我们一起深入扒一扒这篇让外国网友羡慕的技术论文。
在深入技术之前,我们需要先理解GLM-5在技术发展当下所面临的难题,即大模型需要真正开始干复杂的难活儿了
因为在GLM-4.5时代,智谱已经证明了将ARC能力融合进单一MoE架构是完全可行的。
但当模型真正投入到复杂的软件工程、长周期多轮对话的真实业务中时,算力成本和真实环境适应性成为了老大难的问题。
GLM-5要解决的就是这些瓶颈。因此,它在核心技术方面祭出了三把板斧。
在Transformer架构中,传统的密集注意力计算复杂度是随着上下文长度呈平方级(O(N²))增长的。
当上下文窗口扩展到200K甚至更长时,计算成本将变得极其昂贵,这成为限制智能体处理复杂任务的主要瓶颈。
GLM-5的解法是引入DSA这个动态稀疏注意力机制,它的核心理念是用动态的细粒度选择机制替换传统的密集注意力。与固定的滑动窗口模式不同,DSA 会"审视"内容,动态决定哪些Token是重要的。
然而,直接训练一个基于DSA的超大模型无异于走钢丝,很容易因为稀疏化带来的信息丢失而导致梯度爆炸或模型崩塌。
因此,GLM-5团队采取了一种极其巧妙的继续预训练策略,主要包含两个步骤:
MLA与DSA训练的SFT损失曲线对比
根据技术报告披露的数据,这一板斧砍下去,效果是立竿见影的:
如果说DSA解决的是推理成本问题,那么GLM-5的第二板斧,解决的就是训练效率问题,尤其是决定模型最终智商的后训练阶段。
当前业界主流的强化学习对齐算法依然是PPO(近端策略优化)。
标准的PPO是一个高度同步的过程,涉及到四个模型,即Actor生成模型、Reference参考模型、Critic评论家模型、Reward奖励模型在多台GPU上的协同。
这种"走一步,停一下"的同步机制,导致整个集群的GPU利用率经常徘徊在20%-30%左右,大部分算力都浪费在等待网络通信和进程同步上了。
为了打破这个瓶颈,智谱基于4.5时代的Slime框架,为GLM-5从底层重写了一套异步强化学习基础设施(Asynchronous RL Infrastructure)
它的核心设计是将训练引擎和推理引擎解耦到不同的GPU设备上。推理引擎持续生成轨迹,一旦生成数量达到预定阈值,这批数据就被发送到训练引擎更新模型。为减少策略滞后并保持训练的近似同策略性,推理引擎的模型权重会定期与训练侧同步。
这种完全异步的训练范式,通过减少Agent rollout期间的"气泡"时间,显著提升了GPU利用率和训练效率。
但要支撑这种异步架构,还有几个关键技术难题需要解决:
这套异步RL基础设施支撑了GLM-5在多领域的混合RL训练:数学、科学、代码和工具集成推理(TIR)。
传统SFT数据往往依赖标准答案,但真实世界是复杂多变的。
为了让模型具备真正的工程能力,GLM-5的第三板斧,就是构建大量可验证的真实世界环境数据。整个SFT语料库涵盖三大类别:通用对话、推理、编程与Agent。
值得注意的是,GLM-5在SFT阶段将最大上下文长度扩展到202752个token,并支持三种不同的思考特征:交错思考、保留思考、轮级思考。
为了支持Agent RL,研究团队还构建了大规模的、可验证的可执行环境。
软件工程环境基于真实世界的Issue-PR对,采用RepoLaunch框架自动分析仓库安装和依赖设置,最终跨数千个仓库、涵盖9种编程语言,构建了超过10000个可验证环境。终端环境采用三阶段Agent数据合成流程,整体流程产出数千个多样化终端环境。
搜索任务构建Web知识图谱,以低至中频实体为种子节点扩展多跳邻域,经过三阶段过滤后获得高质量、高难度的多跳问答对。
PPT生成采用多层级奖励机制,最终生成的页面中严格符合16:9宽高比的比例从40%提升至92%,页面溢出显著减少。
技术的进步最终需要经受评测的检验。
GLM-5的论文不仅展示了其在传统榜单上的成绩,更揭示了一个趋势:大模型的测试正在变得更难、更贴近真实。
在Humanity's Last Exam(HLE)、SWE-bench Verified、BrowseComp等关键榜单上,数据显示,GLM-5在SWE-bench Verified上得到77.8%,在开源模型中达到SOTA,优于Gemini 3 Pro,并与Claude Opus 4.5相当。在HLE(含工具)测试中,GLM-5得到50.4,优于Claude Opus 4.5和Gemini 3 Pro。
在Artificial Analysis Intelligence Index v4.0中,GLM-5得到50分,成为新的开源SOTA模型,这是开放权重模型首次在该指数中达到50分。
然而,智谱团队认为,传统的SWE-bench已经不够看了。因为它是一个静态、公开且发布超过2年的测试集,模型可能存在记忆效应。
为此,GLM-5团队推出了CC-Bench-V2,一个完全自动化的、模拟真实软件开发的评测集,涵盖前端、后端和长程任务。在前端评估中,团队引入了Agent-as-a-Judge技术,通过GUI Agent模拟用户交互,验证生成项目的功能正确性。
结果显示,GLM-5的构建成功率(BSR)达到98.0%,在检查项成功率(CSR)上与Claude Opus 4.5具备竞争力。
在后端评估中,GLM-5在真实开源项目上的Pass@1达到25.8%,与Claude Opus 4.5相当,显著领先于GLM-4.7。
这一系列评测结果释放了两个明确信号:
在论文的最后,团队透露了一个有趣的彩蛋——Pony Alpha实验。
在论文公开前,GLM-5曾以Pony Alpha为代号,匿名发布在OpenRouter平台上。隐去品牌信息后,模型凭借卓越的性能在社区引发轰动。
初步统计显示,25%的用户推测它是Claude Sonnet 5,20%认为是Grok的新版本,仅有部分用户猜中了GLM-5。
这次匿名测试打破了先入为主的地缘偏见,让社区的认可回归到了"好用与否"这一最纯粹的技术本质。
最终确认Pony Alpha真身即是GLM-5,这对团队是一次巨大的鼓舞,也有力回击了长期以来外界对中国本土模型技术水准的质疑。
不仅如此,这次GLM-5论文公布之后,在海外已经有不少人当教程来学习了。
若是你也对此感兴趣,论文放下面了,一起学习一下吧~
GLM-5论文地址:https://arxiv.org/abs/2602.15763
