智算多多
官方邮箱:service@zsdodo.com

公司地址:北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部


京公网安备11010602202532号 Anthropic 用 AI 写编译器。OpenAI 用 AI 写应用。英伟达用 AI 写深度学习系统。
面壁智能用 AI 写了一个训练框架——ForgeTrain。
在英伟达 H100 芯片上,ForgeTrain 比英伟达自己的 Megatron 框架还要快 10%。在华为昇腾芯片上,相比昇腾自身的框架 MindSpeed 也有 10% 的加速。
全程零人工代码。已经跑通生产环境,训练出了 MiniCPM5-1B 文本模型,性能超过其他同尺寸模型。
「百分百 AI 版 Megatron」,而且比原版还快。
ForgeTrain 背后是面壁首创的编程范式 Forge Engineering。给什么芯片、什么场景,就现场「锻造」一套专属软件。ForgeTrain 是这个范式落地的第一个成果,解决的是训练框架这一环。
训练大模型有多烧钱,不用多说。
十万卡集群的成本开支接近顶级科技公司一年的现金流。北美电网新增容量已经被头部 AI 集群预订走了一大半。高质量文本数据接近耗尽,合成数据从可选变成了必选项。
模型能力要持续提升,算力投入就要加倍。
但国内 AI 公司面对的现实更残酷。高端芯片受限,单纯比拼 Scaling Law 的投入规模,难。
怎么理解这件事?有一个简单的公式。
大模型能力的进步速度 = 每代跃迁幅度 / 单代研发周期。
跃迁幅度受 Scaling Law 约束,工程端改变不了。唯一能被工程独立压缩的变量,就是单代研发周期。
这就是面壁智能「AI 制造 AI」的出发点。让 AI 接管大模型研发流程中的更多环节,把单代研发周期从 18 个月压缩到 6 个月,再压缩到 1 个月。
北美头部 AI 公司的应对方式分两种。一种是疯狂砸钱建算力集群。另一种是把 AI 塞进研发流程的每一道工序。
面壁选了后者。
训练大模型需要一个框架来调度几千张 GPU 怎么分工、怎么通信、怎么同步。分布式计算、内存管理、数据加载、梯度同步、容错恢复,全靠这个框架协调。代码量大,工程复杂度高。
举个例子。如果大模型是汽车,训练框架就是制造汽车的工厂。
英伟达的 Megatron 是目前最主流的开源训练框架之一。英伟达不光卖 GPU,还配备了一整套工厂管理系统。全世界的大模型团队都在用。
面壁智能让 AI 从零写了一个新的工厂管理系统。这就是 ForgeTrain,完全由 AI 编写的生产级训练框架。
ForgeTrain 架构示意图
划重点,面壁已经用 ForgeTrain 在华为昇腾系列上完成了 MiniCPM5-1B 的预训练。
MiniCPM5-1B,不只是「能用」。
1B 参数,在第三方大模型榜单 Artificial Analysis Intelligence Index(AA-Index)上超越了所有 2B 参数以下模型。
三个月前发布的 Qwen3.5-2B,参数量是 MiniCPM5-1B 的两倍。但 MiniCPM5-1B 效果更好。
MiniCPM5-1B 表现数据
面壁把这个趋势总结为「密度定律」。大模型的智能密度正在以「约每 3.5 个月翻一番」的速度持续提升。
更小的模型,正在承载更高的智能密度。
ForgeTrain 训练出来的 MiniCPM5-1B,就是这条定律的最新证据。
「AI 写大型系统软件」这件事,北美御三家都在做。但 ForgeTrain 是第一个达到生产级、性能还反超基线的训练框架。
今年 1 月,英伟达 NVLabs 发布了 VibeTensor。陈天奇、贾扬青等人主导。英伟达自己也让 AI 写了一个深度学习系统。但 VibeTensor 比 PyTorch 慢 1.7 到 6.2 倍。GitHub 首页写着,「本项目仅供智能体系统研究使用,请勿用于生产环境。」
VibeTensor 等信息图
今年 2 月,Anthropic 发布了 Claude's C Compiler。16 个 Claude 智能体协作,两周写了 10 万行 Rust 代码的 C 编译器。能编译 Linux 6.9 内核,跨 x86、ARM、RISC-V 多个架构启动。但官方声明,「未经正确性验证,不建议生产使用。」汇编器和链接器在最后一步回退用了 GCC。
同一个月,OpenAI 发布了 Harness Engineering。Codex 在 5 个月内生成了约 100 万行代码的内部工具产品,全程零手写代码。但定位是通用应用,不是 AI 工具链本身。
他们都在探索同一个方向。但目前都还停留在实验阶段。
能写出来,还能用于生产,性能还超过人类基线。在「AI 编写大型系统软件」上,面壁的 ForgeTrain 是独一份。
面壁把造出 ForgeTrain 的整套方法完全开源了。三个阶段。
三阶段方法论
面壁同时开源了制造 ForgeTrain 的 Agent Harness。据面壁团队介绍,8B 参数模型已经在内部完成了验证,接下来 MOE 架构也在排期中。从 1B 到 8B 再到更复杂的架构,底层 Harness 的复用性极高,扩展速度会越来越快。
关于「AI 制造 AI」,面壁智能提出了一套五级分类。
AI 制造 AI 五级分类
Karpathy 的 AutoResearcher 解决的是「用什么配方训练模型」,算法层面的 AI4AI。
面壁 ForgeTrain 解决的是「用什么工厂训练模型」,基础设施层面的 AI4AI。
两者互补。
OpenAI 2024 年也提出过一套从 AI 到 AGI(通用人工智能)的五个发展阶段。OpenAI 的 L4 叫 Innovator(自主创新),面壁的 L4 是递归自改进。两套分级对上眼了。
AI 编程正在快速演化。最早的 Vibe Coding,写几十行脚本,一眼读完。然后 Spec Coding,按规范写几百上千行代码。再到 Harness Engineering,AI 开始接管大型系统软件的编写。
但这三个阶段有一个共同点。代码仍然需要长期维护。有 main 分支,有发布节奏,有越来越厚的技术债。
面壁的 Forge Engineering 更进一步。
代码不再是「写一次用一辈子」,而是「按需打造的一次性快照」。同一份 Harness,在不同芯片、不同模型下,可以生成完全不同的多份实现。
过去大型软件工程有一个老问题。「通用框架什么都能做,但针对特定硬件的性能可能不是最优。」手写优化代码性能,但每换一代芯片就要重写。通用性和效率不可兼得。
Forge Engineering 给出的答案是,代码编写成本趋近于零后,两个都要。
比如,「iPhone 是一个很好的通用产品,因为有苹果公司在打造它。但未来生产效率变高以后,相当于每个人身边都坐着一个乔布斯,用一天时间帮你定制一部满足你所有需求的手机。」
Forge Engineering 想在软件层面做到这件事。
ForgeTrain 的意义不止于一个训练框架。
一旦「AI 研究 AI 的速度」超过了「人类研究 AI 的速度」,大模型的研发速度就从人力规模函数变成算力规模函数。这意味着 AGI 的实现速度有望进一步加快。
算力可以被封锁,但工程效率不能。谁先让 AI 承担大部分研发工作,谁就能在更小的算力预算下维持同等研发节奏。
我们之前就聊过,英伟达的真正护城河不是芯片本身,是围绕芯片建立的软件生态。CUDA 花了将近二十年,有上百万开发者参与。国产芯片硬件进步快,但软件生态一直是最大的短板。
如果 Forge Engineering 的范式成立,未来每出一代新芯片,软件适配不再依赖人力堆积。面壁的目标是把大模型训练各环节的软件都用 AI 重写一遍。
这对国产算力生态来说,是一个真正能落地的方案。
AI 写的训练框架,在英伟达芯片上比英伟达自己的框架快 10%。
这件事已经真真实实地发生了。
面壁智能把三阶段方法论和 Agent Harness 全部开源。其他团队可以用同一套方法,给其他芯片锻造训练框架。
ForgeTrain 开源地址:https://github.com/OpenBMB/ForgeTrain
AI 制造 AI,不再是一个概念。
