当前位置: 首页 > 行业资讯 > 资讯详情

面壁智能用AI写出训练框架ForgeTrain 超越英伟达Megatron

发布日期：2026-05-28 来源：网易新闻作者：网易新闻浏览：1

面壁智能用 AI 写训练框架：ForgeTrain

Anthropic 用 AI 写编译器。OpenAI 用 AI 写应用。英伟达用 AI 写深度学习系统。

面壁智能用 AI 写了一个训练框架——ForgeTrain。

在英伟达 H100 芯片上，ForgeTrain 比英伟达自己的 Megatron 框架还要快 10%。在华为昇腾芯片上，相比昇腾自身的框架 MindSpeed 也有 10% 的加速。

全程零人工代码。已经跑通生产环境，训练出了 MiniCPM5-1B 文本模型，性能超过其他同尺寸模型。

「百分百 AI 版 Megatron」，而且比原版还快。

Forge Engineering：按需锻造专属软件

ForgeTrain 背后是面壁首创的编程范式 Forge Engineering。给什么芯片、什么场景，就现场「锻造」一套专属软件。ForgeTrain 是这个范式落地的第一个成果，解决的是训练框架这一环。

训练大模型有多烧钱，不用多说。

十万卡集群的成本开支接近顶级科技公司一年的现金流。北美电网新增容量已经被头部 AI 集群预订走了一大半。高质量文本数据接近耗尽，合成数据从可选变成了必选项。

模型能力要持续提升，算力投入就要加倍。

但国内 AI 公司面对的现实更残酷。高端芯片受限，单纯比拼 Scaling Law 的投入规模，难。

怎么理解这件事？有一个简单的公式。

大模型能力的进步速度 = 每代跃迁幅度 / 单代研发周期。

跃迁幅度受 Scaling Law 约束，工程端改变不了。唯一能被工程独立压缩的变量，就是单代研发周期。

这就是面壁智能「AI 制造 AI」的出发点。让 AI 接管大模型研发流程中的更多环节，把单代研发周期从 18 个月压缩到 6 个月，再压缩到 1 个月。

北美头部 AI 公司的应对方式分两种。一种是疯狂砸钱建算力集群。另一种是把 AI 塞进研发流程的每一道工序。

面壁选了后者。

训练框架：制造大模型的“工厂”

训练大模型需要一个框架来调度几千张 GPU 怎么分工、怎么通信、怎么同步。分布式计算、内存管理、数据加载、梯度同步、容错恢复，全靠这个框架协调。代码量大，工程复杂度高。

举个例子。如果大模型是汽车，训练框架就是制造汽车的工厂。

英伟达的 Megatron 是目前最主流的开源训练框架之一。英伟达不光卖 GPU，还配备了一整套工厂管理系统。全世界的大模型团队都在用。

面壁智能让 AI 从零写了一个新的工厂管理系统。这就是 ForgeTrain，完全由 AI 编写的生产级训练框架。

ForgeTrain 架构示意图

MiniCPM5-1B：小模型，高密度

划重点，面壁已经用 ForgeTrain 在华为昇腾系列上完成了 MiniCPM5-1B 的预训练。

MiniCPM5-1B，不只是「能用」。

1B 参数，在第三方大模型榜单 Artificial Analysis Intelligence Index（AA-Index）上超越了所有 2B 参数以下模型。

三个月前发布的 Qwen3.5-2B，参数量是 MiniCPM5-1B 的两倍。但 MiniCPM5-1B 效果更好。

MiniCPM5-1B 表现数据

面壁把这个趋势总结为「密度定律」。大模型的智能密度正在以「约每 3.5 个月翻一番」的速度持续提升。

更小的模型，正在承载更高的智能密度。

ForgeTrain 训练出来的 MiniCPM5-1B，就是这条定律的最新证据。

AI 编写大型系统软件：面壁率先落地

「AI 写大型系统软件」这件事，北美御三家都在做。但 ForgeTrain 是第一个达到生产级、性能还反超基线的训练框架。

今年 1 月，英伟达 NVLabs 发布了 VibeTensor。陈天奇、贾扬青等人主导。英伟达自己也让 AI 写了一个深度学习系统。但 VibeTensor 比 PyTorch 慢 1.7 到 6.2 倍。GitHub 首页写着，「本项目仅供智能体系统研究使用，请勿用于生产环境。」

VibeTensor 等信息图

今年 2 月，Anthropic 发布了 Claude's C Compiler。16 个 Claude 智能体协作，两周写了 10 万行 Rust 代码的 C 编译器。能编译 Linux 6.9 内核，跨 x86、ARM、RISC-V 多个架构启动。但官方声明，「未经正确性验证，不建议生产使用。」汇编器和链接器在最后一步回退用了 GCC。

同一个月，OpenAI 发布了 Harness Engineering。Codex 在 5 个月内生成了约 100 万行代码的内部工具产品，全程零手写代码。但定位是通用应用，不是 AI 工具链本身。

他们都在探索同一个方向。但目前都还停留在实验阶段。

能写出来，还能用于生产，性能还超过人类基线。在「AI 编写大型系统软件」上，面壁的 ForgeTrain 是独一份。

三阶段方法论：先模仿，再超越

面壁把造出 ForgeTrain 的整套方法完全开源了。三个阶段。

第一阶段，采集「标准答案」。从 Torch/Megatron 采集关键数据，形成评测标准和测试规约（Harness）。相当于先拍一张标准照片，告诉 AI 正确答案长什么样。
第二阶段，逐比特复现。让 AI 生成的框架做到和参考实现二进制一致。同样的输入，每一个 bit 输出都一样。这一步是在确认 AI 真正理解了训练框架的每一个细节。目前 ForgeTrain 已经完成多机多卡版本。
第三阶段，解除约束，放手优化。确认 AI 理解正确后，不再要求一模一样，让 AI 自由发挥。最终速度超过 Megatron 10%。

三阶段方法论

AI 制造 AI 的五级分类

面壁同时开源了制造 ForgeTrain 的 Agent Harness。据面壁团队介绍，8B 参数模型已经在内部完成了验证，接下来 MOE 架构也在排期中。从 1B 到 8B 再到更复杂的架构，底层 Harness 的复用性极高，扩展速度会越来越快。

关于「AI 制造 AI」，面壁智能提出了一套五级分类。

L1，AI 给建议，人执行所有操作。GitHub Copilot 就在这一级。
L2，AI 辅助研发，处理具体环节的单点编码。Cursor、Claude Code 在这里。
L3，AI 端到端产出下一代模型。算法维度，前特斯拉 AI 总监 Andrej Karpathy 今年 3 月开源的 AutoResearcher 在这一层，630 行代码，让 AI 自主运行实验、调试参数、优化模型，48 小时完成约 700 次实验，提升 11% nanoGPT 训练效率。基础设施/算力维度，ForgeTrain 在这里，属于 L3+。
L4，AI 递归自改进。不只是调模型，而是改写造模型的工具链本身，实现自我进化。
L5，AI 自主设定议程，开放式探索学习。目前还没有代表成果。

AI 制造 AI 五级分类

Karpathy 的 AutoResearcher 解决的是「用什么配方训练模型」，算法层面的 AI4AI。

面壁 ForgeTrain 解决的是「用什么工厂训练模型」，基础设施层面的 AI4AI。

两者互补。

OpenAI 2024 年也提出过一套从 AI 到 AGI（通用人工智能）的五个发展阶段。OpenAI 的 L4 叫 Innovator（自主创新），面壁的 L4 是递归自改进。两套分级对上眼了。

Forge Engineering：一次性快照，按需生成

AI 编程正在快速演化。最早的 Vibe Coding，写几十行脚本，一眼读完。然后 Spec Coding，按规范写几百上千行代码。再到 Harness Engineering，AI 开始接管大型系统软件的编写。

但这三个阶段有一个共同点。代码仍然需要长期维护。有 main 分支，有发布节奏，有越来越厚的技术债。

面壁的 Forge Engineering 更进一步。

代码不再是「写一次用一辈子」，而是「按需打造的一次性快照」。同一份 Harness，在不同芯片、不同模型下，可以生成完全不同的多份实现。

过去大型软件工程有一个老问题。「通用框架什么都能做，但针对特定硬件的性能可能不是最优。」手写优化代码性能，但每换一代芯片就要重写。通用性和效率不可兼得。

Forge Engineering 给出的答案是，代码编写成本趋近于零后，两个都要。

比如，「iPhone 是一个很好的通用产品，因为有苹果公司在打造它。但未来生产效率变高以后，相当于每个人身边都坐着一个乔布斯，用一天时间帮你定制一部满足你所有需求的手机。」

Forge Engineering 想在软件层面做到这件事。

意义：加速 AGI，突破生态封锁

ForgeTrain 的意义不止于一个训练框架。

一旦「AI 研究 AI 的速度」超过了「人类研究 AI 的速度」，大模型的研发速度就从人力规模函数变成算力规模函数。这意味着 AGI 的实现速度有望进一步加快。

算力可以被封锁，但工程效率不能。谁先让 AI 承担大部分研发工作，谁就能在更小的算力预算下维持同等研发节奏。

我们之前就聊过，英伟达的真正护城河不是芯片本身，是围绕芯片建立的软件生态。CUDA 花了将近二十年，有上百万开发者参与。国产芯片硬件进步快，但软件生态一直是最大的短板。

如果 Forge Engineering 的范式成立，未来每出一代新芯片，软件适配不再依赖人力堆积。面壁的目标是把大模型训练各环节的软件都用 AI 重写一遍。

这对国产算力生态来说，是一个真正能落地的方案。

AI 写的训练框架，在英伟达芯片上比英伟达自己的框架快 10%。

这件事已经真真实实地发生了。

面壁智能把三阶段方法论和 Agent Harness 全部开源。其他团队可以用同一套方法，给其他芯片锻造训练框架。

ForgeTrain 开源地址：https://github.com/OpenBMB/ForgeTrain

AI 制造 AI，不再是一个概念。

本文转载自网易新闻，作者：网易新闻，原文标题：《面壁智能用AI写出训练框架ForgeTrain 超越英伟达Megatron 》，原文链接： https://c.m.163.com/news/a/KTVSSQPT05568W0A.html。本平台仅做分享和推荐，不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题，请与我们联系，我们将在第一时间删除内容！

本文相关推荐

暂无相关推荐

点击立即订阅

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号