首页
产品服务
模型广场
Token工厂
算力市场算力商情行业资讯
注册

面壁智能用AI写出训练框架ForgeTrain 超越英伟达Megatron

发布日期:2026-05-28 来源:网易新闻作者:网易新闻浏览:1

面壁智能用 AI 写训练框架:ForgeTrain

  Anthropic 用 AI 写编译器。OpenAI 用 AI 写应用。英伟达用 AI 写深度学习系统。

  面壁智能用 AI 写了一个训练框架——ForgeTrain。

  在英伟达 H100 芯片上,ForgeTrain 比英伟达自己的 Megatron 框架还要快 10%。在华为昇腾芯片上,相比昇腾自身的框架 MindSpeed 也有 10% 的加速。

  全程零人工代码。已经跑通生产环境,训练出了 MiniCPM5-1B 文本模型,性能超过其他同尺寸模型。

  「百分百 AI 版 Megatron」,而且比原版还快。

Forge Engineering:按需锻造专属软件

  ForgeTrain 背后是面壁首创的编程范式 Forge Engineering。给什么芯片、什么场景,就现场「锻造」一套专属软件。ForgeTrain 是这个范式落地的第一个成果,解决的是训练框架这一环。

  训练大模型有多烧钱,不用多说。

  十万卡集群的成本开支接近顶级科技公司一年的现金流。北美电网新增容量已经被头部 AI 集群预订走了一大半。高质量文本数据接近耗尽,合成数据从可选变成了必选项。

  模型能力要持续提升,算力投入就要加倍。

  但国内 AI 公司面对的现实更残酷。高端芯片受限,单纯比拼 Scaling Law 的投入规模,难。

  怎么理解这件事?有一个简单的公式。

大模型能力的进步速度 = 每代跃迁幅度 / 单代研发周期。

  跃迁幅度受 Scaling Law 约束,工程端改变不了。唯一能被工程独立压缩的变量,就是单代研发周期。

  这就是面壁智能「AI 制造 AI」的出发点。让 AI 接管大模型研发流程中的更多环节,把单代研发周期从 18 个月压缩到 6 个月,再压缩到 1 个月。

  北美头部 AI 公司的应对方式分两种。一种是疯狂砸钱建算力集群。另一种是把 AI 塞进研发流程的每一道工序。

  面壁选了后者。

训练框架:制造大模型的“工厂”

  训练大模型需要一个框架来调度几千张 GPU 怎么分工、怎么通信、怎么同步。分布式计算、内存管理、数据加载、梯度同步、容错恢复,全靠这个框架协调。代码量大,工程复杂度高。

  举个例子。如果大模型是汽车,训练框架就是制造汽车的工厂。

  英伟达的 Megatron 是目前最主流的开源训练框架之一。英伟达不光卖 GPU,还配备了一整套工厂管理系统。全世界的大模型团队都在用。

  面壁智能让 AI 从零写了一个新的工厂管理系统。这就是 ForgeTrain,完全由 AI 编写的生产级训练框架。

ForgeTrain 架构示意图

ForgeTrain 架构示意图

MiniCPM5-1B:小模型,高密度

  划重点,面壁已经用 ForgeTrain 在华为昇腾系列上完成了 MiniCPM5-1B 的预训练。

  MiniCPM5-1B,不只是「能用」。

  1B 参数,在第三方大模型榜单 Artificial Analysis Intelligence Index(AA-Index)上超越了所有 2B 参数以下模型。

  三个月前发布的 Qwen3.5-2B,参数量是 MiniCPM5-1B 的两倍。但 MiniCPM5-1B 效果更好。

MiniCPM5-1B 表现数据

MiniCPM5-1B 表现数据

  面壁把这个趋势总结为「密度定律」。大模型的智能密度正在以「约每 3.5 个月翻一番」的速度持续提升。

  更小的模型,正在承载更高的智能密度。

  ForgeTrain 训练出来的 MiniCPM5-1B,就是这条定律的最新证据。

AI 编写大型系统软件:面壁率先落地

  「AI 写大型系统软件」这件事,北美御三家都在做。但 ForgeTrain 是第一个达到生产级、性能还反超基线的训练框架。

  今年 1 月,英伟达 NVLabs 发布了 VibeTensor。陈天奇、贾扬青等人主导。英伟达自己也让 AI 写了一个深度学习系统。但 VibeTensor 比 PyTorch 慢 1.7 到 6.2 倍。GitHub 首页写着,「本项目仅供智能体系统研究使用,请勿用于生产环境。」

VibeTensor 等信息图

VibeTensor 等信息图

  今年 2 月,Anthropic 发布了 Claude's C Compiler。16 个 Claude 智能体协作,两周写了 10 万行 Rust 代码的 C 编译器。能编译 Linux 6.9 内核,跨 x86、ARM、RISC-V 多个架构启动。但官方声明,「未经正确性验证,不建议生产使用。」汇编器和链接器在最后一步回退用了 GCC。

  同一个月,OpenAI 发布了 Harness Engineering。Codex 在 5 个月内生成了约 100 万行代码的内部工具产品,全程零手写代码。但定位是通用应用,不是 AI 工具链本身。

  他们都在探索同一个方向。但目前都还停留在实验阶段。

  能写出来,还能用于生产,性能还超过人类基线。在「AI 编写大型系统软件」上,面壁的 ForgeTrain 是独一份。

三阶段方法论:先模仿,再超越

  面壁把造出 ForgeTrain 的整套方法完全开源了。三个阶段。

  1. 第一阶段,采集「标准答案」。从 Torch/Megatron 采集关键数据,形成评测标准和测试规约(Harness)。相当于先拍一张标准照片,告诉 AI 正确答案长什么样。
  2. 第二阶段,逐比特复现。让 AI 生成的框架做到和参考实现二进制一致。同样的输入,每一个 bit 输出都一样。这一步是在确认 AI 真正理解了训练框架的每一个细节。目前 ForgeTrain 已经完成多机多卡版本。
  3. 第三阶段,解除约束,放手优化。确认 AI 理解正确后,不再要求一模一样,让 AI 自由发挥。最终速度超过 Megatron 10%。
三阶段方法论

三阶段方法论

AI 制造 AI 的五级分类

  面壁同时开源了制造 ForgeTrain 的 Agent Harness。据面壁团队介绍,8B 参数模型已经在内部完成了验证,接下来 MOE 架构也在排期中。从 1B 到 8B 再到更复杂的架构,底层 Harness 的复用性极高,扩展速度会越来越快。

  关于「AI 制造 AI」,面壁智能提出了一套五级分类。

  • L1,AI 给建议,人执行所有操作。GitHub Copilot 就在这一级。
  • L2,AI 辅助研发,处理具体环节的单点编码。Cursor、Claude Code 在这里。
  • L3,AI 端到端产出下一代模型。算法维度,前特斯拉 AI 总监 Andrej Karpathy 今年 3 月开源的 AutoResearcher 在这一层,630 行代码,让 AI 自主运行实验、调试参数、优化模型,48 小时完成约 700 次实验,提升 11% nanoGPT 训练效率。基础设施/算力维度,ForgeTrain 在这里,属于 L3+。
  • L4,AI 递归自改进。不只是调模型,而是改写造模型的工具链本身,实现自我进化。
  • L5,AI 自主设定议程,开放式探索学习。目前还没有代表成果。
AI 制造 AI 五级分类

AI 制造 AI 五级分类

  Karpathy 的 AutoResearcher 解决的是「用什么配方训练模型」,算法层面的 AI4AI。

  面壁 ForgeTrain 解决的是「用什么工厂训练模型」,基础设施层面的 AI4AI。

  两者互补。

  OpenAI 2024 年也提出过一套从 AI 到 AGI(通用人工智能)的五个发展阶段。OpenAI 的 L4 叫 Innovator(自主创新),面壁的 L4 是递归自改进。两套分级对上眼了。

Forge Engineering:一次性快照,按需生成

  AI 编程正在快速演化。最早的 Vibe Coding,写几十行脚本,一眼读完。然后 Spec Coding,按规范写几百上千行代码。再到 Harness Engineering,AI 开始接管大型系统软件的编写。

  但这三个阶段有一个共同点。代码仍然需要长期维护。有 main 分支,有发布节奏,有越来越厚的技术债。

  面壁的 Forge Engineering 更进一步。

  代码不再是「写一次用一辈子」,而是「按需打造的一次性快照」。同一份 Harness,在不同芯片、不同模型下,可以生成完全不同的多份实现。

  过去大型软件工程有一个老问题。「通用框架什么都能做,但针对特定硬件的性能可能不是最优。」手写优化代码性能,但每换一代芯片就要重写。通用性和效率不可兼得。

  Forge Engineering 给出的答案是,代码编写成本趋近于零后,两个都要。

  比如,「iPhone 是一个很好的通用产品,因为有苹果公司在打造它。但未来生产效率变高以后,相当于每个人身边都坐着一个乔布斯,用一天时间帮你定制一部满足你所有需求的手机。」

  Forge Engineering 想在软件层面做到这件事。

意义:加速 AGI,突破生态封锁

  ForgeTrain 的意义不止于一个训练框架。

  一旦「AI 研究 AI 的速度」超过了「人类研究 AI 的速度」,大模型的研发速度就从人力规模函数变成算力规模函数。这意味着 AGI 的实现速度有望进一步加快。

  算力可以被封锁,但工程效率不能。谁先让 AI 承担大部分研发工作,谁就能在更小的算力预算下维持同等研发节奏。

  我们之前就聊过,英伟达的真正护城河不是芯片本身,是围绕芯片建立的软件生态。CUDA 花了将近二十年,有上百万开发者参与。国产芯片硬件进步快,但软件生态一直是最大的短板。

  如果 Forge Engineering 的范式成立,未来每出一代新芯片,软件适配不再依赖人力堆积。面壁的目标是把大模型训练各环节的软件都用 AI 重写一遍。

  这对国产算力生态来说,是一个真正能落地的方案。

  AI 写的训练框架,在英伟达芯片上比英伟达自己的框架快 10%。

  这件事已经真真实实地发生了。

  面壁智能把三阶段方法论和 Agent Harness 全部开源。其他团队可以用同一套方法,给其他芯片锻造训练框架。

  ForgeTrain 开源地址:https://github.com/OpenBMB/ForgeTrain

  AI 制造 AI,不再是一个概念。

本文转载自网易新闻, 作者:网易新闻, 原文标题:《 面壁智能用AI写出训练框架ForgeTrain 超越英伟达Megatron 》, 原文链接: https://c.m.163.com/news/a/KTVSSQPT05568W0A.html。 本平台仅做分享和推荐,不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题,请与我们联系,我们将在第一时间删除内容!
本文相关推荐
暂无相关推荐
点击立即订阅