分布式训练有望解决人工智能的能耗难题

当前位置: 首页 > 政策资讯 > 资讯详情

分布式训练有望解决人工智能的能耗难题

发布日期：2026-04-08 来源：腾讯网作者：腾讯网

人工智能正面临着巨大的能源消耗挑战

人工智能正面临着巨大的能源消耗挑战。这种持续增长的能源需求体现在支撑AI繁荣的数据中心产生的巨大碳足迹，以及前沿AI模型训练所产生的碳排放量随时间稳步增加。

难怪大型科技公司开始青睐核能，设想一个由可靠、无碳能源支撑的未来。但是，虽然核动力数据中心可能还需要数年时间才能实现，研究和工业领域的一些人正在立即采取行动来抑制AI不断增长的能源需求。他们正在解决训练这一模型生命周期中最耗能的阶段之一，重点关注去中心化。

利用分布式网络重新定义AI训练

去中心化将模型训练分配到独立节点网络中，而不是依赖单一平台或提供商。它让计算能力可以去到能源所在的地方——无论是坐落在研究实验室中的闲置服务器，还是太阳能供电家庭中的计算机。去中心化不是建造更多需要电网扩大基础设施和容量的数据中心，而是利用现有来源的能源，避免增加更多电力消耗。

训练AI模型是一项巨大的数据中心运动，需要在紧密连接的GPU集群间同步进行。但随着硬件改进难以跟上大语言模型规模的快速增长，即使是大规模的单一数据中心也不再够用。

科技公司正转向多个数据中心的集合力量——无论其位置如何。例如，英伟达推出了Spectrum-XGS以太网用于跨规模网络，它"可以为跨地理分离数据中心的大规模单一作业AI训练和推理提供所需的性能"。同样，思科推出了其8223路由器，旨在"连接地理分散的AI集群"。

其他公司正在挖掘服务器中的闲置计算资源，催生了GPU即服务业务模式的兴起。以Akash网络为例，这是一个点对点云计算市场，自称为"数据中心的Airbnb"。那些在办公室和较小数据中心拥有未使用或使用不足GPU的人注册为提供商，而那些需要计算能力的人被视为租户，可以在提供商中选择并租用他们的GPU。

“如果你看看今天的AI训练，它非常依赖最新最好的GPU。幸运的是，世界正在转型，从仅依赖大型高密度GPU转向现在考虑较小的GPU。”

算法创新支撑分布式学习

除了协调硬件外，去中心化AI训练还需要在软件方面进行算法更改。这就是联邦学习——一种分布式机器学习形式——发挥作用的地方。

它从驻留在可信实体（如中央服务器）中的全局AI模型的初始版本开始。麻省理工学院计算机科学与人工智能实验室(CSAIL)首席研究科学家、去中心化信息小组负责人Lalana Kagal解释说，服务器将模型分发给参与组织，这些组织在本地数据上训练模型，并仅与可信实体共享模型权重。然后，可信实体聚合权重（通常通过平均），将它们集成到全局模型中，并将更新的模型发送回参与者。这种协作训练循环重复进行，直到模型被认为完全训练完成。

但分布数据和计算也有缺点。例如，模型权重的持续来回交换导致高通信成本。容错是另一个问题。

“AI的一个重大问题是每个训练步骤都不具备容错性。这意味着如果一个节点宕机，你必须重新恢复整个批次。”

为了克服这些障碍，谷歌DeepMind的研究人员开发了DiLoCo，一种分布式低通信优化算法。DiLoCo形成了谷歌DeepMind研究科学家Arthur Douillard所称的"计算岛"，每个岛由一组芯片组成。每个岛持有不同的芯片类型，但岛内的芯片必须是同一类型。岛之间彼此解耦，它们之间的知识同步偶尔发生。这种解耦意味着岛可以独立执行训练步骤而不需要经常通信，芯片可以故障而不必中断剩余的健康芯片。然而，团队的实验发现在八个岛之后性能递减。

一个改进版本称为Streaming DiLoCo，通过"以流式方式跨几个步骤同步知识而无需停止通信"进一步减少了带宽需求，Douillard说。这种机制类似于在视频尚未完全下载时就能观看视频。"在Streaming DiLoCo中，当你进行计算工作时，知识在后台逐渐同步，"他补充道。

AI开发平台Prime Intellect实施了DiLoCo算法的一个变体，作为其跨五个国家三大洲训练的100亿参数INTELLECT-1模型的重要组成部分。更进一步，去中心化AI操作系统制造商0G Labs调整了DiLoCo来在带宽有限的分离集群网络下训练1070亿参数基础模型。与此同时，流行的开源深度学习框架PyTorch将DiLoCo包含在其容错技术存储库中。

“社区做了大量工程工作来采用我们的DiLoCo论文并将其集成到通过消费级互联网学习的系统中。看到我的研究如此有用，我感到非常兴奋。”

开启可持续AI发展新路径

随着硬件和软件增强到位，去中心化AI训练准备好帮助解决AI的能源问题。麻省理工学院CSAIL的Kagal说，这种方法提供了"以更便宜、更资源高效、更节能的方式"训练模型的选择。

虽然Douillard承认"像DiLoCo这样的训练方法可以说更复杂，但它们提供了系统效率的有趣权衡"。例如，你现在可以使用相距很远的数据中心，而无需在它们之间建立超高速带宽。Douillard补充说，容错是内置的，因为"芯片故障的爆炸半径仅限于其计算岛"。

更好的是，公司可以利用现有的未充分利用的处理能力，而不是持续建造新的耗能数据中心。Akash大力押注这样的机会，创建了其Starcluster程序。该程序的目标之一涉及利用太阳能供电的家庭，并使用其中的台式机和笔记本电脑来训练AI模型。Osuri说："我们想把你的家转换成一个功能齐全的数据中心。"

Osuri承认参与Starcluster并非易事。除了太阳能板和配备消费级GPU的设备外，参与者还需要投资电池作为备用电源和冗余互联网以防止停机。Starcluster程序正在寻找将所有这些方面打包在一起并让房主更容易参与的方法，包括与行业合作伙伴合作补贴电池成本。

后端工作已经在进行，以使家庭能够作为Akash网络的提供商参与，团队希望在2027年达到目标。Starcluster程序还设想扩展到其他太阳能供电的地点，如学校和当地社区场所。

去中心化AI训练很有希望引导AI走向更环保可持续的未来。对Osuri来说，这种潜力在于将AI"移到能源所在的地方，而不是将能源移到AI所在的地方"。

Q&A

Q1：什么是去中心化AI训练？

去中心化AI训练是将模型训练分配到独立节点网络中，而不是依赖单一平台或提供商。它让计算能力可以去到能源所在的地方，比如研究实验室的闲置服务器或太阳能供电家庭的计算机，从而避免建造更多耗能数据中心。

Q2：DiLoCo算法是如何工作的？

DiLoCo是谷歌DeepMind开发的分布式低通信优化算法。它形成"计算岛"，每个岛由同类型芯片组成，岛之间解耦运行，偶尔同步知识。这样岛可以独立训练而不需要频繁通信，芯片故障也不会影响其他健康芯片。

Q3：Akash网络的Starcluster程序是什么？

Starcluster是Akash网络推出的程序，旨在将太阳能供电的家庭转换为功能齐全的数据中心。参与者需要太阳能板、配备消费级GPU的设备、备用电池和冗余互联网。该程序计划到2027年实现目标，还将扩展到学校等其他太阳能供电场所。

本文转载自腾讯网，作者：腾讯网，原文标题：《分布式训练有望解决人工智能的能耗难题》，原文链接： https://new.qq.com/rain/a/20260408A045GB00。本平台仅做分享和推荐，不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题，请与我们联系，我们将在第一时间删除内容！

本文相关推荐

暂无相关推荐

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号

隐私协议

用户协议