首页
智算服务
AI 生态大厅
算力商情政策资讯合作与生态场景方案关于我们

专家谈:通信网如何迎接AI普及?

发布日期:2026-04-11 来源:百度知道作者:百度知道

AI对通信网的需求

  充分利用大带宽:AI模型分布式训练需多台主机同步大量参数、梯度及中间变量,单次参数同步量达百MB - GB量级,对网络带宽要求高。当前数据中心25Gbps带宽网络成主流,40Gbps、100Gbps甚至200Gbps网络逐步使用,但网络协议栈开销影响传输性能,40Gbps和100Gbps网络无法充分利用带宽,所以AI要求通信网能充分利用以太网大带宽。

  链路负载均衡完美:大模型训练混合使用多种并行模式,多机间涉及AllReduce集合通信,其完成时间由最慢的点对点通信时间决定,存在“木桶效应”。当前负载均衡技术不能保证所有链路完美均衡,寻找完美负载均衡技术是提升训练效率关键。

  网络故障快速恢复:集群规模增大,链路故障难免,一条链路故障会导致整个AllReduce通信停滞,进而使模型训练停滞。做到故障后快速恢复,最好上层训练业务不感知,是保障AI大规模集群性能的关键。

AI给通信网带来的挑战及应对方案

实现大带宽的挑战与方案

  挑战:传统TCP网络因主机侧协议栈开销大,无法充分利用网络带宽。RDMA通信技术虽具有低时延和高吞吐特点,适合大模型GPU训练场景,但它是无损协议,需要链路层PFC保障不丢包,而PFC在大规模集群可能出现队头阻塞、拥塞扩散甚至网络死锁等问题,直接大规模部署RDMA风险高。

  方案:华为智能无损RDMA在标准RDMA over Ethernet(ROCE)基础上,通过PFC防死锁技术解决死锁问题;通过基于AI的自适应拥塞控制技术,解决头阻问题同时保证网络有效吞吐。基于无损以太的数据中心网络已支持RDMA应用规模部署,并在多领域广泛应用,在大规模GPU集群中价值极高。

实现完美负载均衡的挑战与方案

  挑战:现有网络负载均衡技术大多只解决本地等价路径间均衡,局部均衡不代表全局均衡。ECMP技术依赖哈希随机性,在网络流量少时,难以做到本地路径完美均衡,而AI训练是吞吐敏感型业务,其流量特征为流数少、单流带宽大、强同步,ECMP技术因哈希不均匀,难以保证网络负载均衡。

  方案:华为提出网络级负载均衡(NSLB)概念,基于算网协同实现多任务全局均衡路由,采用基于全局拥塞状态的自适应路由算法,实现AI训练流量满吞吐和网络带宽完全利用,大幅提升AI训练效率,单任务、多任务线性度均达90%以上。

实现故障快速恢复的挑战与方案

  挑战:传统网络故障收敛依赖设备控制面或集中控制器动态路由收敛,网络故障收敛时间数百ms到数s,故障期间大量丢包会导致RDMA连接中断,影响AI训练业务稳定性和性能。

  方案:华为提出数据面故障快速自愈(DPFR)方案,故障的感知、通告和自愈完全在数据面实现,无需控制面参与,网络故障基本可做到业务无感,有效消除网络故障对大规模AI训练的影响。

总结与展望

  AI对通信网的需求和网络挑战,对网络的可靠性、安全性、效率和服务质量等方面提出更高要求。产业链企业需不断探索和研究AI在通信网中的应用,以满足用户需求,提高网络性能和服务质量,从而更好地迎接AI普及带来的机遇与挑战。

本文转载自百度知道, 作者:百度知道, 原文标题:《 专家谈:通信网如何迎接AI普及? 》, 原文链接: https://zhidao.baidu.com/question/1746763062643376267.html。 本平台仅做分享和推荐,不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题,请与我们联系,我们将在第一时间删除内容!
本文相关推荐
暂无相关推荐