专家谈:通信网如何迎接AI普及?

AI对通信网的需求

　　充分利用大带宽：AI模型分布式训练需多台主机同步大量参数、梯度及中间变量，单次参数同步量达百MB - GB量级，对网络带宽要求高。当前数据中心25Gbps带宽网络成主流，40Gbps、100Gbps甚至200Gbps网络逐步使用，但网络协议栈开销影响传输性能，40Gbps和100Gbps网络无法充分利用带宽，所以AI要求通信网能充分利用以太网大带宽。

　　链路负载均衡完美：大模型训练混合使用多种并行模式，多机间涉及AllReduce集合通信，其完成时间由最慢的点对点通信时间决定，存在“木桶效应”。当前负载均衡技术不能保证所有链路完美均衡，寻找完美负载均衡技术是提升训练效率关键。

　　网络故障快速恢复：集群规模增大，链路故障难免，一条链路故障会导致整个AllReduce通信停滞，进而使模型训练停滞。做到故障后快速恢复，最好上层训练业务不感知，是保障AI大规模集群性能的关键。

AI给通信网带来的挑战及应对方案

实现大带宽的挑战与方案

　　挑战：传统TCP网络因主机侧协议栈开销大，无法充分利用网络带宽。RDMA通信技术虽具有低时延和高吞吐特点，适合大模型GPU训练场景，但它是无损协议，需要链路层PFC保障不丢包，而PFC在大规模集群可能出现队头阻塞、拥塞扩散甚至网络死锁等问题，直接大规模部署RDMA风险高。

　　方案：华为智能无损RDMA在标准RDMA over Ethernet（ROCE）基础上，通过PFC防死锁技术解决死锁问题；通过基于AI的自适应拥塞控制技术，解决头阻问题同时保证网络有效吞吐。基于无损以太的数据中心网络已支持RDMA应用规模部署，并在多领域广泛应用，在大规模GPU集群中价值极高。

实现完美负载均衡的挑战与方案

　　挑战：现有网络负载均衡技术大多只解决本地等价路径间均衡，局部均衡不代表全局均衡。ECMP技术依赖哈希随机性，在网络流量少时，难以做到本地路径完美均衡，而AI训练是吞吐敏感型业务，其流量特征为流数少、单流带宽大、强同步，ECMP技术因哈希不均匀，难以保证网络负载均衡。

　　方案：华为提出网络级负载均衡（NSLB）概念，基于算网协同实现多任务全局均衡路由，采用基于全局拥塞状态的自适应路由算法，实现AI训练流量满吞吐和网络带宽完全利用，大幅提升AI训练效率，单任务、多任务线性度均达90%以上。

实现故障快速恢复的挑战与方案

　　挑战：传统网络故障收敛依赖设备控制面或集中控制器动态路由收敛，网络故障收敛时间数百ms到数s，故障期间大量丢包会导致RDMA连接中断，影响AI训练业务稳定性和性能。

　　方案：华为提出数据面故障快速自愈（DPFR）方案，故障的感知、通告和自愈完全在数据面实现，无需控制面参与，网络故障基本可做到业务无感，有效消除网络故障对大规模AI训练的影响。

总结与展望

　　AI对通信网的需求和网络挑战，对网络的可靠性、安全性、效率和服务质量等方面提出更高要求。产业链企业需不断探索和研究AI在通信网中的应用，以满足用户需求，提高网络性能和服务质量，从而更好地迎接AI普及带来的机遇与挑战。

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号

隐私协议

用户协议