当前位置: 首页 > 行业资讯 > 资讯详情

企业实训|NV智算集群技术实训-某软件上市公司

发布日期：2026-04-14 来源：百家号作者：百家号

实训时长

2天，每天7小时

01号上午

1.1 智算集群整体架构认知

计算集群的发展与挑战（传统数据中心 vs 智算中心的本质差异）

集群基础建设介绍（AI 服务器节点、风冷液冷，服务器机柜）

GPU 服务器topo 结构

1.2 先进算力资源的网络关键技术

InfiniBand vs RoCE：性能对比与选型依据（带宽、延迟、丢包容忍度）

RDMA技术原理：零拷贝、内核旁路如何提升效率

先进算力nvLink、PCIe拓扑：节点内GPU互联的带宽瓶颈分析

PFC（优先级流控）与ECN（显式拥塞通知）配置要点

网络拓扑设计

单轨网络，多轨网络deepseek 经典设计

Rail-optimized拓扑 vs 传统Spine-Leaf的区别

万卡 AI 集群建设挑战、交付与测试

先进算力 Blackwell 与先进算力L72 超节点演进（集群与互联）

集群性能分析与测试

环境准备：配置IB网卡IP、验证RDMA功能

使用ib_write_bw/ib_read_bw测试双向带宽

使用perftest工具验证延迟指标

对比TCP vs RDMA的性能差异

理解RDMA的性能优势，掌握基础测试工具

存储架构与GPUDirect技术

训练阶段：数据集加载（TB级顺序读）、Checkpoint保存（周期性爆发写）

推理阶段：模型参数加载、KV Cache的内存-存储协同

存储性能三要素：IOPS、带宽、延迟的权衡

痛点分析：大模型 CKPT优化手段

高性能存储架构设计

训练数据加载与存储优化与存算架构的思考

GPUDirect Storage：绕过CPU直接访问存储的原理

多级缓存体系：内存-先进算力Memory并行文件系统的数据流设计

使用GPUDirect Storage API加速数据加载（模拟场景）

01号下午

千卡集群交付流程

3.1 硬件选型与规划

GPU选型：A100 vs H100 vs H20的算力/功耗/成本对比

网络设备选型：IB交换机的端口密度、收敛比计算

服务器配置：CPU/内存/先进算力的配比原则

3.2 集群建设全流程

需求分析→方案设计→硬件到货→上架布线→系统安装→功能验证

硬集与软集的区别：物理组装 vs 软件配置的职责划分

痛点：如何避免硬件批次差异导致的兼容性问题？

案例：某千卡集群交付复盘

IB网络自动化配置

拓扑发现：使用ibnetdiscover生成网络拓扑图

UFM架构与功能

软件架构：管理节点+Agent部署模式

核心功能：拓扑可视化、性能监控、固件升级

对外接口：REST API、CLI、Prometheus集成

3.4 IB网络配置与UFM监控

手动配置IB子网管理器（OpenSM）

使用ibdiagnet诊断链路状态

演示UFM界面（视频/截图，受限于无交换机）

掌握IB网络的基础运维命令

NCCL通信原理

集合通信操作：AllReduce、AllGather、ReduceScatter的区别

NCCL的通信算法：Ring、Tree、Ring+Tree的适用场景

通信协议：Simple vs LL vs LL128的性能差异

原理图解：单机8卡AllReduce的数据流向

NCCL环境变量详解

核心变量：NCCL_ALGO、NCCL_PROTO、NCCL_NTHREADS、NCCL_MIN_NCHANNELS

网络相关：NCCL_IB_DISABLE、NCCL_SOCKET_IFNAME、NCCL_NET_GDR_LEVEL

调试变量：NCCL_DEBUG、NCCL_DEBUG_SUBSYS

单机多卡NCCL测试

使用nccl-tests测试单机8卡AllReduce带宽

对比nvLink vs PCIe的通信性能

调整NCCL环境变量观察性能变化

常见问题：GPU看得到但NCCL初始化失败的排查思路

疑难问题研讨

问题1：网络不丢包，但AllReduce带宽达不到设计值
排查思路：检查NCCL_ALGO、确认IB链路状态、验证GPU拓扑

问题2：GPU利用率90%+但训练慢

02号上午

大模型训练任务和推理任务的混跑的碎片化解决方案

分层解决方案（技术栈）

第一层：硬件与系统级隔离
第二层：运行时级调度与抢占
第三层：框架级优化与自适应

一个典型的混合部署策略示例

训练出错，快速判断算法问题还是硬件问题的一站式解决方案

硬件问题的典型特征

算法/代码问题的典型特征

系统性排查步骤（实战流程）

如何处理慢节点拖累整个集群的问题？

短期应急（止血）重启任务/节点
中期优化（治标）资源隔离与保障
长期预防（治本）建立硬件健康度基线

重点阐述：
GPU 利用率“看起来很高”，但训练效率依然很低，先进算力-smi 显示 GPU Util 90%+，实际每 step 时间明显偏慢

容器环境搭建

Docker vs Singularity/Enroot在HPC场景的选择

Container Toolkit原理：如何让容器访问GPU

镜像构建：基础镜像+CUDA+PyTorch+训练代码的层次

网络命名空间：容器内如何使用宿主机IB网络

容器化部署大模型

拉取NGC官方PyTorch镜像（离线环境需提前准备tar包）

编写Dockerfile安装依赖（transformers/flash-attention等）

使用docker run启动容器并挂载数据集

运行某小尺寸模型测试训练流程

模型训练实战

使用torchrun启动多卡训练（DistributedDataParallel）

监控工具：先进算力-smi、dcgm-exporter实时查看GPU状态

训练日志分析：loss曲线、吞吐量（samples/s）、MFU计算

常见错误：CUDA OOM、通信超时的快速定位

模型训练

运行某小尺寸LLM预训练任务（尺寸视内存而定）

调整batch size/gradient accumulation观察显存占用

使用tensorboard可视化训练曲线

性能对比：单卡 vs 多卡的加速比分析/尝试开启混合精度训练（AMP）

02号下午

测试方案设计

测试维度：计算性能、通信带宽、存储IOPS

测试工具链：

GPU计算：CUDA Samples、cuBLAS benchmarks
网络：nccl-tests、ib_write_bw、SHARP测试
存储：FIO、IOR

验收标准制定：如何设定合理的性能基线？

GPU基线性能测试

运行CUDA Samples中的bandwidthTest、deviceQuery

使用HPL/HPCG测试峰值算力

GPU Burn压力测试：长时间满载运行检测稳定性

静默错误检测：使用dcgm-diag的诊断功能

记录：整理测试数据形成测试报告模板

稳定性测试方法

长时间负载测试：72小时连续训练任务

故障注入：模拟GPU掉卡、网络抖动场景

MFU（Model FLOPs Utilization）测试：计算有效算力利用率

运维工具体系

UFM深度实践：

部署架构：HA模式、数据库选择
监控指标：链路流量、错误计数、温度/功耗
告警配置：如何设置阈值避免误报
API集成：通过REST接口对接运维平台

DCGM（Data Center GPU Manager）：

架构：Host Engine + Agent模式
健康检查：周期性诊断GPU状态

运维工具部署与监控

部署DCGM并配置Exporter

编写Grafana Dashboard展示GPU指标

模拟故障：拔掉光模块观察UFM告警（视频演示）

使用dcgmi命令行工具查询GPU健康状态

智算中心光模块故障率高，如何通过带内监控提前预测光模块失效

搭建一套可用的监控系统

资源调度与隔离

Slurm vs Kubernetes在AI集群的适用性

GPU共享与MIG（Multi-Instance GPU）技术

训练任务（独占） vs 推理任务（零散）的资源隔离策略

痛点：碎片化问题如何通过调度器解决？

国产芯片混合组网

华为昇腾、海光与英伟达的生态差异

混合算力中心架构设计：网络隔离 vs 统一调度

挑战：驱动版本管理、框架适配的复杂度

推理架构设计

并行策略：Tensor Parallelism vs Pipeline Parallelism

Prefill-Decode分离架构

推理框架：vLLM、TensorRT-LLM、FasterTransformer对比

案例：如何实现毫秒级推理延迟

部分实训课件

本文转载自百家号，作者：百家号，原文标题：《企业实训|NV智算集群技术实训-某软件上市公司》，原文链接： https://baijiahao.baidu.com/s?id=1862373341483902651&wfr=spider&for=pc。本平台仅做分享和推荐，不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题，请与我们联系，我们将在第一时间删除内容！

本文相关推荐

暂无相关推荐

点击立即订阅

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号