
2024年4月1日至2日,TsingtaoAI智算技术团队在北京为某软件上市公司交付为期两天的NV智算集群技术实训。实训围绕英伟达A100服务器与InfiniBand网络,系统讲解硬件选型、Rail-optimized网络拓扑、GPUDirect Storage存储加速等核心架构设计,并深入NCCL通信库调优、容器化部署及72小时稳定性验证等实操环节。课程聚焦行业痛点,如GPU利用率虚高背后的内存带宽瓶颈、光模块失效预测、国产昇腾/海光与NVIDIA混合组网适配难题,并结合Blackwell架构演进与MFU量化分析,推动工程师从交付执行向架构决策能力跃迁。实训由资深AI Infra专家熊工与王工主讲,内容覆盖千卡集群建设全流程、大模型训练推理混部、故障排查、监控体系搭建及国产芯片生态融合,助力企业夯实智算基础设施运维与优化能力。
查看详情









