阿里云AI基础设施升级亮相,模型算力利用率提升超20%

阿里云在2024云栖大会上展示了全新升级的AI Infra系列产品及能力，通过全栈优化使模型算力利用率提升超20%，连续训练有效时长大于99%。

以下是具体升级内容及技术亮点：

底层架构优化与磐久AI服务器

阿里云基于全新的CIPU2.0架构推出磐久AI服务器，单机支持16卡、显存容量达1.5T以上，并采用Solar RDMA互联技术实现高效数据传输。服务器配备超钛金电源，能效比超过97%，同时通过AI算法预测GPU故障，准确率达92%，显著提升算力稳定性。

存储性能指数级提升

并行文件存储CPFS实现端到端全链路性能优化，单客户端吞吐量达25GB/s，高性能数据流动速度达100GB/s，为AI模型训练提供海量数据的高效读写支持。

网络架构性能翻倍

高性能网络架构HPN7.0的集合通信性能提升1倍以上，模型端到端训练性能提升10%以上，确保大规模集群训练时的低延迟与高吞吐。

灵骏集群的超大规模算力支持

通过计算、存储、网络协同优化，灵骏集群可支持单集群十万卡级别的AI算力规模，万卡规模下性能线性度超过96%，并行存储吞吐达20TB/s，网络带宽利用率超过99%，满足超大规模模型训练需求。

计算产品面向AI的演进

容器服务ACK升级：大模型应用冷启动延迟降低85%，支持15000个超大规模节点，提升资源调度效率。

容器计算服务ACS：即将推出GPU容器算力，进一步简化AI任务部署流程。

此次升级通过软硬一体优化与全栈协同设计，显著提升了AI基础设施的效率与稳定性，为模型训练和推理提供了更强大的算力支撑。

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号

隐私协议

用户协议