首页
智算服务
AI 生态大厅
算力商情政策资讯合作与生态场景方案关于我们
控制台

阿里云AI基础设施升级亮相,模型算力利用率提升超20%

发布日期:2026-04-16 来源:百度知道作者:百度知道浏览:1

阿里云在2024云栖大会上展示了全新升级的AI Infra系列产品及能力,通过全栈优化使模型算力利用率提升超20%,连续训练有效时长大于99%。

  以下是具体升级内容及技术亮点:

底层架构优化与磐久AI服务器

  阿里云基于全新的CIPU2.0架构推出磐久AI服务器,单机支持16卡、显存容量达1.5T以上,并采用Solar RDMA互联技术实现高效数据传输。服务器配备超钛金电源,能效比超过97%,同时通过AI算法预测GPU故障,准确率达92%,显著提升算力稳定性。

存储性能指数级提升

  并行文件存储CPFS实现端到端全链路性能优化,单客户端吞吐量达25GB/s,高性能数据流动速度达100GB/s,为AI模型训练提供海量数据的高效读写支持。

网络架构性能翻倍

  高性能网络架构HPN7.0的集合通信性能提升1倍以上,模型端到端训练性能提升10%以上,确保大规模集群训练时的低延迟与高吞吐。

灵骏集群的超大规模算力支持

  通过计算、存储、网络协同优化,灵骏集群可支持单集群十万卡级别的AI算力规模,万卡规模下性能线性度超过96%,并行存储吞吐达20TB/s,网络带宽利用率超过99%,满足超大规模模型训练需求。

计算产品面向AI的演进

  • 容器服务ACK升级:大模型应用冷启动延迟降低85%,支持15000个超大规模节点,提升资源调度效率。
  • 容器计算服务ACS:即将推出GPU容器算力,进一步简化AI任务部署流程。

  此次升级通过软硬一体优化与全栈协同设计,显著提升了AI基础设施的效率与稳定性,为模型训练和推理提供了更强大的算力支撑。

本文转载自百度知道, 作者:百度知道, 原文标题:《 阿里云AI基础设施升级亮相,模型算力利用率提升超20% 》, 原文链接: https://zhidao.baidu.com/question/822832940687368772.html。 本平台仅做分享和推荐,不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题,请与我们联系,我们将在第一时间删除内容!
本文相关推荐
暂无相关推荐