首页
智算服务
AI 生态大厅
算力商情政策资讯合作与生态场景方案关于我们
控制台

智算集群

发布日期:2026-03-28 来源:百度百科作者:百度百科

概念定义

  智算集群是《2026年国务院政府工作报告》提出的新型基础设施建设工程,旨在实施超大规模智算集群、算电协同等新基建工程,加强全国一体化算力监测调度,支持公共云发展。

  万卡智算集群即使用数万个GPU构建的大型人工智能算力集群,用以训练基础大模型,有助于大幅压缩大模型训练时间。

  截至2025年,我国已建成万卡智算集群42个,智能算力规模超过1590 EFLOPS,位居全球前列。万卡智算集群更明确地强调了其“智能计算”(智算)的属性和应用定位。

发展历程

  2026年3月5日,《2026年国务院政府工作报告》提出,实施超大规模智算集群等新基建工程,加强全国一体化算力监测调度,支持公共云发展。

  截至2025年底,中国已建成42个万卡智算集群,智能算力规模超过1590EFLOPS,并纳入国家“东数西算”工程体系。“十五五”规划建议提出推进“全国一体化算力网”,2025年8月26日国务院印发的《关于深入实施“人工智能+”行动的意见》也强调强化智能算力统筹。业界正推动更大规模的万卡乃至十万卡级集群建设,以支撑万亿参数模型训练。

技术架构与特点

  智算集群作为支撑人工智能大模型训练与推理的关键基础设施,其技术架构围绕高密度算力集成、高速低时延互联、高效智能调度与运维以及绿色低碳等核心方向持续演进,以保障大规模分布式计算的效率与稳定性。

  智算集群普遍采用超节点架构以实现在有限物理空间内的高密度算力集成,例如中科曙光scaleX万卡超集群首创单机柜级640卡超节点设计,特斯联T-Cluster 512也采用了类似的超节点架构。这种设计旨在提升算力密度,为构建万卡乃至十万卡级大规模集群奠定硬件基础。

  大规模智算集群依赖高速、低时延、无损的互联网络以支撑紧耦合计算。关键技术包括基于RDMA技术的原生高速网络,如中科曙光推出的scaleFabric 400G无损高速网络,其单子网互连规模可达11.4万卡;以及RoCEv2无损网络技术,可确保集群在满载吞吐时实现近零丢包。此外,全光交换(OCS)技术也被引入以突破电交换机的规模与功耗瓶颈,支持集群向百万卡规模平滑演进。

  为应对算力资源碎片化与异构挑战,业界发展了跨域异构算力调度技术,如上海AI实验室的DeepLink方案支持千公里级跨域混训,通过“3D并行+PS”等架构减少通信开销。同时,集群运维强调高可靠性与智能化,通过数字孪生、智能体技术实现对超节点内超百种资源的实时监控与故障预警,结合多层次硬件冗余(如供电、散热N+2冗余)及零信任软件架构,保障集群长期稳定运行,部分先进集群的有效训练时间可达95%以上。

  智算集群正向绿色低碳化方向演进,采用液冷等先进散热技术以应对高功率密度带来的挑战,有效降低电能利用效率(PUE)值,例如中国移动京津冀(张家口)智算中心通过液冷等技术实现PUE≤1.199。

  截至2026年初,我国已建成42个万卡智算集群,智能算力规模超过1590 EFLOPS,并正从万卡级向十万卡级规模化方向迈进。

主要产品与案例

  我国已建成万卡智算集群42个,智能算力规模超过1590 EFLOPS。

  中科曙光scaleX万卡超集群是一种大规模智能计算系统,由16个scaleX640超节点通过scaleFabric高速网络互连而成,可实现10240块AI加速卡部署,总算力规模超5EFlops。摩尔线程夸娥(KUAE)万卡智算集群采用国产全功能GPU,浮点运算能力达到10Exa-Flops,在Dense模型训练中MFU达60%,支持从千卡到万卡集群的扩展。特斯联T-Cluster 512超节点针对大规模智算集群稳定性设计,具备环形分配管网、交直流双输入、高精度漏液检测与智能温控闭环、零信任架构等多层次安全防御体系,并通过数字孪生与智能运维体系将千卡有效训练时间提升至95%以上。移动云智算集群服务(AICC)提供通智资源一体化管理、云边协同服务,支持主流模型部署、集群健康检查与全链路监控。

  北京人工智能公共算力平台的智算规模达到10000P。中国电信建成了包括京津冀智能算力中心、临港智算中心在内的万卡集群;中国移动建成了哈尔滨、呼和浩特等智算中心。

建设与部署

  2026年《政府工作报告》首次明确提出“实施超大规模智算集群、算电协同等新基建工程,加强全国一体化算力监测调度,支持公共云发展”。“十五五”规划建议也提出推进“全国一体化算力网”建设,国务院《关于深入实施“人工智能+”行动的意见》强调“强化智能算力统筹”。

  截至2025年底,我国智能算力规模超过1590 EFLOPS,已建成万卡智算集群42个,位居全球前列。“东数西算”工程已形成覆盖东中西部的8大枢纽节点、10个数据中心集群,其中8大枢纽节点已建成智算规模超过全国智算总量的80%。

  各地方积极响应国家战略,启动超大规模智算集群建设。北京发布《人工智能创新高地建设行动计划》,力争用两年左右时间建成十万卡级国产智算集群。上海规划构建支撑万亿级参数大模型的自主可控智算能力;深圳计划建设多个十万卡级智能算力集群;甘肃庆阳正加快建设国内首个百万卡级智算集群。此外,武汉、河北张家口等地也在加快建设区域智算中心,积极融入全国一体化算力网络。

  通信运营商加快向AI基础底座供应商转变,中国电信、中国移动、中国联通等累计投资超百亿元,建成多个万卡集群。同时,科技企业也通过推出相关解决方案,深度参与集群的硬件架构与系统构建。

  通过“超节点”架构实现硬件高密集成与系统级冗余,提升集群可靠性和有效训练时间。高速无损互联网络成为“算力大动脉”,例如全栈自研的400G无损高速网络技术,其单子网互连规模可达11.4万卡;全光交换(OCS)技术可支持集群规模平滑演进至百万卡,并有助于降低功耗。此外,跨域混训技术(如上海AI实验室DeepLink方案)支持千公里级多智算中心互联,助力解决算力资源碎片化问题。

政策与产业背景

  2026年《政府工作报告》首次将“智算集群”写入,并置于“打造智能经济新形态”和“人工智能+”行动的框架下,明确提出“实施超大规模智算集群、算电协同等新基建工程”。“十五五”规划将全国一体化算力网纳入重大工程项目。国务院《关于深入实施“人工智能+”行动的意见》强调“强化智能算力统筹”。工信部等部门推动算力互联互通节点建设,部署“1+M+N”国家算力互联互通节点体系。

  市场预测指出,到2026年,中国算力租赁潜在收入市场规模有望达到2600亿元。全球算力租赁市场规模将突破800亿美元。智算集群作为新基建,旨在推动算力像水电一样“随用随取”,降低企业特别是中小企业算力使用成本。

本文转载自百度百科, 作者:百度百科, 原文标题:《 智算集群 》, 原文链接: https://baike.baidu.com/item/智算集群/67447226。 本平台仅做分享和推荐,不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题,请与我们联系,我们将在第一时间删除内容!
本文相关推荐
暂无相关推荐