首页
智算服务
AI 生态大厅
算力商情政策资讯合作与生态场景方案关于我们
控制台

吉瓦级AIDC,字节跳动怎么玩?

发布日期:2026-04-16 来源:C114通信网作者:C114通信网

驱动力

  “吉瓦级”是一个功率单位,指功率达到十亿瓦特(1吉瓦=10^9瓦)的规模,常用来描述需要消耗或输出巨大能量的前沿技术设施或装备。在人工智能领域,“吉瓦级”是衡量超大规模数据中心和AI芯片集群功耗与规模的关键指标。

  从全球视角,特别是从大洋彼岸来看,OpenAI和Microsoft、Meta等都开始用多园区、多吉瓦的概念去发展自己的AIDC。

  从驱动力角度来看,井汤博认为有三点:一是大模型本身的爆发以及和大模型相关算力需求的增长。二是行业数字化转型,垂直行业上云,包括AI Agent以及OpenClaw等等一系列催生对Tokens大量的应用。第三,“我们现在实际的感受是,芯片和模型不是制约因素,反而是当地的政策、环保、土地电力资源会成为最后一个瓶颈,它会严重地影响到DC的建设,进而影响到业务的部署。”

技术趋势

  在发言中,井汤博结合GTC,分享了他对于AIDC发展的几个趋势:

  第一,先进的硬件和AI算力平台的推陈出新,会导致基础设施侧业态新的变化,比如此次推出的LPU(语言处理单元)和MGX,整个模块化GPU整体解决方案。“这两个分别代表着传统训练GPU之外结合的一种算力形式,还有就是整体以芯片为出发点向今后整合生态链,导致的一种业态模式,这两种模式都是让我们可以思考,未来到底如何应对新场景,以及新的业务范式。”

  第二是关于液冷,字节在2021年开始研究液冷,2022年开始大规模落地。“我可以坦白地讲,我们主要的驱动点就是资源利用率,或者是在某些场景下TCO的最优,但是并没有说是必需项。但是现在看起来,不管是从英伟达、AMD主流厂家,还是从大家的共识,都认为液冷成为必选项,而且液冷的比例从50%、60%、70%、80%,甚至已经接近100%。液冷不仅仅是一套技术更是一套系统。”

  第三就是从服务器到交换机,之前产业界更多关注于服务器相关的液冷,但是现在对于交换机,因为它的带宽和就近部署,本身交换机和内部芯片的液冷也是字节的考虑点之一。

  最后就是电气架构的演进,800V已经成为兆瓦级或者是四五百千瓦以上的AIDC集群的一个选项,电器架构的液冷化,也是未来我们不可忽视的点。

挑战和应对

  井汤博指出,在AIDC场景中,因为高密度和超大规模的部署,耦合度很高,势必会导致可靠性和可用性潜在的降低风险。

  这个时候字节怎么做呢?架构角度,尽量采用相对分布式的架构,降低故障半径。方案角度,要相对收敛,部署更加的标准化,让运维更加的得心应手。第三用半预置或者半集成的方式,在调试和安装环节做到可控。最后就是用AI来反哺运维,来运行预测性维护和智能化调度,简而言之需要做到全生命周期的端到端,从设计、建设、测试到运营,多链路去把控,才能够让AIDC在吉瓦级做得更加可靠。

  第二个挑战就是资源利用率的不足和社会责任。早期一个机房也就是十几兆瓦,一个园区也就几十兆瓦,100兆瓦已经很高了,现在一个楼宇就百兆瓦,园区都是上吉瓦,这个时候当地资源的压力、电网建设、水资源、土地资源以及对环境和周边居民、住宅区的影响就不可忽视了。

  应对方案,从技术创新上就是高效的设备、先进的制冷技术,高密度解决方案,包括兆瓦级的机柜以及SIT配电,除了这些之外,还有就是用清洁燃料,对先进的能源进行回收,“在过去是一个加分项,现在我认为就是一个必选项。”

  第三点就是衡量指标,这也是最大的痛点。在AIDC时代,机房与服务器之间越来越耦合化,某一个点的变化会对上层导致一个不利的变化,比如说过度地追求PUE,可能会导致对服务器的支持和综合成本的降低是一个不利的影响。井汤博倡议产业链从能源、DC、硬件、平台,到真正的模型和应用,逐渐地把壁垒打通,建立内部的横向拉通机制,同时也需要建立合理的Benchmark,一套真正可以客观量化评估体系。

  第四是硬件供应链的不确定性带来的兼容和挑战,还有交付周期的影响。为什么会有不确定性?井汤博认为上下游没有打通,DC设计DC的标准,供应链有供应链的采购体系,都有自己的规划体系。产业链需要把标准化和规范化做起来,这是缓解交付和兼容性需求非常重要的一点。

本文转载自C114通信网, 作者:C114通信网, 原文标题:《 吉瓦级AIDC,字节跳动怎么玩? 》, 原文链接: http://www.c114.com.cn/news/16/a1308557.html。 本平台仅做分享和推荐,不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题,请与我们联系,我们将在第一时间删除内容!
本文相关推荐
暂无相关推荐