智算多多



我们先把这个账算细一点。图里的550亿美元,是基于一座1GW的数据中心做的全周期测算,周期是四年。为什么是四年?因为GPU的折旧周期就这么长,甚至很多互联网大厂实际折旧周期更短——三年甚至两年半。这不是会计上的保守处理,而是技术迭代的现实:新一代GPU出来,老一代的单位算力成本和能效比就立刻失去竞争力。
在这550亿里,GPU采购250亿,占比45%。这还只是买芯片的钱。供电和散热系统110亿,占比20%。这部分听着像是“基础设施”,但实际上一大半成本是被GPU的功耗逼出来的——一颗H100功耗700瓦,B系列下一代直奔1000瓦以上,几万张卡堆在一起,供电和散热系统的复杂程度远超传统数据中心。
网络50亿,存储40亿。这两块加起来90亿,占比16%。超大规模集群里的网络,不是咱们家里用的路由器,而是几百公里光纤、几十层交换机构成的“毛细血管网”,成本和复杂度随着GPU数量呈指数级增长。
四大硬件板块加起来450亿,占了总成本的82%。电费呢?27.5亿,占比5%。其他运维成本7.5亿,占比不到1.5%。
所以你看,电费便宜这件事,在这个账本里几乎可以忽略不计。你电价打五折,省下来的钱也就十几亿美元,在550亿的总盘子里连个水花都翻不起来。真正决定你成本高低的,是你用什么GPU、用多少GPU、怎么把这些GPU连成集群、怎么给它们供电散热——而这些,没有一样是靠“便宜”能解决的。
在AI算力的成本方程里,资源禀赋的权重远没有想象中那么高,真正起决定作用的,是技术和供应链。
那问题来了:GPU能不能降下来?如果能,是不是成本问题就解决了一大半?
答案是:能降,但短期内很难降太多,而且降价的空间不在中国手里。
一颗AI芯片的成本构成,远比一般人想象的要复杂。先说最直观的制程。