智算多多
官方邮箱:service@zsdodo.com

公司地址:北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部


DeepSeek这次玩真的了。不是小打小闹,是把新一代旗舰模型V4,完全换上了华为的芯片。阿里、字节、腾讯直接跟单,一出手就是几十万颗。要知道一年前,DeepSeek那会儿还在用英伟达的H800呢。
这事儿得从一场封锁说起。2025年初,DeepSeek靠V3和R1模型低成本训练震动全球,美股一天蒸发5890亿美元。但当时它用的硬件,还是英伟达专供中国的H800。结果美国一看不对劲,2025年4月直接补刀,连降级版的H20也给禁了。
英伟达CEO黄仁勋自己都认了:在中国高端芯片市场的份额,从95%直接归零。那怎么办?不用英伟达了呗。路透社和The Information的报道说得挺明白:DeepSeek在V4开发过程中,压根没给英伟达开放早期访问权限。
这完全反了行业规矩——以前发新版,都是优先跟芯片厂做性能协同优化。这次他们倒好,提前找上了华为和寒武纪。代价呢?延期发布。过去几个月,DeepSeek团队一直在跟华为那边重写底层代码。
有位接近团队的工程师透露,最磨人的不是写算子,是精度对齐——同一个模型,在英伟达和昇腾上跑出一样的结果,得反复调。那华为的芯片到底够不够用?这次扛大梁的是昇腾950PR。3月21日刚发布的,Atlas 350加速卡就是它。
参数摆在这儿:FP8精度算力1PFLOPS,是英伟达H20的2.87倍。128GB自研HBM显存,带宽1.6TB/s。华为那边实测说,互联网推荐场景时延更低,特别适合短视频、电商这些高并发场景。
但实话实说,昇腾910C的推理吞吐量大约只有H100的60%。这差距怎么办?华为的办法是搞“超节点”——把一堆芯片高速互联堆成集群。深圳刚启用的国内首个万卡昇腾910C集群,总算力1.1万P,故障率千分之零点三,训练线性度93%。这招管不管用,等V4跑起来就知道了。
市场已经等不及了。为了迎接V4云服务上线,阿里、字节、腾讯直接抢货,订单几十万颗,直接把芯片价格推高了20%。2025年全年,华为昇腾出货81.2万张,占了国产芯片将近一半的份额。华为自己定的目标更狠:2026年昇腾总产量要干到160万片。
这背后其实是出口管制倒逼出来的。2022年到现在,美国一步步收紧,从A100到H800再到H20,能封的全封了。你不是不卖吗?那我自己搞。DeepSeek现在不光是“用”国产芯片,而是在帮国产芯片“磨”生态——V4一共有三个变体,每个都是为国产芯片量身定做的。
但说实话,软件生态这块还有硬仗要打。华为的CANN框架虽然一直在补算子库,跟英伟达的CUDA比还有差距。昇腾910C在训练大模型时,稳定性也是老大难。去年DeepSeek用910C训练推理模型,大规模分布式训练动不动就崩。
V4这次能不能跑顺,不只是DeepSeek一家的事。它是国产算力能否撑起顶级模型的一次大考。答案,就在未来几周。
