智算多多



DeepSeek R1曾被市场解读为显著降低前沿模型训练所需算力,而TurboQuant则被理解为大幅压缩推理阶段的内存需求。两者在短期内均引发市场对AI基础设施投入的下修预期。
但从实际结果来看,DeepSeek并未抑制GPU需求,反而通过成本下降加速AI应用渗透,带动云厂商资本开支指引持续上修。其背后逻辑,本质上体现“杰文斯悖论”,效率提升并不会压缩资源总需求,而是通过提升可及性,推动技术在更大规模上的扩张。
我们认为,TurboQuant同样遵循这一逻辑。本质上,其是一种无需训练KV Cache压缩方法,核心依托两项关键技术:
从效果来看,在不影响模型精度的情况下,TurboQuant可实现约6x KV Cache内存压缩以及8x attention logit计算速度提升。
我们认为,TurboQuant尚难以对HBM及DRAM需求形成实质性影响。我们认为,HBM需求核心仍在训练侧,主要承载模型权重、激活值等关键数据,上述环节均不在TurboQuant作用范围内。
即便在推理阶段,KV Cache在单卡HBM占用中的占比亦相对有限;以400B以上参数规模模型为例,权重体量通常达数百GB,且多为不可压缩数据,并非TurboQuant所能处理。与此同时,CPU侧DRAM主要承担数据预处理、调度与系统运行,与KV Cache关联有限。
我们认为,在推理内存需求持续提升及云厂商资本开支具备长期确定性的背景下,HBM与DRAM的结构性需求仍具韧性。
我们认为,TurboQuant对NAND的影响相对复杂,但整体结论同样偏正向。我们认为,TurboQuant通过压缩KV Cache降低内存占用,使单卡资源在长上下文推理中更为充足,从而减少KV在GPU与外部存储之间的swap频率,边际降低NAND访问强度,或对短期需求节奏产生轻微扰动。
但随着上下文长度持续扩展,且未来向千万级Token应用演进,该扰动有望被新一代应用需求所对冲。我们认为,企业级SSD需求的核心仍在模型运行状态存储、训练数据加载及AI服务器日志等环节,与KV Cache机制并无直接关联。