智算多多联系我们


关注我们

公众号

视频号
◎2025 北京智算多多科技有限公司版权所有 京ICP备 2025150592号-1
DeepSeek V4 Flash是首个公开说明训练侧使用国产算力的通用大模型,通过三大核心设计实现了去英伟达化的技术布局。(1)引入MXFP4量化感知训练,对MoE专家权重与索引器QK路径实现FP4量化,降低了对NVIDIA FP8生态的绑定,可无缝适配华为昇腾、寒武纪等国产芯片;(2)采用TileLang领域专用语言开发底层算子,脱离CUDA生态强绑定,可跨硬件平台编译,降低向国产芯片的迁移成本;(3)自研MegaMoE2融合内核,实现专家并行的细粒度通信计算重叠,已在华为昇腾平台完成适配跑通,解决了国产硬件环境下MoE模型的通信瓶颈。
无论DeepSeek V4表现如何,战略意义均十分重要,对国产算力的训练适配前景才是关注的重点。