智算多多
官方邮箱:service@zsdodo.com

公司地址:北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部


京公网安备11010602202532号 近期,DeepSeek官宣并开源其新一代旗舰模型V4,全面适配华为昇腾国产芯片。从底层算子到通信协议,从显存调度到框架适配,持续推进大模型与国产算力的原生协同,逐步摆脱对NVIDIA依赖,这也标志着国产大模型与国产算力进入了“Day 0适配”的新阶段。
这不仅是技术路径的调整,更是AI基础设施范式的深层跃迁。过去,大模型开发往往基于英伟达GPU完成训练,再向国产芯片做“后补式”迁移——成本高、周期长、性能损耗显著。而“Day 0适配”的核心在于:模型从预训练阶段起便与底层算力深度绑定,通过“算力—模型协同优化”,实现开箱即用的高性能。
这要求国产算力集群具备从0到1支撑大模型训练、推理与持续演进的完整能力——而商汤大装置,已在基础设施层面完成了这一技术路径的全链条验证,为国产算力规模化落地提供可复制经验。
新民晚报记者了解到,商汤大装置为多模态、世界模型与国产算力的“Day 0适配”提供全栈技术支撑。
商汤大装置为其提供了底层算力管理、任务调度和性能优化的完整技术支撑,使“Day 0适配”从概念走向可落地的实践方案,实现模型训练、推理与迭代的全流程高效协同。
国产模型与国产算力的深度绑定,核心不在单点突破,而在体系化能力的构建。针对国产化芯片兼容难、异构芯片协同效率低、推理侧性能挑战大等现实痛点,商汤大装置通过全链路协同优化,形成了覆盖训练到推理的完整能力栈。
在兼容层,针对国产化兼容难题,LightX2V框架设计了强兼容的国产化适配插件模式,可快速完成各类国产硬件的适配接入,目前已支持寒武纪、沐曦、海光DCU、昇腾910B等多款主流芯片。实践层面,为了更好地释放国产算力优势,Seko系列模型与LightX2V框架在设计之初即引入了低比特量化、压缩通信、稀疏注意力等硬件友好创新机制,将国产芯片的推理性能提升3倍以上。
训练侧,针对异构芯片难以协同、大规模训练效率低的难题,商汤大装置构建了基于XCCL与DeepLink的统一异构适配体系。通过分层通信、自动并行调度与动态负载均衡策略等,实现万卡规模集群高效协同,训练效率达到同构集群的95%以上,算力利用率提升至80%,让国产算力真正具备大规模训练能力。
在推理侧,商汤大装置通过Ignite推理引擎启动器,兼容多模型与多引擎体系,通过提供统一API,并在KV Cache管理、多Token预测、算子优化、通信调优上形成全链路能力,实现“一键部署+自适配优化”,显著降低推理门槛。
从当前产业进展来看,两个趋势已经愈发清晰——
