京东大模型蒸馏技术登上Nature,推理平均提效30%

京东大模型开发计算技术，推理平均提效 30%

　　企业将大模型应用付诸实践，面临着诸多卡点，一方面进入大模型应用门槛高，另一方面模型训练与推理效率低。

　　京东大模型开发计算技术，能支持企业的模型开发训练及生产，让庞大、重型的 AI 模型“瘦身”成精悍的小模型，精华依旧，效率大增，瘦身不降智。既能节省算力资源，加速推理，还能适应多平台，广泛部署到更多平台上。

论文中提出了四个创新方法：

模型蒸馏，采用动态分层蒸馏技术，特别是在预训练阶段进行蒸馏，调整仅 0.5%的参数实现低资源场景下的高效训练，减少大型模型的部署成本。

数据治理，提出跨领域数据动态采样算法，自动混合不同领域数据，并引入隐私保护和主动学习技术，提升大模型泛化能力。

训练优化，使用贝叶斯优化（BO）框架进行超参数优化和架构搜索，尤其是擅长处理离散空间，MPMD 场景下资源利用率提升 40%。

云边协同，支持在云端进行模型搜索和训练，边缘设备负责部署和推理，并利用两阶段压缩策略以适应资源限制，提升云边协作的高效性。

　　值得一提的是，该平台还可支持京东大模型、Llama、DeepSeek 等多个模型的蒸馏、推理。在模型蒸馏层面，效果较同量级模型有明显提升，以京东大模型为例，蒸馏后的大模型 Livebench 提升 14 分。大量的实验结果也证明有效性和效率，推理平均提效 30%，训练成本平均降低 70%。

JoyBuild 大模型开发计算平台，让模型训练与应用更普惠

　　这套京东沉淀下来的大模型开发计算的技术，支撑了 JoyBuild 大模型开发计算平台，广泛服务行业用户。

　　JoyBuild 能够为客户的大模型开发和行业应用开发，提供定制化解决方案。JoyBuild 支持各类模型的调优开发，内置 20 余种开源模型和丰富的数据集，并提供 100 余种算法和工具链，帮助企业根据自身业务特征，将通用模型迅速转化为专业模型，一站式应用大模型。

　　现在，不到一周时间，企业即可完成从数据准备、模型训练到模型部署的全流程；之前需要 10 余人的科学家团队工作，现在只需要 1～2 个算法人员；通过平台模型加速工具优化，节约 90%的推理成本。

　　京东丰富的业务场景，还为平台上的基础大模型提供具体的行业应用场景，加速基于大模型的商业化落地。在行业知识库之外，JoyBuild 沉淀了京东自己的零售、物流、健康、金融等行业 Know-How，可应用于供应链优化、智能客服、营销内容生成等各类场景，加速模型普惠。

　　京东给出的大模型解法并不是“黑箱”，而是一条解决大模型训练效率及应用问题的通用路径，是真正的“授之以渔”，对学术界、产业界均有广泛参考价值。未来，京东将进一步提升大模型开发与计算效率，让中小型和大型企业都能低成本、高效构建专属 AI 应用，助推 AI 规模化应用落地。

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号

隐私协议

用户协议

京东大模型蒸馏技术登上Nature,推理平均提效30% - InfoQ