Modal把AI推理冷启动从小时级压到秒级：40倍提速

发布日期：2026-05-19 来源：手机网易网作者：手机网易网浏览：1

云缓冲池：提前养兵

系统维持一小批健康、空闲的GPU作为缓冲。新请求进来时，直接从池子里取现成实例，而非从零启动。这是第一道时间闸门。

自定义文件系统：镜像按需拉取

传统做法是把整个容器镜像下载完再启动。Modal改用内容寻址的多层云原生缓存，镜像数据随用随取，启动和加载并行发生。

CPU侧检查点/恢复：跳过初始化

进程启动时的CPU端初始化（配置加载、依赖解析等）被直接跳过——从磁盘快照将进程状态还原进内存，实现"热启动"效果。

CUDA检查点/恢复：GPU状态秒级还原

最耗时的GPU端初始化（CUDA上下文构建、显存分配、模型权重加载）同样被快照化。显存中的CUDA上下文直接恢复，而非重新构建。

四项技术叠加，推理副本的扩容时间从数千秒降至数十秒，提升约40倍。Modal将这套方案称为"GPU分配利用率"优化——在硬件昂贵且稀缺的当下，减少空闲等待比压榨峰值算力更务实。该公司表示，这是其首次完整公开技术栈，"保密不是护城河，更多人高效使用GPU，市场上才会有更多资源可用"。

本文转载自手机网易网，作者：手机网易网，原文标题：《 Modal把AI推理冷启动从小时级压到秒级：40倍提速》，原文链接： https://www.163.com/dy/article/KT8QC0AV05561FZH.html。本平台仅做分享和推荐，不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题，请与我们联系，我们将在第一时间删除内容！

本文相关推荐

暂无相关推荐

点击立即订阅