首页
产品服务
模型广场
Token工厂
算力市场算力商情行业资讯
注册

Modal把AI推理冷启动从小时级压到秒级:40倍提速

发布日期:2026-05-19 来源:手机网易网作者:手机网易网浏览:1

云缓冲池:提前养兵

系统维持一小批健康、空闲的GPU作为缓冲。新请求进来时,直接从池子里取现成实例,而非从零启动。这是第一道时间闸门。

自定义文件系统:镜像按需拉取

传统做法是把整个容器镜像下载完再启动。Modal改用内容寻址的多层云原生缓存,镜像数据随用随取,启动和加载并行发生。

CPU侧检查点/恢复:跳过初始化

进程启动时的CPU端初始化(配置加载、依赖解析等)被直接跳过——从磁盘快照将进程状态还原进内存,实现"热启动"效果。

CUDA检查点/恢复:GPU状态秒级还原

最耗时的GPU端初始化(CUDA上下文构建、显存分配、模型权重加载)同样被快照化。显存中的CUDA上下文直接恢复,而非重新构建。

四项技术叠加,推理副本的扩容时间从数千秒降至数十秒,提升约40倍。Modal将这套方案称为"GPU分配利用率"优化——在硬件昂贵且稀缺的当下,减少空闲等待比压榨峰值算力更务实。该公司表示,这是其首次完整公开技术栈,"保密不是护城河,更多人高效使用GPU,市场上才会有更多资源可用"。

本文转载自手机网易网, 作者:手机网易网, 原文标题:《 Modal把AI推理冷启动从小时级压到秒级:40倍提速 》, 原文链接: https://www.163.com/dy/article/KT8QC0AV05561FZH.html。 本平台仅做分享和推荐,不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题,请与我们联系,我们将在第一时间删除内容!
本文相关推荐
暂无相关推荐
点击立即订阅