智算多多联系我们

官方邮箱:service@zsdodo.com

公司地址:北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部
关注我们

公众号

视频号
◎2025 北京智算多多科技有限公司版权所有 京ICP备 2025150592号-1
京公网安备11010602202532号
京公网安备11010602202532号 系统维持一小批健康、空闲的GPU作为缓冲。新请求进来时,直接从池子里取现成实例,而非从零启动。这是第一道时间闸门。
传统做法是把整个容器镜像下载完再启动。Modal改用内容寻址的多层云原生缓存,镜像数据随用随取,启动和加载并行发生。
进程启动时的CPU端初始化(配置加载、依赖解析等)被直接跳过——从磁盘快照将进程状态还原进内存,实现"热启动"效果。
最耗时的GPU端初始化(CUDA上下文构建、显存分配、模型权重加载)同样被快照化。显存中的CUDA上下文直接恢复,而非重新构建。
四项技术叠加,推理副本的扩容时间从数千秒降至数十秒,提升约40倍。Modal将这套方案称为"GPU分配利用率"优化——在硬件昂贵且稀缺的当下,减少空闲等待比压榨峰值算力更务实。该公司表示,这是其首次完整公开技术栈,"保密不是护城河,更多人高效使用GPU,市场上才会有更多资源可用"。
