智算多多
官方邮箱:service@zsdodo.com

公司地址:北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部


京公网安备11010602202532号 5 月 11 日,面壁智能联合清华大学、OpenBMB 开源社区正式发布并开源了新一代端侧多模态大模型:MiniCPM-V 4.6。
这是 MiniCPM-V 系列有史以来效率与性能平衡最佳的模型。它以仅 1.3B 的参数规模,实现了性能与效率的双重突破,在全球同尺寸模型中登顶,全面超越了阿里 Qwen3.5-0.8B 与谷歌 Gemma4-E2B-it。
尤其在内存价格飞涨的当下,MiniCPM-V 4.6 只需 6G 内存即可在端侧流畅运行,真正实现了「低内存、极速跑」。
这不仅极大降低了多模态大模型在各类智能终端上的落地门槛,也让面壁智能「智周万物」(AGI for Lives)的愿景离我们更近了一步。
目前,MiniCPM-V 4.6 已在 Github、Hugging Face 等平台全面开源,并提供 Testflight 测试版本,可以在 iOS、Android、HarmonyOS 系统的手机端使用。
➤ GitHub
➤ GitCode
➤ Web Demo
➤ APP Demo
根据多个权威基准评测,MiniCPM-V 4.6 的两个版本(Instruct 与 Thinking)多模态综合能力均表现卓越,实现了全维度领跑。
Instruct 版本:在通用图文理解、STEM 数理推理、文档 OCR、视频时序理解及目标定位等任务上,全面超越 Qwen3.5-0.8B、Gemma4-E2B-it 等模型。
Thinking 版本:在多图像关联推理、幻觉抑制等高阶任务中,同样几乎全面领先。
在最新的 Artificial Analysis(AA)榜单评测中,MiniCPM-V 4.6 更是以 13 分的优异成绩跻身前列,超越了包括 Mistral 3-3B、Qwen 3.5-0.8B 在内的一众模型,成绩逼近 Qwen 3.5-2B,成为 1B 级开源模型中当之无愧的性能标杆。
除了性能惊艳,MiniCPM-V 4.6 在效率上也取得了堪称「反常识」的突破。
尽管参数规模比 Qwen3.5-0.8B 更大,但 MiniCPM-V 4.6 的运行效率却更快,实现了惊人的反超:
这意味着 MiniCPM-V 4.6 以极小的计算成本,撬动了极高的智能水平,是面壁智能「密度定律」的又一实践。
由此,用同样的硬件,开发者可以承载数倍的线上流量,或在端侧实现更极致的响应速度。
这一飞跃,让市面上几乎所有的个人设备(手机、电脑)都可以将 MiniCPM-V 4.6 高效地跑起来。
惊人的性能与效率背后,是两大底层技术的硬核创新。
视觉编码器(ViT)是多模态模型处理图像信息的核心组件,也是计算开销最集中的环节之一。
MiniCPM-V 4.6 采用了面壁智能与清华大学联合研发的最新LLaVA-UHD v4技术,通过创新的「ViT 内部视觉 token 早压缩」,在保证性能不掉点的前提下,大幅降低了视觉 token 的数量和计算量,相比传统 ViT 将图像编码开销锐减了 50%。
针对模型在处理高分辨率图像时的视觉编码效率问题,LLaVA-UHD v4 提出了一种高效的编码范式,可以在超越原有性能的同时,将视觉编码阶段的浮点运算量降低 55.8%。
LLaVA-UHD v4 主要包含两个核心设计:
这一改造,与 16 倍 token 压缩协同工作,协同实现了极致的轻量化推理——用更少的计算资源,完成同等质量的图像理解任务。这也造就了 MiniCPM-V 4.6「参数更大,但跑得更快」的效率奇迹。
业界多模态基座模型普遍采用固定的 4 倍视觉 token 压缩率,而 MiniCPM-V 4.6 则打破常规,提供了业界领先的双模式切换:
同一个模型,两种选择,开发者无需在性能和速度之间艰难取舍。
视觉 token 压缩率会影响到显存占用、首响延迟、推理吞吐、功耗等众多关键效率指标,压缩率越高、响应速度越快。MiniCPM-V 多模态大模型从 2024 年就推出了 16 倍压缩率,在行业内领先。
值得一提的是,面壁智能开创性的 16 倍压缩技术早已在产业界得到验证,例如快手在 2025 年发布的推荐大模型 OneRec,在处理海量视频多模态特征时便应用了 MiniCPM-V 系列模型,成功支撑了主场景 25% 的巨大流量请求。
得益于 16 倍视觉 Token 压缩这一核心技术,MiniCPM-V 4.6 在推理效率的两大关键维度上同时建立起显著优势:
1)在单并发首响延迟(TTFT)上,它把“分辨率—延迟”曲线压得几乎平坦,3136² 高清大图的 TTFT 仅 75.7 ms,较同基座规模的 Qwen3.5-0.8B 快 2.2 倍;
2)在高并发吞吐上,单卡可达 7013 token/s、54.79 张/s 的 1344² 图片处理能力,是 Qwen3.5-0.8B 的 1.5 倍,意味着同样的硬件可以承载数倍的线上流量。
这两个维度的数值指标,共同指向同一结论:
MiniCPM-V 4.6 用更短的视觉序列、更小的 KV-Cache,把多模态推理的端侧体感与云侧 ROI 同时推到了新的高度。
根据 AA 榜单评测,MiniCPM-V 4.6 1.3B(非推理版本)的运行仅消耗 5.4M token 量,仅为 Qwen3.5-0.8B(非推理版本,101M)的 1/19 与 Qwen 3.5-0.8B(推理版本,233M)的 1/43,模型智能密度为同尺寸模型范围内最高:
大模型的微调往往让人对昂贵的算力集群望而却步,但 MiniCPM-V 4.6 将这个门槛降到了目前业内最低。
得益于极致精简的 1.3B 黄金参数量,开发者仅需一张 RTX 4090 等常见的消费级显卡,即可全量跑通整个微调流程。
这意味着,无论是个人开发者、高校研究团队还是初创公司,都能以极低成本快速验证 idea,实现多模态模型能力的本地化闭环定制。
为了让开发者告别繁琐的环境配置,MiniCPM-V 4.6 实现了与主流开源生态的全面无缝对接:
1)微调框架全面支持:官方原生支持 ms-swift 与 LLaMA-Factory 等业内最受欢迎的微调框架。开发者只需准备好场景数据,修改几行配置,一键即可拉起专属模型的训练。
2)推理框架全家桶兼容:在部署端,我们同步适配了 vLLM、SGLang、llama.cpp、Ollama 等顶级高性能推理框架。
无论是追求极致并发的云端服务,还是苛求资源占用的端侧设备,MiniCPM-V 4.6 都能游刃有余地完成高效部署。
极低的显存占用、极高的并发吞吐量、完备的上下游工具链——MiniCPM-V 4.6 天生就是为了被「爆改」而生,是开发者用于构建高并发计算、极速响应的垂直应用的高性价比多模态底座。
无论是云端高并发服务,还是端侧苛刻的资源占用,MiniCPM-V 4.6 都能游刃有余。
我们提供了详尽的端侧部署指南,助你轻松上手:
➤ 英文:
https://github.com/OpenBMB/MiniCPM-V-Apps/blob/main/README.md
➤ 中文:
https://github.com/OpenBMB/MiniCPM-V-Apps/blob/main/README_zh.md
从 8B 到 4B,再到今天的 1.3B,MiniCPM-V 系列的每一次迭代,都不是能力的妥协,而是效率的跃升,是对端侧多模态能力边界的又一次实质性扩张。
目前,MiniCPM-V 系列模型已在汽车、PC、手机、智能家居等多个终端场景规模化落地,合作伙伴涵盖联想、吉利、上汽大众等数十家行业头部企业。
让 AI 的智能真正触达每一块屏幕、每一个终端,是我们的愿景,也是我们的使命。欢迎每一位开发者,与我们共同探索端侧 AI 的无限可能!
➤ GitHub
➤ GitCode
➤ Web Demo
➤ APP Demo
