小米发布OneVL自动驾驶推理框架：压缩隐式推理，实现边想边开

小米发布自动驾驶AI推理框架OneVL

　　小米正式发布了由其具身智能团队主导研发的自动驾驶AI推理框架OneVL（One-step latent reasoning and planning with Vision-Language explanations），并已在arXiv预印本平台上线，论文编号为arXiv:2604.18486v2。同时，该框架已在GitHub平台开源。

潜变量压缩推理：兼顾速度与可解释性

　　小米团队的OneVL提出了一套新的解决方案，核心思路是将冗长的推理过程压缩为紧凑的“潜变量”，让AI在内部完成思考而不需要将每一步都写成文字。

　　在架构层面，OneVL设计了语言解码器和视觉世界模型解码器两重锚点——语言解码器负责还原推理文本以保障逻辑可解释性，而视觉世界模型解码器的引入解决了此前隐式推理方法长期面临的关键瓶颈。传统隐式推理之所以精度不及显式推理，是因为它们压缩的是语言层面的符号表征而非驾驶场景中真实的因果动力学信息。视觉解码器通过预测道路几何结构、动态障碍物运动、环境变化等未来帧信息，强制潜变量空间内化车辆所面临的真实动力学环境。训练采用三阶段渐进式架构，对齐轨迹、语言与视觉多种维度的目标；在实际推理时双解码器全部丢弃，所有潜变量一次性完成计算，推理速度与直接输出答案的模式持平。

评测表现与技术演进意义

　　在测试结果上，OneVL在NAVSIM等四个主流自动驾驶评测平台上，成为首个在精度上超越显式链式推理的隐式推理方法，同时保持了极低的响应延迟。这一进展意味着，OneVL有望在未来将其加速推理能力实现在自动驾驶系统中，使算法同时具备扎实的环境理解能力和毫秒级响应速度。

　　从技术迭代路径来看，OneVL是小米从“端到端+VLM”架构向更深度认知驱动演进过程中的关键一环。2024年开始，行业普遍采用端到端模型结合视觉语言模型的方案；2026年3月新一代SU7发布时，小米的辅助驾驶系统正式升级为XLA认知大模型架构，将视觉、语言、声音和机器人数据等多模态感知信息融入到统一的基础模型认知框架中。OneVL的论文发布及开源，为小米后续从认知模型向具体推理加速框架的优化路线图提供了底层技术支撑。

开源与跨领域应用前景

　　值得注意的是，OneVL的论文和代码已经开源，项目主页也已上线。这意味着除了自动驾驶汽车，OneVL所展现的推理加速能力也有机会被机器人控制、无人机路径规划等更广泛的具身智能领域所复用。业内分析认为，小米在自动驾驶技术路径上的布局正逐步清晰：从数据驱动到认知驱动，从VLA到XLA，从端到端大模型到提速推理框架，多线程并进的研发策略有望增强小米汽车在智能驾驶赛道上的整体竞争力。随着OneVL框架的开源及后续车规级工程化落地，小米在自动驾驶领域的下一发展阶段值得持续关注。

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号