当前位置: 首页 > 行业资讯 > 资讯详情

2026年具身智能技术路线之争VLA已死WAM当立

发布日期：2026-05-24 来源：今日头条作者：今日头条浏览：1

一张乱了四年的地图，终于有人敢画了

　　过去四年，具身智能领域至少冒出过三套以上“官方话术”：一会说VLA是终局方案，一会说世界模型才是正道，一会又说把世界模型嵌进VLA里就行。学术圈发论文的、工业界做产品的、投资人讲故事的，各有一套命名系统和分类逻辑。同一个思路，张三叫“视频预训练策略”，李四叫“未来帧条件动作生成”，王五直接注册商标——你以为他们在讨论三件事，其实讲的是一套活。

复旦这篇综述做的第一件狠事，就是给整个领域拉了一根基准线

　　研究团队正式提出了一个统摄性概念：世界动作模型（World Action Models，WAMs）。它的定义简洁到可以用一句话讲清楚——具身基础模型不应只输出“现在该做什么动作”，而应同时预测“做完这个动作之后世界会变成什么样”，即联合建模未来状态与动作的分布，而非单独预测动作。

　　我知道你觉得这听起来不像是“颠覆”，更像是“多加了一个输出”。但请你想想这个设定意味着什么。

　　一个只有反应、没有预测的大脑，能走多远？

　　打个比方。

　　你学开车的时候，教练有没有让你“死记”每一段路的方向盘角度？显然没有。你学到的是理解：看到红灯会减速，路面湿滑要慢打方向，前方有行人要提前预判走位。你的大脑在做的事，不是看到一个画面就机械输出一个动作，而是先“脑补”接下来几秒的世界——行人继续往前走会到哪个位置，我打了方向之后车身会滑到什么角度——然后再基于这个脑补结果做出反应。

　　这恰恰是当前具身智能最致命的短板。

　　过去三年的主流方案VLA——视觉-语言-动作模型（Vision-Language-Action models），本质上一个“条件反射式”策略。它学的是从“观测”到“动作”的直接映射，没有显式地学过物理规律，没有预测动作后果的能力，更没有做反事实推理的意识。

　　一篇行业分析里用了一个很妙的比喻：VLA就像一个学生，在不理解几何原理的情况下，死记硬背了一万道几何题的答案。遇到原题，他对答如流；条件稍微一变，立刻宕机。

　　Jim Fan的批评更狠。他说VLA其实应该改名叫“LVA”（Language-Vision-Action），因为绝大多数参数都堆在语言处理上，物理理解和动作生成被严重边缘化。翻译一下就是：这些机器人模型特别擅长“听懂指令”（知道Taylor Swift是谁，能理解“把可乐罐推过去”），但在“怎么推、用什么角度、施多大力度”这些真正的物理动词上，差得不是一星半点。

　　看到这里你可能会问：那之前就没有人想到要加“预测能力”吗？

　　当然想到了。问题在于，想到的人太多，但大家都在不同的方向上各自狂奔。

两条路，同一种直觉——WAM的架构之争

　　复旦综述把现有的WAM方案分成了两大类，这个分类看似技术细节，实则揭示了整个行业的分歧所在。

　　第一类：级联式WAM。思路是先让一个“世界模型”预测未来画面（比如想象1秒后杯子会被推到桌子边缘），再让一个“动作模型”根据这个预测画面解码出具体动作。顺序清晰，各司其职，有点像建筑工程里的“设计院出图、施工队按图施工”。好处是可解释、可阶段性训练，坏处是信息在模块间传递时一定有损耗——画图的和施工的如果沟通不畅，效果打折扣。

　　第二类：联合式WAM。不搞分工，直接把“预测世界”和“生成动作”塞进同一个神经网络里联合优化。有的方案用自回归方式逐个生成未来帧和动作token，有的用扩散模型一次性生成完整序列。好处是“端到端的物理直觉”更强，坏处是训练难度大、调试时很难定位问题。

　　你看出什么了？这就是AI领域反复上演的“模块化vs端到端”老剧情。级联派信奉“分而治之”，联合派相信“整体大于部分之和”。这篇综述没有选边站，但把每一条路的设计空间和内在权衡都摆在了台面上——没有完美的架构，只有适配场景的架构。

最让我意外的，是“数据”这件事

　　读论文的过程中，有一个细节让我反复看了好几遍。

　　WAM的训练数据来源，论文列了四种：机器人遥操作数据、便携式人类示范数据、仿真数据、互联网规模的第一视角人类视频。

　　最后一种最让我兴奋，也最让我困惑。

　　逻辑是这样的：海量互联网视频里藏着无数人类与世界交互的物理动态——杯子跌落、水流倾斜、布料折叠、门被推开。这些视频没有动作标注（你不知道视频里的人用了多大扭矩去拧那个瓶盖），但它们天然编码了“世界的因果规律”。WAM可以先用这些无标注视频学习“被动物理直觉”（物体是怎么动的、碰撞是怎么发生的），再用少量的带标注机器人数据做“动作对齐”（学会把自己的关节运动与这些物理效果对应起来）。

　　一个14亿参数的模型DreamZero，仅靠从视频中学到的“物理梦”，就能零样本泛化到从未见过的新场景中执行任务。

　　这让我突然想起一个认知科学的经典争论：人类婴儿到底是怎么学会物理知识的？皮亚杰认为是通过“感觉运动期”的反复试错，但后来的婴儿实验发现，几个月大的婴儿就已经有了基本的物理直觉——他们会对“一个物体凭空消失”这种违反物理规律的画面表现出更长的注视时间。这说明什么？也许理解物理世界，不一定需要亲自执行每一个动作。观察本身，就是一种学习。

　　WAM的数据策略暗合了这个认知逻辑。从“看”中学世界的因果，再从“做”中校准动作的精度——两件事可以解耦，这就极大地降低了机器人数据的采集门槛。

　　但这里还有一个残酷的现实值得正视：目前WAM的实验验证仍然高度集中在桌面操作、简单抓取、推拉等短程任务上。在需要数十步长程规划、涉及复杂多物体交互的场景中，无论是级联式还是联合式WAM，泛化表现都远未达到“可靠”的水平。论文在这一点上没有讳言——研究团队明确指出现有评估协议主要覆盖“可视保真度、物理常识和动作合理性”三个维度，但“真实世界的复杂性远超当前基准所能捕获的范围”。换句话说，实验室里能拉开的抽屉，和真实厨房里那个卡涩了三年的抽屉，是两个世界。

一场范式之争，最有趣的反而是“共识”

　　文章写到这里，我得停下来回答一个问题：这篇综述到底帮我们看清了什么？

　　它没有发明新模型，没有刷新任何榜单。但它做了一件事让整个领域往前走了一大步——它证明了这个方向不是散兵游勇的灵感迸发，而是一个可以系统化推进的研究领域。

　　更重要的是，读完整篇综述你会发现，无论级联派还是联合派，无论数据派还是模型派，所有人都在往同一个方向使劲：给机器加入“预测未来的能力”。

　　这件事让我想到了一个文学意象。博尔赫斯有个短篇叫《博闻强记的富内斯》，写的是一个拥有完美记忆的人——他能记住每一片树叶的形状、每一个瞬间的光影变化。但讽刺的是，恰恰因为记忆过于精确和庞大，他反而无法进行任何抽象思考，无法从海量细节中提取规律。他被自己完美的“感知”困住了。

　　VLA某种程度上就是富内斯——拥有优秀的语义感知和模式匹配能力，但没有“因果框架”。它记住了每一道题，却不懂背后的原理。而WAM试图做的，正是从这种“纯粹反应”的牢笼中跳出来，让机器拥有最低限度的“物理想象力”。

结语：2040年的展望

　　Jim Fan在他的演讲中给出了一个大胆的时间预测：2040年，机器人领域有望完成“物理API”和“物理自动研究”这两项最后的技术成就。

　　说实话，听到这个数字的时候我是怀疑的。14年，从AlexNet到现在的AI智能体，语言模型确实走了很远。但物理世界不是token序列，重力、摩擦力、弹性形变——这些不会因为你数据量大就消失。

　　但换个角度想，也许重要的从来不是“能不能准时到站”，而是我们终于把地图画了出来。

　　这篇复旦综述的标题里有个词叫“Next Frontier”——下一道前线。它暗示的不是终点，而是一个新的出发点。当行业还在为“VLA死没死”吵得面红耳赤的时候，真正重要的问题其实是：不管叫什么名字，机器是否开始学会预判它的动作将如何改变这个世界？

　　博尔赫斯在另一篇作品里写过一句我始终忘不掉的话：“未来不可避免，精确，但可能不发生。”这句话的张力恰恰概括了WAM的本质——好的预测不应是写死的剧本，而应是“如果我这样做，世界可能会变成这样”的反事实想象。

　　一篇综述的力量，不在于给出答案，而在于让这个问题终于可以被清晰地追问。

本文转载自今日头条，作者：今日头条，原文标题：《 2026年具身智能技术路线之争VLA已死WAM当立》，原文链接： http://m.toutiao.com/group/7643002989623476786/。本平台仅做分享和推荐，不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题，请与我们联系，我们将在第一时间删除内容！

本文相关推荐

暂无相关推荐

点击立即订阅

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号