首页
产品服务
模型广场
Token工厂
算力市场算力商情行业资讯
注册

2026年具身智能技术路线之争VLA已死WAM当立

发布日期:2026-05-24 来源:今日头条作者:今日头条浏览:1

一张乱了四年的地图,终于有人敢画了

  过去四年,具身智能领域至少冒出过三套以上“官方话术”:一会说VLA是终局方案,一会说世界模型才是正道,一会又说把世界模型嵌进VLA里就行。学术圈发论文的、工业界做产品的、投资人讲故事的,各有一套命名系统和分类逻辑。同一个思路,张三叫“视频预训练策略”,李四叫“未来帧条件动作生成”,王五直接注册商标——你以为他们在讨论三件事,其实讲的是一套活。

复旦这篇综述做的第一件狠事,就是给整个领域拉了一根基准线

  研究团队正式提出了一个统摄性概念:世界动作模型(World Action Models,WAMs)。它的定义简洁到可以用一句话讲清楚——具身基础模型不应只输出“现在该做什么动作”,而应同时预测“做完这个动作之后世界会变成什么样”,即联合建模未来状态与动作的分布,而非单独预测动作。

  我知道你觉得这听起来不像是“颠覆”,更像是“多加了一个输出”。但请你想想这个设定意味着什么。

  一个只有反应、没有预测的大脑,能走多远?

  打个比方。

  你学开车的时候,教练有没有让你“死记”每一段路的方向盘角度?显然没有。你学到的是理解:看到红灯会减速,路面湿滑要慢打方向,前方有行人要提前预判走位。你的大脑在做的事,不是看到一个画面就机械输出一个动作,而是先“脑补”接下来几秒的世界——行人继续往前走会到哪个位置,我打了方向之后车身会滑到什么角度——然后再基于这个脑补结果做出反应。

  这恰恰是当前具身智能最致命的短板。

  过去三年的主流方案VLA——视觉-语言-动作模型(Vision-Language-Action models),本质上一个“条件反射式”策略。它学的是从“观测”到“动作”的直接映射,没有显式地学过物理规律,没有预测动作后果的能力,更没有做反事实推理的意识。

  一篇行业分析里用了一个很妙的比喻:VLA就像一个学生,在不理解几何原理的情况下,死记硬背了一万道几何题的答案。 遇到原题,他对答如流;条件稍微一变,立刻宕机。

  Jim Fan的批评更狠。他说VLA其实应该改名叫“LVA”(Language-Vision-Action),因为绝大多数参数都堆在语言处理上,物理理解和动作生成被严重边缘化。翻译一下就是:这些机器人模型特别擅长“听懂指令”(知道Taylor Swift是谁,能理解“把可乐罐推过去”),但在“怎么推、用什么角度、施多大力度”这些真正的物理动词上,差得不是一星半点。

  看到这里你可能会问:那之前就没有人想到要加“预测能力”吗?

  当然想到了。问题在于,想到的人太多,但大家都在不同的方向上各自狂奔。

两条路,同一种直觉——WAM的架构之争

  复旦综述把现有的WAM方案分成了两大类,这个分类看似技术细节,实则揭示了整个行业的分歧所在。

  第一类:级联式WAM。思路是先让一个“世界模型”预测未来画面(比如想象1秒后杯子会被推到桌子边缘),再让一个“动作模型”根据这个预测画面解码出具体动作。顺序清晰,各司其职,有点像建筑工程里的“设计院出图、施工队按图施工”。好处是可解释、可阶段性训练,坏处是信息在模块间传递时一定有损耗——画图的和施工的如果沟通不畅,效果打折扣。

  第二类:联合式WAM。不搞分工,直接把“预测世界”和“生成动作”塞进同一个神经网络里联合优化。有的方案用自回归方式逐个生成未来帧和动作token,有的用扩散模型一次性生成完整序列。好处是“端到端的物理直觉”更强,坏处是训练难度大、调试时很难定位问题。

  你看出什么了?这就是AI领域反复上演的“模块化vs端到端”老剧情。 级联派信奉“分而治之”,联合派相信“整体大于部分之和”。这篇综述没有选边站,但把每一条路的设计空间和内在权衡都摆在了台面上——没有完美的架构,只有适配场景的架构。

最让我意外的,是“数据”这件事

  读论文的过程中,有一个细节让我反复看了好几遍。

  WAM的训练数据来源,论文列了四种:机器人遥操作数据、便携式人类示范数据、仿真数据、互联网规模的第一视角人类视频。

  最后一种最让我兴奋,也最让我困惑。

  逻辑是这样的:海量互联网视频里藏着无数人类与世界交互的物理动态——杯子跌落、水流倾斜、布料折叠、门被推开。这些视频没有动作标注(你不知道视频里的人用了多大扭矩去拧那个瓶盖),但它们天然编码了“世界的因果规律”。WAM可以先用这些无标注视频学习“被动物理直觉”(物体是怎么动的、碰撞是怎么发生的),再用少量的带标注机器人数据做“动作对齐”(学会把自己的关节运动与这些物理效果对应起来)。

  一个14亿参数的模型DreamZero,仅靠从视频中学到的“物理梦”,就能零样本泛化到从未见过的新场景中执行任务。

  这让我突然想起一个认知科学的经典争论:人类婴儿到底是怎么学会物理知识的?皮亚杰认为是通过“感觉运动期”的反复试错,但后来的婴儿实验发现,几个月大的婴儿就已经有了基本的物理直觉——他们会对“一个物体凭空消失”这种违反物理规律的画面表现出更长的注视时间。这说明什么?也许理解物理世界,不一定需要亲自执行每一个动作。观察本身,就是一种学习。

  WAM的数据策略暗合了这个认知逻辑。从“看”中学世界的因果,再从“做”中校准动作的精度——两件事可以解耦,这就极大地降低了机器人数据的采集门槛。

  但这里还有一个残酷的现实值得正视:目前WAM的实验验证仍然高度集中在桌面操作、简单抓取、推拉等短程任务上。在需要数十步长程规划、涉及复杂多物体交互的场景中,无论是级联式还是联合式WAM,泛化表现都远未达到“可靠”的水平。论文在这一点上没有讳言——研究团队明确指出现有评估协议主要覆盖“可视保真度、物理常识和动作合理性”三个维度,但“真实世界的复杂性远超当前基准所能捕获的范围”。换句话说,实验室里能拉开的抽屉,和真实厨房里那个卡涩了三年的抽屉,是两个世界。

一场范式之争,最有趣的反而是“共识”

  文章写到这里,我得停下来回答一个问题:这篇综述到底帮我们看清了什么?

  它没有发明新模型,没有刷新任何榜单。但它做了一件事让整个领域往前走了一大步——它证明了这个方向不是散兵游勇的灵感迸发,而是一个可以系统化推进的研究领域。

  更重要的是,读完整篇综述你会发现,无论级联派还是联合派,无论数据派还是模型派,所有人都在往同一个方向使劲:给机器加入“预测未来的能力”。

  这件事让我想到了一个文学意象。博尔赫斯有个短篇叫《博闻强记的富内斯》,写的是一个拥有完美记忆的人——他能记住每一片树叶的形状、每一个瞬间的光影变化。但讽刺的是,恰恰因为记忆过于精确和庞大,他反而无法进行任何抽象思考,无法从海量细节中提取规律。他被自己完美的“感知”困住了。

  VLA某种程度上就是富内斯——拥有优秀的语义感知和模式匹配能力,但没有“因果框架”。它记住了每一道题,却不懂背后的原理。而WAM试图做的,正是从这种“纯粹反应”的牢笼中跳出来,让机器拥有最低限度的“物理想象力”。

结语:2040年的展望

  Jim Fan在他的演讲中给出了一个大胆的时间预测:2040年,机器人领域有望完成“物理API”和“物理自动研究”这两项最后的技术成就。

  说实话,听到这个数字的时候我是怀疑的。14年,从AlexNet到现在的AI智能体,语言模型确实走了很远。但物理世界不是token序列,重力、摩擦力、弹性形变——这些不会因为你数据量大就消失。

  但换个角度想,也许重要的从来不是“能不能准时到站”,而是我们终于把地图画了出来。

  这篇复旦综述的标题里有个词叫“Next Frontier”——下一道前线。它暗示的不是终点,而是一个新的出发点。当行业还在为“VLA死没死”吵得面红耳赤的时候,真正重要的问题其实是:不管叫什么名字,机器是否开始学会预判它的动作将如何改变这个世界?

  博尔赫斯在另一篇作品里写过一句我始终忘不掉的话:“未来不可避免,精确,但可能不发生。”这句话的张力恰恰概括了WAM的本质——好的预测不应是写死的剧本,而应是“如果我这样做,世界可能会变成这样”的反事实想象。

  一篇综述的力量,不在于给出答案,而在于让这个问题终于可以被清晰地追问。

本文转载自今日头条, 作者:今日头条, 原文标题:《 2026年具身智能技术路线之争VLA已死WAM当立 》, 原文链接: http://m.toutiao.com/group/7643002989623476786/。 本平台仅做分享和推荐,不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题,请与我们联系,我们将在第一时间删除内容!
本文相关推荐
暂无相关推荐
点击立即订阅