智算多多
官方邮箱:service@zsdodo.com

公司地址:北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部


在2026年2月25日的深度报告《具身智能迫近临界点,人形机器人商业化有望揭开序幕》中,我们曾领先市场率先提出了对于人形机器人商业化的思考框架:
人形机器人的商业化价值几乎必然面向“高价值/低重复”任务。我们将机器人面向的商业场景抽象为四大象限。第一象限(高重复、高价值)是典型的专用设备领域,如汽车组装车间的机械臂或医疗领域的达芬奇手术机器人,客户愿意为特定高价值任务买单,但设备泛化性弱;第二象限(高重复、低价值)多由通用型自动化设备主导,如仓储AGV或家用扫地机,以标准化方案解决低附加值劳动;我们认为,人形机器人由于初期研发成本较高,其必须面向具有高额支付意愿的“高价值”领域;同时,其通用形态与泛化智能的溢价,只有在面对非标准化、高度复杂的“低重复性”任务时才能得到真正释放。因此,人形机器人真正的星辰大海在于第四象限(低重复、高价值)。此外,第三象限(低重复、低价值)中长尾且琐碎的日常杂务(如捡拾零散纸团),目前并不具备独立的商业化土壤,我们预计这类场景将在第四象限核心技术成熟后,受益于技术外溢被顺带解决。

在“高价值、低重复”的核心市场中,基于机器人能力侧重点(大脑思考泛化/小脑动作泛化)与客群属性(ToB/ToC)的进一步解耦,人形机器人的商业化落地可划分为四大细分场景。

结合前不久我们团队在硅谷调研的见闻,我们认为Optimus第一阶段的商业化,不一定是“完全自主替代人”,而更可能是一种“干中学”的过渡,将“劳动力”与“劳动场景”拆开,先做成一种physical labor cloud的类型。



埃隆·马斯克在过去半个月中持续为Optimus V3预热,3月21日在X发言称把 Optimus 放进“自复制机器/太空制造”的叙事中,3月25日将Raptor 3 类比 Optimus V3,暗示这是一次明显的代际升级,同一天发布视频,为 Optimus V3预热;3月31日在X发言称Optimus V3 已能走动,还仍需最后一些润色才能对外展示。

特斯拉OptimusV3发布在即,推动人形机器人进入量产阶段。自2022年Bumblebee原型机开启研发进程以来,特斯拉通过2023年Gen 1、Gen 2型号的相继推出,在运动控制与环境感知领域实现了质变突破。2025年9月,特斯拉发布Gen 2.5版本及其定型设计,进一步升级了灵巧手、运动性能及AI架构;同年Optimus顺利进入试生产阶段,特斯拉同步启动了弗里蒙特工厂试点产线的建设工作。2026年2月,特斯拉官方正式宣布Optimus V3将于2026年第一季度亮相,马斯克接受采访称“Optimus是我投入精力最多的项目,也将是人类历史上最伟大的项目。目前第三版设计已经定型,具备三大核心优势:人类级别的手部灵巧度、AI大脑以及大规模量产能力”。

Optimus迎量产元年,加州百万台生产线正加速建设,德州千万台产能正加速规划。马斯克在特斯拉2025年股东大会上表示,“首先在加州弗里蒙特工厂建立年产100万台的生产线,将于2026年投产,随后将在德州工厂建设年产1000万台的第二条生产线,有望于2027年投产”。马斯克还表示,“我认为到今年(26年)年底,Optimus 将能够完成更复杂的任务,不过它仍将主要被部署在工业环境。明年(27年)年底,我们将正式向公众(C端)销售 Optimus”。我们认为当前特斯拉Optimus已进入大规模量产前的供应链准备阶段,且未来量产指引将从上一个阶段的百万台指引逐渐演进到德州工厂驱动的千万台,行业空间有望十倍打开。

数据侧:召唤感觉运动幽灵,NV EgoScale验证人类视频数据的Scaling Law。
2026年2月19日,NV EgoScale框架基于2万+小时的带动作标签的第一人称(egocentric)人类视频数据集,验证了灵巧手操作泛化性的Scaling Law。研究团队认为,人类行为是学习物理智能最具可扩展性的数据来源之一,EgoScale框架是一个基于大规模自我中心人类数据构建的人机灵巧操作迁移框架,在超过20,854小时的动作标注视频数据(比先前研究规模大20倍以上)上训练视觉-语言-动作(VLA)模型,发现人类数据规模与验证损失之间存在对数线性扩展规律。

人类数据本质上是伪装的机器人数据。2月底,NV GROOT研究员Danfei Xu在X上发布长文,再次指出“人类数据本质上是伪装的机器人数据”的观点。

模型侧:顶尖具身大脑公司的商业化进入试水阶段。
2月24日,PI发布Blog,认为机器人行业也需要一个像大模型API那样可复用、可调用的“基础智能层”,从而让应用团队不必每次都从控制器、数据管线和模型训练重新搭起整套系统,同时给出了Weave和Ultra两家合作伙伴的标杆案例。
我们认为,抛出商业化橄榄枝、展示合作伙伴案例秀肌肉本身证明SOTA级别的具身大脑渐渐进入可用阶段。但与LLM不同,具身大脑API的商业化在现阶段面临两个追问:其一是API通用性的追问:具身大脑的通用性面临跨本体与跨场景的挑战,API是一个非常标准化的产品,但要在真实世界,多样的机器人本体上部署还是要经过非常多真实世界的调试,这可能会限制应用的的广泛性。其二是机器人公司灵魂的追问:具身模型的技术路线可能还未真正收敛,即便强如PI的大脑智能程度也相对初级,目前主要玩家还不甘心只做应用,还会持续在基模方向发力。

真实机器采集数据是具身智能迭代的核心刚需,轻量化采集设备的技术突破推动数据获取实现降本提效,UMI方案则进一步破解传统采集模式的痛点,成为轻量化真实数据采集的关键路径。
UMI(Universal Manipulation Interface)作为一种新型轻量化真实数据采集方案,其核心在于实现数据采集过程与机器人本体的完全解耦。该系统硬件极为精简,仅由一套手持式3D打印平行夹爪与腕部视角相机构成,整套设备成本控制在400美元左右。采集过程中,相机同步记录相对末端轨迹,而非传统方式中机械臂的绝对关节角度。这种设计将数据采集设备从昂贵的工业机械臂简化为一套“即拿即用”的手持终端,本质上是将机器人操作数据的生产门槛从专业实验室级别降维至消费电子级别。

相较于传统采集方案,UMI在采集场景、数据泛化、成本控制三个核心维度实现突破:
一般而言,真机数据的优势在于其高保真度(物理交互的真实性),能够精准反映复杂操作中的力学反馈和不确定性,劣势在于采集成本高昂、采集周期长且现阶段数量较少。仿真合成数据的优势在于低成本、高效率与场景的可扩展性,基于物理引擎可快速生成海量的多样化数据,尤其适合预训练数据积累与极端场景的模拟,劣势在于“仿真鸿沟”——虚拟环境与物理现实的偏差导致模型在真实任务中表现不稳定。目前,英伟达、Skild AI、银河通用三家厂商已明确在训练具身智能大模型时采用了仿真合成数据。

真机数据采集路线的典型代表是北美具身智能明星企业Physical Intelligence(简称PI),有报道称PI租下了Airbnb在旧金山的许多公寓用于真实空间和场景的数据采集,成本极为高昂。仿真合成数据的代表以银河通用为例,其基于NVIDIA Isaac平台构建高效的数据生产管线,通过升级物理真实性与渲染并行度,仅一周即生成全球规模最大的十亿级机器人操作数据集。作为全球首个完全基于仿真合成大数据进行预训练的具身大模型,GraspVLA展现出比OpenVLA、π0、RT-2、RDT等模型更强大的泛化能力:光照泛化、干扰物泛化、平面位置泛化、高度泛化、背景泛化、物体类别泛化。

NVIDIA CEO黄仁勋于2025年CES大会上指出,每家机器人公司最终都必须构建三台基础计算机协同的解决方案,形成从训练到优化再到执行的完整体系。对于英伟达而言,“第一台计算机”是DGX AI超级计算机,用于训练。“第二台计算机”是基于NVIDIA RTX PRO服务器的NVIDIA Omniverse和Cosmos,用于生成合成数据、进行强化学习,同时也是DGX和 AGX的桥梁。“第三台计算机”是NVIDIA为边缘计算和自主系统设计的嵌入式平台NVIDIA Jetson AGX Thor,用于端侧部署。从训练到仿真再到部署,“三台计算机”打造了英伟达在通用人形机器人的完整框架,可以缩短人形机器人的开发周期、降低开发成本和风险,构建开放的生态系统。
第一步,在“第一台计算机”上训练模型,开发者可以在NVIDIA DGX平台上使用NVIDIA NeMo 来训练和微调AI模型,还可以利用NVIDIA Project GR00T使人形机器人能够理解自然语言,并能够通过观察人类行为来模仿动作。第二步,开发者可利用Omniverse和Cosmos生成海量符合物理特性的多样化合成数据,例如2D或3D图像、分割掩码、深度图或运动轨迹数据,为模型训练和性能优化奠定基础;开发者在基于Omniverse构建的NVIDIA Isaac Sim的仿真环境中零风险验证其机器人策略;还可以使用“第二台计算机”的Isaac Lab(一个开源的机器人学习框架),赋能机器人的强化学习和模仿学习,加速完善机器人的训练策略。第三步,训练好的AI模型被部署到端侧计算机上。

近年来,英伟达不断强调旗下图形部门中仿真条线的重要性,即“第二台计算机”的重要性。美国科技媒体《The Information》深入报道了英伟达创始人兼CEO黄仁勋子女在该公司任职的情况。报道指出,黄仁勋现年34岁的女儿黄敏珊(Madison Huang)于2020年加入英伟达,现任Omniverse和机器人技术领域的资深产品营销主管。其35岁的儿子黄胜斌(Spencer Huang)于2022年加入英伟达,目前担任机器人项目的产品经理。
黄仁勋的管理理念与传统企业不同,他相信企业架构的扁平化结构与信息的极度透明可以提高企业运转效率,因此公司高管直接向黄仁勋汇报工作。仿真技术副总裁和英伟达其他重要业务部门副总裁(如GPU工程高级副总裁、DGX Cloud业务副总裁等)一并直接向黄仁勋汇报工作。从黄仁勋家族成员在公司的角色配置和岗位安排,再到仿真技术副总裁的直接汇报,不难看出黄仁勋本人对于英伟达仿真业务的重视程度之深。
Omniverse是一个用于大规模构建和运行3D应用程序及服务的开发平台,该平台基于OpenUSD(通用场景描述)和NVIDIA RTX渲染技术,支持实时协作、物理精准仿真和生成式AI集成,主要应用于工业数字化、机器人训练、自动驾驶仿真和元宇宙等领域,已成为工业设计、数字孪生、AI 开发等领域的核心工具。
NVIDIA Isaac Sim是一款基于Omniverse构建的开源应用,使开发者能够在基于物理的虚拟环境中模拟和测试AI机器人解决方案。Isaac Sim 有以下三大功能:

目前,个人创作者、设计师和开发者可免费使用NVIDIA Omniverse的基础版本,目的是降低设计技术门槛,吸引用户参与生态建设,通过培养用户群体,推动内容创作和技术创新,进而间接带动企业端需求增长。针对企业用户,NVIDIA Omniverse专门推出了Omniverse Enterprise软件,企业用户可拥有90天试用期,试用期过后的订阅费用为每GPU每年4,500美元。但该软件试用版要求拥有搭载NVIDIA RTX的工作站或服务器(官网建议要求具有16GB VRAM的支持RTX的GPU)。这种销售模式将在一定程度上带动硬件产品(GPU等)销量增长,形成“软件驱动硬件”的协同效应。

世界模型的持续迭代,使机器人可在虚拟环境中精准预判物理规律与动态变化。北美方面,谷歌DeepMind发布的Genie 3首次实现了仅凭文本提示即可生成720P分辨率、24FPS的高动态三维交互世界,该模型不仅具备长达数分钟的物理一致性与空间记忆,还能对导航、环境干预等外部操作做出符合物理定律的实时响应。国内方面,蚂蚁灵波科技全面开源了LingBot-World及其衍生模型,实现了极低延迟的键盘/鼠标实时操控与长达10分钟的无损连续生成,克服了长时漂移与细节塌陷问题,且首创了自回归“视频-动作”一体化框架,支持机器人同步推演未来物理状态并输出动作指令。这种内化了物理因果律、空间结构与长时交互能力的新一代世界模型,为具身智能提供了可靠的虚拟仿真与交互推演支撑,其生成的海量高质量交互合成数据,可缓解机器人产业的数据供给瓶颈。

AI 大模型多模态理解与生成能力的快速进步,使得海量人类第一人称及第三人称视频,正高效转化为机器人训练数据。此前,受人手与机器夹爪的跨本体形态差异限制,人类视频难以直接用于机器人训练。随着多模态大模型持续迭代,该技术瓶颈已被快速突破,模型可将人类视频中的动作语义精准映射至机器本体。目前,Tesla Optimus、Figure 等北美头部企业已大规模采用人类视频数据开展模型训练。
谷歌此前发布的 Gemini 3.0 Pro 已展现出强劲的视觉解析能力:在多模态屏幕理解任务(Screenshot-Pro)中得分达 72.7%,显著高于 Gemini 2.5 Pro(11.4%)和 Claude 4.5(36.2%);在高阶视觉逻辑推理指标 ARC-AGI-2 上,得分由 Gemini 2.5 Pro 的 4.9% 提升至 31.1%,同样领先 GPT-5.1(17.6%)。在此基础上,最新迭代的 Gemini 3.1 Pro 实现能力再次跃升,其 ARC-AGI-2 抽象推理指标得分高达 77.1%,较 3.0 版本实现翻倍提升,并大幅领先同期的 Claude Opus 4.6(68.8%)与 GPT-5.2(52.9%)。核心指标的快速提升,印证了多模态大模型在空间抽象与逻辑推理能力上的高速进化。这一底层能力突破,将显著提升人类视频向机器人训练数据的转化与映射效率,充分盘活全网海量存量视频资源,为机器人理解真实物理世界提供持续、高质量的数据支撑。

北美具身智能客户核心供应商:斯菱智驱、科森科技、田中精机、新泉股份、福赛科技、三花智控、恒立液压、北特科技、金力永磁等。
其他具身智能供应链相关供应商:泛亚微透、唯科科技、领益智造、蓝思科技、海康威视、大华股份等。
具身智能AI大脑和世界模型:协创数据、索辰科技、群核科技、智微智能等。
