智算多多

产品服务

模型广场

Token工厂

算力市场算力商情行业资讯

当前位置: 首页 > 行业资讯 > 资讯详情

「国金计算机&科技」Optimus V3前瞻

发布日期：2026-04-06 来源：百家号作者：百家号

怎么看人形机器人的商业化？——四象限的泛化与“干中学”的可能性

在2026年2月25日的深度报告《具身智能迫近临界点，人形机器人商业化有望揭开序幕》中，我们曾领先市场率先提出了对于人形机器人商业化的思考框架：

人形机器人的商业化价值几乎必然面向“高价值/低重复”任务。我们将机器人面向的商业场景抽象为四大象限。第一象限（高重复、高价值）是典型的专用设备领域，如汽车组装车间的机械臂或医疗领域的达芬奇手术机器人，客户愿意为特定高价值任务买单，但设备泛化性弱；第二象限（高重复、低价值）多由通用型自动化设备主导，如仓储AGV或家用扫地机，以标准化方案解决低附加值劳动；我们认为，人形机器人由于初期研发成本较高，其必须面向具有高额支付意愿的“高价值”领域；同时，其通用形态与泛化智能的溢价，只有在面对非标准化、高度复杂的“低重复性”任务时才能得到真正释放。因此，人形机器人真正的星辰大海在于第四象限（低重复、高价值）。此外，第三象限（低重复、低价值）中长尾且琐碎的日常杂务（如捡拾零散纸团），目前并不具备独立的商业化土壤，我们预计这类场景将在第四象限核心技术成熟后，受益于技术外溢被顺带解决。

在“高价值、低重复”的核心市场中，基于机器人能力侧重点（大脑思考泛化/小脑动作泛化）与客群属性（ToB/ToC）的进一步解耦，人形机器人的商业化落地可划分为四大细分场景。

其一，多动脑×ToB端的营销服务场景，主要聚焦商业环境下的逻辑推理与信息交互。该场景对机器人物理运动能力要求较低，仅需完成平地行走、手势引导等基础动作，却对模型“大脑”的动态认知能力要求颇高。小鹏汽车全新人形机器人IRON率先落地自有门店“导览、导购、导巡”核心商业场景，在展厅动态复杂环境中，可实时调用VLM/VLA架构的底层物理大模型，除完成引路导览外，还能精准解析客户非标准化需求、自主开展产品答疑，并在多轮对话中挖掘客户痛点、输出定制化营销话术，核心商业价值体现在提升门店获客转化率、优化终端运营效率、实现服务人力成本替代上。
其二，多动脑×ToC端的个人陪伴场景，核心在于提供情绪价值与非结构化对话。该场景对机器人的物理动作复杂度要求有限，基础的肢体回应与表情反馈即可满足需求，但高度依赖大语言模型的语义共情、意图识别与长程多轮交互能力。以春晚小品中亮相的松延动力机器人为例，其面向老年群体的陪伴功能颇具代表性，不仅能流畅完成日常聊天、兴趣互动等对话任务，还可实时感知情绪变化并给予针对性回应。该场景核心是通过高频次的情感交互建立深度用户粘性，将机器人转化为家庭中的智能陪伴终端，从而挖掘长期的服务价值。
其三，多动手×ToB端的特种行业场景，对机器人的动态平衡、抗冲击力及全地形机动能力提出高要求。以宇树科技在2026年春晚《武Bot》节目中的表现为例，其技术底座已具备向特种场景落地的清晰可行性：一是具备较强的高动态运动控制能力，机器人在连续后空翻、武术动作中展现的姿态控制、落地缓冲与动态稳定能力，可为复杂地形通行、应急越障、高危环境作业提供运动基础；二是具备人机协同与精细力控能力，可完成精准器械操作、高速动作协同，并与人员安全无碰撞交互，感知与操控精度已满足协同作业、制式装备操作等场景的硬件条件；三是具备集群协同作业能力，20 余台机器人在直播环境下完成高速编队与队形变换，验证了低延迟通信、路径规划与避障算法的成熟度，形成了多机协同作业的技术闭环。更为关键的是，依托全栈自研，宇树将单机成本压降至10万元以内，而海外竞品波士顿动力Spot的售价约 53 万元且未实现规模化量产，其成本优势为规模化部署提供了商业基础，其早期产品甚至曾获美国海军陆战队的批量采购用以侦察运输。这种兼具高机动性能、集群协同潜力与低成本量产能力的产业化进展，已引发战略层面关注。2026年2月14日，美国国防部将宇树科技列入“1260H”清单，实施投资与采购限制。我们认为，此类管制措施从侧面印证了高机动性小脑机器人在特种行业及关键领域的战略价值与应用潜力。
其四，多动手×ToC端的家庭照护场景，需要应对高度非结构化且随时变动的家庭物理环境。该场景需要机器人具备稳定的底盘移动能力，以适配居家多样的空间布局，同时要求针对各类柔性物料的精细力控与灵巧操作能力，精准把控施力幅度与动作精度。如银河通用机器人搭载Sharpa灵巧手，可灵活完成盘核桃、折叠衣物、平稳端水杯等精细化操作，精准适配居家日常的各类操作需求，以此高效替代人类从事兼具精细度与实用性的高价值家政劳动，释放家庭照护中的人力成本。

结合前不久我们团队在硅谷调研的见闻，我们认为Optimus第一阶段的商业化，不一定是“完全自主替代人”，而更可能是一种“干中学”的过渡，将“劳动力”与“劳动场景”拆开，先做成一种physical labor cloud的类型。

从官方发心看，Tesla 自己对 Optimus 的官方定义，就是去做“危险、重复、无聊”的工作，而不是先从完全家用万能机器人开始。

从行业实践看，Sanctuary AI公开承认很多公开视频其实是人工遥操作，并将 teleoperation 视为采集行为数据、训练模型、验证硬件的关键环节，首个此类商业部署发生在加拿大不列颠哥伦比亚省兰利的Mark's零售店。CTC旗下门店为期一周的试点成功在“真实”门店环境中测试了这款通用机器人，完成了110项零售相关任务，包括门店前后活动，如拣货和包装、清洁、贴标签、折叠等。Contoro将遥操作模式商业化，它们让远程操作员在客户现场之外控制机器人处理AI搞不定的 edge cases，并且“从 day 1 提供可靠运行”，同时把这些人工接管继续喂给模型。

从商业逻辑看，以美国加州与德州部分蓝领工作为例，1）工业喷涂危险性和重复性高，年均工资差距38.0%；2）商业清洁动作容错高、重复度高、夜班多，年均工资差距34.8%；3）仓储搬运/补货/分拣场景更结构化，且已经有 Contoro 在部署跑通商业模式，年均工资差距14.8%。为“劳动力”与“劳动场景”的分离创造条件。

特斯拉Optimus V3发布在即，人形机器人有望迎量产元年

埃隆·马斯克在过去半个月中持续为Optimus V3预热，3月21日在X发言称把 Optimus 放进“自复制机器/太空制造”的叙事中，3月25日将Raptor 3 类比 Optimus V3，暗示这是一次明显的代际升级，同一天发布视频，为 Optimus V3预热；3月31日在X发言称Optimus V3 已能走动，还仍需最后一些润色才能对外展示。

特斯拉OptimusV3发布在即，推动人形机器人进入量产阶段。自2022年Bumblebee原型机开启研发进程以来，特斯拉通过2023年Gen 1、Gen 2型号的相继推出，在运动控制与环境感知领域实现了质变突破。2025年9月，特斯拉发布Gen 2.5版本及其定型设计，进一步升级了灵巧手、运动性能及AI架构；同年Optimus顺利进入试生产阶段，特斯拉同步启动了弗里蒙特工厂试点产线的建设工作。2026年2月，特斯拉官方正式宣布Optimus V3将于2026年第一季度亮相，马斯克接受采访称“Optimus是我投入精力最多的项目，也将是人类历史上最伟大的项目。目前第三版设计已经定型，具备三大核心优势：人类级别的手部灵巧度、AI大脑以及大规模量产能力”。

Optimus迎量产元年，加州百万台生产线正加速建设，德州千万台产能正加速规划。马斯克在特斯拉2025年股东大会上表示，“首先在加州弗里蒙特工厂建立年产100万台的生产线，将于2026年投产，随后将在德州工厂建设年产1000万台的第二条生产线，有望于2027年投产”。马斯克还表示，“我认为到今年（26年）年底，Optimus 将能够完成更复杂的任务，不过它仍将主要被部署在工业环境。明年（27年）年底，我们将正式向公众（C端）销售 Optimus”。我们认为当前特斯拉Optimus已进入大规模量产前的供应链准备阶段，且未来量产指引将从上一个阶段的百万台指引逐渐演进到德州工厂驱动的千万台，行业空间有望十倍打开。

物理AI：人类视频数据Scaling Law，顶尖具身大脑商业化试水

数据侧：召唤感觉运动幽灵，NV EgoScale验证人类视频数据的Scaling Law。

2026年2月19日，NV EgoScale框架基于2万+小时的带动作标签的第一人称(egocentric)人类视频数据集，验证了灵巧手操作泛化性的Scaling Law。研究团队认为，人类行为是学习物理智能最具可扩展性的数据来源之一，EgoScale框架是一个基于大规模自我中心人类数据构建的人机灵巧操作迁移框架，在超过20,854小时的动作标注视频数据（比先前研究规模大20倍以上）上训练视觉-语言-动作（VLA）模型，发现人类数据规模与验证损失之间存在对数线性扩展规律。

人类数据本质上是伪装的机器人数据。2月底，NV GROOT研究员Danfei Xu在X上发布长文，再次指出“人类数据本质上是伪装的机器人数据”的观点。

理想的人类数据：虽然形态不同、驱动和传感堆栈不同，但通过充分的传感器和状态估计，人类行为可以被捕捉并视为另一个"机器人"的数据，仍然是由相同物理规律支配的从感知到动作的映射。当前人类数据仍然严重依赖视觉，缺少如声音、力和接触反馈，所以只能获取动作和结果，但很难获取产生它们的控制命令。
相比遥操作数据：遥操作会扭曲人类行为，许多自然且细微的感觉运动智能从未进入数据集，而日常人类数据包含丰富的人与人之间的互动。
相比视频数据：在预测的视觉画面和物理执行之间仍然存在最后一英寸（或牛顿）的差距。几毫米的误差、几毫秒的延迟，或单个牛顿的力差都可能决定物体是滑落还是保持稳定。

模型侧：顶尖具身大脑公司的商业化进入试水阶段。

2月24日，PI发布Blog，认为机器人行业也需要一个像大模型API那样可复用、可调用的“基础智能层”，从而让应用团队不必每次都从控制器、数据管线和模型训练重新搭起整套系统，同时给出了Weave和Ultra两家合作伙伴的标杆案例。

我们认为，抛出商业化橄榄枝、展示合作伙伴案例秀肌肉本身证明SOTA级别的具身大脑渐渐进入可用阶段。但与LLM不同，具身大脑API的商业化在现阶段面临两个追问：其一是API通用性的追问：具身大脑的通用性面临跨本体与跨场景的挑战，API是一个非常标准化的产品，但要在真实世界，多样的机器人本体上部署还是要经过非常多真实世界的调试，这可能会限制应用的的广泛性。其二是机器人公司灵魂的追问：具身模型的技术路线可能还未真正收敛，即便强如PI的大脑智能程度也相对初级，目前主要玩家还不甘心只做应用，还会持续在基模方向发力。

真实机器采集数据是具身智能迭代的核心刚需，轻量化采集设备的技术突破推动数据获取实现降本提效，UMI方案则进一步破解传统采集模式的痛点，成为轻量化真实数据采集的关键路径。

UMI（Universal Manipulation Interface）作为一种新型轻量化真实数据采集方案，其核心在于实现数据采集过程与机器人本体的完全解耦。该系统硬件极为精简，仅由一套手持式3D打印平行夹爪与腕部视角相机构成，整套设备成本控制在400美元左右。采集过程中，相机同步记录相对末端轨迹，而非传统方式中机械臂的绝对关节角度。这种设计将数据采集设备从昂贵的工业机械臂简化为一套“即拿即用”的手持终端，本质上是将机器人操作数据的生产门槛从专业实验室级别降维至消费电子级别。

相较于传统采集方案，UMI在采集场景、数据泛化、成本控制三个核心维度实现突破：

采集环境从封闭式向开放式拓展，摆脱对数采工厂的依赖，保障数据多样性与采集高效性。传统遥操作采集依赖昂贵的工业机械臂与动捕设备，仅能在封闭实验室或专业数采工厂开展采集工作。而UMI凭借手持终端的轻量化优势，无需固定场地及复杂配套设备，采集人员可便捷进入家庭、办公室、户外等各类非结构化真实场景完成采集，显著丰富了数据的场景多样性与真实度，使采集数据更贴合具身智能的实际应用需求。
数据泛化能力显著提升，可实现高质量数据的跨设备复用。传统采集模式高度依赖特定机器人的关节角度数据，导致数据通用性差、难以跨构型复用。而UMI以腕部第一视角相机作为唯一观测点，避免采集者体型差异带来的视觉误差，同时重点记录末端执行器的轨迹与姿态，而非具体关节参数。这种“重末端、轻本体”的表征方式，使采集数据具备极强的硬件无关性，可无缝迁移至不同构型、不同尺寸的机器人训练中，有效解决了传统数据复用性差的问题，实现数据价值最大化。
商业经济性优势突出，可将真实数据的采集成本击穿至消费级区间。传统真机采集属于重资产投入，高额的场地租金、机械臂折旧及设备运维成本，制约了数据的规模化获取。而UMI凭借硬件精简、与机器人本体解耦的设计，有效剥离了高额固定成本。运营成本层面，其部署效率较高，无需搭建固定工装，也无需调试机械臂与动捕系统的联动参数，开机即可启动采集；同时，其采集速度达到传统遥操作模式的3倍，可在相同时间内完成更多场景的采集任务，提升单位时间样本产出量。双重优势叠加下，UMI将采集成本击穿至消费级区间，为具身智能大规模数据采集提供了财务可行性。

一般而言，真机数据的优势在于其高保真度（物理交互的真实性），能够精准反映复杂操作中的力学反馈和不确定性，劣势在于采集成本高昂、采集周期长且现阶段数量较少。仿真合成数据的优势在于低成本、高效率与场景的可扩展性，基于物理引擎可快速生成海量的多样化数据，尤其适合预训练数据积累与极端场景的模拟，劣势在于“仿真鸿沟”——虚拟环境与物理现实的偏差导致模型在真实任务中表现不稳定。目前，英伟达、Skild AI、银河通用三家厂商已明确在训练具身智能大模型时采用了仿真合成数据。

真机数据采集路线的典型代表是北美具身智能明星企业Physical Intelligence（简称PI），有报道称PI租下了Airbnb在旧金山的许多公寓用于真实空间和场景的数据采集，成本极为高昂。仿真合成数据的代表以银河通用为例，其基于NVIDIA Isaac平台构建高效的数据生产管线，通过升级物理真实性与渲染并行度，仅一周即生成全球规模最大的十亿级机器人操作数据集。作为全球首个完全基于仿真合成大数据进行预训练的具身大模型，GraspVLA展现出比OpenVLA、π0、RT-2、RDT等模型更强大的泛化能力：光照泛化、干扰物泛化、平面位置泛化、高度泛化、背景泛化、物体类别泛化。

NVIDIA CEO黄仁勋于2025年CES大会上指出，每家机器人公司最终都必须构建三台基础计算机协同的解决方案，形成从训练到优化再到执行的完整体系。对于英伟达而言，“第一台计算机”是DGX AI超级计算机，用于训练。“第二台计算机”是基于NVIDIA RTX PRO服务器的NVIDIA Omniverse和Cosmos，用于生成合成数据、进行强化学习，同时也是DGX和 AGX的桥梁。“第三台计算机”是NVIDIA为边缘计算和自主系统设计的嵌入式平台NVIDIA Jetson AGX Thor，用于端侧部署。从训练到仿真再到部署，“三台计算机”打造了英伟达在通用人形机器人的完整框架，可以缩短人形机器人的开发周期、降低开发成本和风险，构建开放的生态系统。

第一步，在“第一台计算机”上训练模型，开发者可以在NVIDIA DGX平台上使用NVIDIA NeMo 来训练和微调AI模型，还可以利用NVIDIA Project GR00T使人形机器人能够理解自然语言，并能够通过观察人类行为来模仿动作。第二步，开发者可利用Omniverse和Cosmos生成海量符合物理特性的多样化合成数据，例如2D或3D图像、分割掩码、深度图或运动轨迹数据，为模型训练和性能优化奠定基础；开发者在基于Omniverse构建的NVIDIA Isaac Sim的仿真环境中零风险验证其机器人策略；还可以使用“第二台计算机”的Isaac Lab（一个开源的机器人学习框架），赋能机器人的强化学习和模仿学习，加速完善机器人的训练策略。第三步，训练好的AI模型被部署到端侧计算机上。

近年来，英伟达不断强调旗下图形部门中仿真条线的重要性，即“第二台计算机”的重要性。美国科技媒体《The Information》深入报道了英伟达创始人兼CEO黄仁勋子女在该公司任职的情况。报道指出，黄仁勋现年34岁的女儿黄敏珊（Madison Huang）于2020年加入英伟达，现任Omniverse和机器人技术领域的资深产品营销主管。其35岁的儿子黄胜斌（Spencer Huang）于2022年加入英伟达，目前担任机器人项目的产品经理。

黄仁勋的管理理念与传统企业不同，他相信企业架构的扁平化结构与信息的极度透明可以提高企业运转效率，因此公司高管直接向黄仁勋汇报工作。仿真技术副总裁和英伟达其他重要业务部门副总裁（如GPU工程高级副总裁、DGX Cloud业务副总裁等）一并直接向黄仁勋汇报工作。从黄仁勋家族成员在公司的角色配置和岗位安排，再到仿真技术副总裁的直接汇报，不难看出黄仁勋本人对于英伟达仿真业务的重视程度之深。

Omniverse是一个用于大规模构建和运行3D应用程序及服务的开发平台，该平台基于OpenUSD（通用场景描述）和NVIDIA RTX渲染技术，支持实时协作、物理精准仿真和生成式AI集成，主要应用于工业数字化、机器人训练、自动驾驶仿真和元宇宙等领域，已成为工业设计、数字孪生、AI 开发等领域的核心工具。

NVIDIA Isaac Sim是一款基于Omniverse构建的开源应用，使开发者能够在基于物理的虚拟环境中模拟和测试AI机器人解决方案。Isaac Sim 有以下三大功能：

生成合成数据：Isaac Sim支持大规模合成数据生成，包括感知、移动、基于物理的抓取等，并提供写实渲染和自动生成真实标签，用于训练和微调机器人基础模型。
执行软件在环测试：Isaac Sim可通过与真实机器人软件集成，为完整的机器人堆栈实现软件在环（software-in-the-loop）测试，从而验证机器人控制与感知系统。
支持机器人学习：Isaac Lab是基于Isaac Sim平台构建的开源轻量级应用，专为大规模机器人学习进行优化。通过Isaac Lab支持机器人学习流程，可加速仿真中的训练，助力模型在现实场景中的快速部署。

目前，个人创作者、设计师和开发者可免费使用NVIDIA Omniverse的基础版本，目的是降低设计技术门槛，吸引用户参与生态建设，通过培养用户群体，推动内容创作和技术创新，进而间接带动企业端需求增长。针对企业用户，NVIDIA Omniverse专门推出了Omniverse Enterprise软件，企业用户可拥有90天试用期，试用期过后的订阅费用为每GPU每年4,500美元。但该软件试用版要求拥有搭载NVIDIA RTX的工作站或服务器（官网建议要求具有16GB VRAM的支持RTX的GPU）。这种销售模式将在一定程度上带动硬件产品（GPU等）销量增长，形成“软件驱动硬件”的协同效应。

世界模型的持续迭代，使机器人可在虚拟环境中精准预判物理规律与动态变化。北美方面，谷歌DeepMind发布的Genie 3首次实现了仅凭文本提示即可生成720P分辨率、24FPS的高动态三维交互世界，该模型不仅具备长达数分钟的物理一致性与空间记忆，还能对导航、环境干预等外部操作做出符合物理定律的实时响应。国内方面，蚂蚁灵波科技全面开源了LingBot-World及其衍生模型，实现了极低延迟的键盘/鼠标实时操控与长达10分钟的无损连续生成，克服了长时漂移与细节塌陷问题，且首创了自回归“视频-动作”一体化框架，支持机器人同步推演未来物理状态并输出动作指令。这种内化了物理因果律、空间结构与长时交互能力的新一代世界模型，为具身智能提供了可靠的虚拟仿真与交互推演支撑，其生成的海量高质量交互合成数据，可缓解机器人产业的数据供给瓶颈。

AI 大模型多模态理解与生成能力的快速进步，使得海量人类第一人称及第三人称视频，正高效转化为机器人训练数据。此前，受人手与机器夹爪的跨本体形态差异限制，人类视频难以直接用于机器人训练。随着多模态大模型持续迭代，该技术瓶颈已被快速突破，模型可将人类视频中的动作语义精准映射至机器本体。目前，Tesla Optimus、Figure 等北美头部企业已大规模采用人类视频数据开展模型训练。

谷歌此前发布的 Gemini 3.0 Pro 已展现出强劲的视觉解析能力：在多模态屏幕理解任务（Screenshot-Pro）中得分达 72.7%，显著高于 Gemini 2.5 Pro（11.4%）和 Claude 4.5（36.2%）；在高阶视觉逻辑推理指标 ARC-AGI-2 上，得分由 Gemini 2.5 Pro 的 4.9% 提升至 31.1%，同样领先 GPT-5.1（17.6%）。在此基础上，最新迭代的 Gemini 3.1 Pro 实现能力再次跃升，其 ARC-AGI-2 抽象推理指标得分高达 77.1%，较 3.0 版本实现翻倍提升，并大幅领先同期的 Claude Opus 4.6（68.8%）与 GPT-5.2（52.9%）。核心指标的快速提升，印证了多模态大模型在空间抽象与逻辑推理能力上的高速进化。这一底层能力突破，将显著提升人类视频向机器人训练数据的转化与映射效率，充分盘活全网海量存量视频资源，为机器人理解真实物理世界提供持续、高质量的数据支撑。

风险提示

北美人形机器人量产节奏不及预期的风险：目前产业聚焦在北美量产指引的兑现节奏上，若新版本机器人发布效果不及预期或量产指引持续miss，或对产业链放量节奏产生一定扰动。
通用机器人Day1 L4路线缺乏商业化基础的风险：目前通用机器人产业发展尚处早期，人形机器人各项软硬件环节成熟度参差不齐，若押注Day1 L4路线在展业过程中缺乏足够容量的买单客群，或存在商业闭环到数据闭环都无法建立的风险。
仿真合成数据质量不及预期的风险：目前“缺数据”仍是机器人落地的核心卡点之一，假如基于Sim2Real模式的仿真合成数据质量不及预期，或对英伟达Isaac Sim、索辰机器人虚拟平台等主体的发展带来扰动。
模型及软件解决方案三方公司长期产业链话语权较低的风险：参考部分智能驾驶算法厂商与主机厂之间的角力关系，若未来机器人产业渐趋成熟，在国内商业生态普遍对于软件厂商不算友好的环境下，或出现三方数据商、模型算法商产业链话语权较低的风险。

本文转载自百家号，作者：百家号，原文标题：《「国金计算机&科技」Optimus V3前瞻》，原文链接： https://baijiahao.baidu.com/s?id=1861651110212033545&wfr=spider&for=pc。本平台仅做分享和推荐，不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题，请与我们联系，我们将在第一时间删除内容！

本文相关推荐

暂无相关推荐

点击立即订阅

「国金计算机&科技」Optimus V3前瞻

怎么看人形机器人的商业化？——四象限的泛化与“干中学”的可能性

特斯拉Optimus V3发布在即，人形机器人有望迎量产元年

物理AI：人类视频数据Scaling Law，顶尖具身大脑商业化试水

相关标的

风险提示