首页
智算服务
AI 生态大厅
算力商情政策资讯合作与生态场景方案关于我们
控制台

当数据总量不足百万小时,具身智能企业如何突破数据金字塔顶层困境?

发布日期:2026-03-31 来源:新浪网作者:新浪网浏览:1

当数据总量不足百万小时,具身智能企业如何突破数据金字塔顶层困境?

  具身智能企业破解“数据金字塔”顶层困境的核心在于创新数据获取方式、构建高效闭环系统,并通过技术架构优化实现小数据大价值。

一、创新采集模式降低真实数据获取门槛

  • 轻量化众包采集:采用低成本设备(如手机+简易夹爪)支持普通用户参与采集,覆盖家庭服务、工业搬运等多样化场景,显著降低数据采集成本与门槛。
  • 混合采集策略:结合“人类演示+真机采集”模式,利用短视频平台提取人类操作轨迹并映射至机器人动作空间,快速构建亿级训练数据集。
  • 业务场景复用:依托物流、医疗、工业等高频刚需场景的海量业务流(如京东开放零售/外卖等场景),将真实业务操作转化为高质量数据源。

二、强化合成数据与仿真技术应用

  • 高保真物理仿真:通过CloudRobo等平台自动生成多场景合成轨迹数据(如不同光照/材质条件),结合少量真机数据将任务成功率提升至90%以上,解决极端场景数据稀缺问题。
  • 仿真-现实迁移训练:采用Sim2Real路径,先在虚拟环境预训练模型,再用真实数据微调,将精密装配等训练周期压缩至24小时。
  • 无本体数据技术突破:探索第一人称视角(EGO)和通用操作接口(UMI)方案,减少对传统硬件设备的依赖,直接通过真实场景交互获取数据。
【欣视角·问道AI | #具身智能机器人

三、构建数据闭环与生态协同

  • 自动数据回流机制:在部署产品中嵌入数据反馈链路,使机器人在真实运行中持续生成标注数据,形成“采集-训练-部署”闭环飞轮。
  • 政企协同开放场景:政府主导开放高危/民生场景(如北京开放1000+采集点),配套“数据券”补贴(年1亿元)激励企业共建数据生态。
  • 跨领域模型融合:开发统一基座模型(如小米MIMO-Embodied),打通自动驾驶与具身智能的数据壁垒,实现跨场景能力迁移。

四、优化模型架构提升数据效能

  • 分层决策架构:采用“大脑-小脑”设计,云端大模型负责规划决策,边缘端轻量化模型实现毫秒级响应,降低对单一数据源的依赖。
  • 具身原生模型设计:抛弃传统NLP/CV微调路径,构建端到端感知-决策-执行闭环架构(如SpiritV1.5),增强小样本泛化能力。
  • 太空算力部署:通过轨道计算节点(如千寻智能部署千问3大模型)压缩90%推理延迟,解决地面算力内卷导致的训练效率瓶颈。

五、建立标准化与共享机制

  • 统一数据规范:制定国际标准(如《具身智能遥操作数据采集系统技术要求》),统一传感器数据格式,促进真机与仿真数据互通。
  • 开放国家级数据集:建设行业通用数据集(如北京大学279任务数据集),配套评测标准推动数据规范化,避免重复投入。
  • 可信数据空间:基于“可用不可见”原则(如数据脱敏联防),实现跨企业安全共享,破解数据孤岛难题。

关键趋势:行业竞争逻辑正从“硬件规模”转向“场景获取能力”和“闭环迭代效率”的较量。企业需聚焦真实场景的数据沉淀与复用能力,方能突破数据金宇塔顶层的规模化困境。

本文转载自新浪网, 作者:新浪网, 原文标题:《 当数据总量不足百万小时,具身智能企业如何突破数据金字塔顶层困境? 》, 原文链接: https://news.sina.cn/bignews/insight/2026-03-31/detail-inhsvsha3429890.d.html。 本平台仅做分享和推荐,不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题,请与我们联系,我们将在第一时间删除内容!
本文相关推荐
暂无相关推荐