给机器人装上“前额叶”:具身智能的世界模型数据基建

作者:数据堂发布时间:2026-06-24
世界模型走向具身:数据成为第一道门槛

2026年6月,北京智源大会上“世界模型”成为热门词汇。AI的范式正在从“预测下一个Token”走向“预测下一个物理状态”。世界模型的运用呈现多样化,在自动驾驶、游戏AI、气象预测等场景中,世界模型分别承担着轨迹推演、环境模拟与动态建模等关键角色。场景不同,但底层逻辑高度一致:让AI在真实行动之前,先于内部完成对下一步环境状态的预判。



具身智能场景下的世界模型遵循同样的预判逻辑,但场景复杂度更高、物理约束更严、交互反馈更为直接。具身智能则要求机器人在真实物理空间中具备“预演未来”的认知能力,犹如为机器人装上前额叶皮层,使其在执行抓取、移动或装配等物理动作之前,先行在内部完成对动作结果的模拟与推演,从而降低试错成本,提升跨场景的通用操作能力。


大语言模型可以从互联网抓取海量文本,但在具身智能场景下,世界模型需要的是真实物理世界的交互数据。LLM处理的是静态的、已存在的文本;世界模型要处理的是动态的、时序的、因果的物理演化过程。



数据如何决定具身世界模型的“世界观”?

模态维度:为“前额叶”打通全感官通道

具身智能场景下的世界模型,其训练数据必须覆盖真实物理交互所需的全部感知通道。需要多模态融合的训练数据:视觉数据,如RGB视频、深度图、点云,3D甚至4D的空间数据;触觉与力觉数据,用于推理复杂接触动力学;关节角度、力矩、速度等本体感知数据;碰撞、摩擦、破碎等音频数据。多种模态共同支撑模型构建对物理世界完整的感知-行动闭环。

内容维度:数据的内涵,决定“前额叶”的上限

具身智能世界模型的泛化能力,直接取决于训练数据在四个关键维度上的覆盖程度:动作类型(抓取、推、拉、拧、插等操作)、对象属性(材质、形态、重量等物理特征)、场景环境(家庭、工厂、办公室等真实空间)和本体形态(不同构型的机器人)。四者交叉构成的组合空间越大,模型面对真实世界多样性的适应能力就越强。

此外,数据里还需要包含足够的"反面教材"。"成功"并不是世界的默认状态。面对抓取滑脱、碰撞偏移等非理想情况时,模型只会把失败"脑补"成成功。而这些非标准情境恰恰是模型理解接触、摩擦、重心等物理因果关系的关键。没见过失败,模型就不可能预判失败,也不可能真正学会规避和应对。



具身世界模型的“数据荒”如何破局?


Ego-Centric数据正在成为“主食”

Ego-Centric数据由采集者佩戴头戴设备,在日常环境中以第一视角自然完成各种任务所记录。之所以成为世界模型预训练的"主食",核心在于解决了规模化难题。单人日均产出可达数小时,采集成本远低于真机遥操。

除成本优势,Ego数据的内容价值同样不可替代。世界模型的核心任务是构建对物理世界的因果预测,即给定某一动作,推演其对环境状态的影响。这一目标要求以行动者为中心的观察坐标系。在第一人称视频中,任务目标本身定义了数据采集的结构,手-物交互与空间关系始终处于画面核心;同时忠实记录真实人类行为的完整时序轨迹,包含失败、停顿、修正等非平稳过程。这些“不完美”恰恰是模型理解物理因果、学习纠错与自适应策略的关键。

真机遥操:从"主食"到"精调食材"

真机遥操作数据由操作员通过遥操作设备控制真实机器人采集,包含视觉、力觉、关节角度等全部传感器信息。优势在于数据分布与部署时的推理分布完全对齐。模型训练时看到的是什么本体和动作空间,部署时面对的就是同样条件,不存在分布偏移。这是Ego数据无法替代的。

高对齐性的代价是贵和慢。单小时采集涉及操作员培训、场景搭建、任务复现等多个环节,综合成本是Ego数据的数倍。当预训练数据需求达数万小时量级时,全部依赖真机数据在商业上已不可持续。因此其角色正从"预训练主食"转为"后训练精调食材"。先用Ego数据让模型认识世界,再用少量真机数据教会模型迁移到自己的本体。



数据堂如何为具身世界模型构建数据底座

具身智能的数据需求正在经历范式升级,数据堂作为专业的数据服务商可为客户提供面向物理AI时代的数据基础设施。主要包含两层能力:提供高质量的成品数据集,支撑模型快速启动;具备规模化、可定制的数据生产能力,满足研究持续演进中的供给需求。

10万小时多场景Ego-Centric第一人称数据
以第一人称视角采集人类在多种真实场景中的操作行为,每条数据包含时间对齐的双目视频、双目相机参数、3D场景重建点云文件、人体关节数据及分步骤语义标注。任务类型覆盖烹饪、手工、运动等,包含短周期、中周期与长周期任务,并完整保留错误恢复等特殊场景记录。

2.7亿组3D模型及1800万组3D场景数据
3D模型覆盖人物、动物、建筑、日常物品等类别,包含静态模型、交互模型与物理增强模型;3D场景覆盖家居与商业空间。可满足世界模型对3D空间数据的刚性需求。点击获取数据样例

15万段灵巧手操作数据集

包含指令、人类遥操作原始轨迹、RGB与深度传感器数据、关节、手部、底盘的位置、姿态、力等四类数据。该数据集定位真机后训练阶段。当模型通过Ego数据建立物理常识后,需以此完成从"人类经验"到"自身上手"的迁移。




成品数据集解决"快速启动",而世界模型研究的纵深发展往往需要更精准、更定制化的数据供给。数据堂在此维度的核心能力体现为:规模化采集标注基础设施


部署EGO、UMI等轻量化采集方案,由操作人员在自然场景中完成数据采集,周产能有效数据约5000小时。且建有具身智能数据采集工厂,配备灵巧手、遥操作机械臂、力反馈设备、惯性动捕系统、多视角RGB-D视觉设备等,可模拟零售、家居服务、仓储、医疗、工业等多类真实环境。

数据堂面向具身智能与世界模型场景已形成体系化的标注模板能力。平台提供位姿标注工具,支持导入点云与3D模型,通过智能特征匹配实现初始毫米级自动对齐,输出标准化六自由度位姿矩阵,可直接用于机器人抓取轨迹规划。

同时支持3D点云标注(物体识别、追踪、语义分割)、视频标注(Ego视角行为时序标注、动作识别)、2D-3D融合标注等。支持私有化部署,满足高安全等级场景的数据合规要求。



数据的定义正在被改写

给机器人装上“前额叶”,意味着让它在真实的物理世界中行动之前,先在脑中完成一次次模拟运行。而这一能力的实现,归根结底取决于数据的规模、结构与质量。但行业变化的速度远比预期更快,对数据的精度、规模、模态和覆盖广度提出的要求也在持续攀升,当范式迁移成为常态,选择一家值得信赖的数据合作伙伴,比任何时候都更重要。

数据堂提供覆盖数据全生命周期的闭环能力。无论是快速启动所需的成品数据,还是精准匹配研究方向的定制数据,均可在一个体系内完成交付。选择数据堂,就是选择一套稳定、高效、即需即用的数据基础设施。