告别“纸上谈兵”:8000㎡实景数采工厂,为具身智能注入“物理世界”经验

作者:数据堂发布时间:2026-04-28
最近关于具身智能数据生产的讨论越来越多,一个明显信号是:行业开始集体补齐“数据生产”这一环节


在这一趋势下,数据堂完成了具身智能数据工厂的新一轮升级,重点围绕灵巧手全场景任务采集,持续强化第一视角视频数据与多模态任务数据能力。



基础设施升级:8000㎡具身智能数据工厂


为突破数据供给瓶颈,数据堂已将具身智能数据工厂扩展至8000平方米,新增300套灵巧手操作设备,并持续拓展真实场景规模。


升级后的数据工厂具备以下能力:


☛ 采集设备:灵巧手、遥操作机械臂、力反馈交互设备,以及惯性动捕系统、多视角RGB-D视觉设备等;

☛ 真实场景:零售、家居服务、仓储、医疗、工业等多类型环境;

☛ 任务类型:抓取、放置、搬运、推拉、分拣、整理、装配、递送、交互等;

☛ 多模态传感器:视觉、深度、动作与力反馈数据采集。


这意味着,数据堂的具身数据能力不再停留在单一场景或单一任务采集,而是在朝着更大规模、更高效率、更贴近真实任务的数据生产体系持续推进。




核心突破:聚焦灵巧手操作数据,开启ego第一视角众包采集


在具身智能能力体系中,手部操作数据是当前最关键、也最稀缺的突破方向。相比移动与感知,复杂操作要求更精细的控制、更高自由度的动作以及更强的环境适应能力


数据堂重点布局灵巧手全场景操作数据,覆盖抓取、搬运、装配、整理、分拣、递送等任务类型,支持从单步操作到长序列任务的数据构建。通过300套灵巧手操作设备的规模化部署与真实场景模拟,我们持续采集高质量的操作数据,推动机器人从“能动”向“会操作”演进。


同时,为进一步提升第一视角视频数据的规模与多样性,数据堂创新采用众包采集模式。通过广泛的众包渠道,我们能够高效获取覆盖更多环境、更多人群、更多操作习惯的第一视角数据。


相比单一采集场景,众包形式可以大幅扩展数据的广度与真实度,为灵巧手操作学习提供更丰富的视觉观察样本,尤其有助于训练模型在复杂、多变真实环境中的泛化能力。


第一视角数据与灵巧手操作数据相结合,能够更完整地记录“看到了什么、手如何动作、如何调整”的连续过程,成为高质量操作数据体系中的核心组成部分。




多模态与 VLA:从采集到训练对齐


围绕第一视角视频数据,数据堂具身智能数据工厂已构建多模态数据采集体系,在采集灵巧手操作数据的同时,可同步获取:


☛ 第一视角(Ego)视频数据(含众包来源)

☛ 深度与空间信息

☛ 动作轨迹与关节角度

☛ 力反馈与触觉信号


数据工厂支持位姿等基础标注,并可面向VLA训练需求开展结构化标注,建立语言指令、视觉输入与动作序列之间的映射关系。


随着VLA模型成为具身智能的重要训练路径,数据对任务语义、动作过程与多模态对齐的要求不断提高。通过第一视角视频数据与多模态信息的融合和精确对齐,数据不再只是对行为的简单记录,而能够进一步表达任务目标、动作逻辑与交互过程,从而为VLA模型训练提供更高质量的数据基础。




标准化数据生产:从采集到优化的全流程生产体系


高质量具身数据的价值,不只在于采集规模,更在于是否能够进入训练闭环。


围绕这一目标,数据堂正在构建从采集、清洗、标注到质检的全流程数据生产体系,持续提升数据的一致性、可用性与训练价值。


在这一体系中,灵巧手任务数据、第一视角视频数据与多模态感知数据并不是分散存在的,而是围绕真实任务过程进行统一组织与对齐。这意味着,数据不只是记录动作本身,更能够支撑任务理解与操作学习




当具身智能进入真实世界,决定机器人能力上限的,正在从单纯的模型能力,转向真实世界数据的获取与生产能力


围绕这一趋势,数据堂正通过8000㎡具身数据工厂、300套灵巧手操作设备、多场景任务体系与多模态采集能力,持续夯实具身智能的数据底座。


而此次围绕灵巧手全场景第一视角视频数据能力的升级,也正在成为数据堂面向下一阶段具身智能训练与落地的重要突破。