告别“纸上谈兵”：8000㎡实景数采工厂，为具身智能注入“物理世界”经验

作者：数据堂发布时间：2026-04-28

最近关于具身智能数据生产的讨论越来越多，一个明显信号是：行业开始集体补齐“数据生产”这一环节。

在这一趋势下，数据堂完成了具身智能数据工厂的新一轮升级，重点围绕灵巧手全场景任务采集，持续强化第一视角视频数据与多模态任务数据能力。

基础设施升级：8000㎡具身智能数据工厂

为突破数据供给瓶颈，数据堂已将具身智能数据工厂扩展至8000平方米，新增300套灵巧手操作设备，并持续拓展真实场景规模。

升级后的数据工厂具备以下能力：

☛ 采集设备：灵巧手、遥操作机械臂、力反馈交互设备，以及惯性动捕系统、多视角RGB-D视觉设备等；

☛ 真实场景：零售、家居服务、仓储、医疗、工业等多类型环境；

☛ 任务类型：抓取、放置、搬运、推拉、分拣、整理、装配、递送、交互等；

☛ 多模态传感器：视觉、深度、动作与力反馈数据采集。

这意味着，数据堂的具身数据能力不再停留在单一场景或单一任务采集，而是在朝着更大规模、更高效率、更贴近真实任务的数据生产体系持续推进。

核心突破：聚焦灵巧手操作数据，开启ego第一视角众包采集

在具身智能能力体系中，手部操作数据是当前最关键、也最稀缺的突破方向。相比移动与感知，复杂操作要求更精细的控制、更高自由度的动作以及更强的环境适应能力。

数据堂重点布局灵巧手全场景操作数据，覆盖抓取、搬运、装配、整理、分拣、递送等任务类型，支持从单步操作到长序列任务的数据构建。通过300套灵巧手操作设备的规模化部署与真实场景模拟，我们持续采集高质量的操作数据，推动机器人从“能动”向“会操作”演进。

同时，为进一步提升第一视角视频数据的规模与多样性，数据堂创新采用众包采集模式。通过广泛的众包渠道，我们能够高效获取覆盖更多环境、更多人群、更多操作习惯的第一视角数据。

相比单一采集场景，众包形式可以大幅扩展数据的广度与真实度，为灵巧手操作学习提供更丰富的视觉观察样本，尤其有助于训练模型在复杂、多变真实环境中的泛化能力。

第一视角数据与灵巧手操作数据相结合，能够更完整地记录“看到了什么、手如何动作、如何调整”的连续过程，成为高质量操作数据体系中的核心组成部分。

多模态与 VLA：从采集到训练对齐

围绕第一视角视频数据，数据堂具身智能数据工厂已构建多模态数据采集体系，在采集灵巧手操作数据的同时，可同步获取：

☛ 第一视角（Ego）视频数据（含众包来源）

☛ 深度与空间信息

☛ 动作轨迹与关节角度

☛ 力反馈与触觉信号

数据工厂支持位姿等基础标注，并可面向VLA训练需求开展结构化标注，建立语言指令、视觉输入与动作序列之间的映射关系。

随着VLA模型成为具身智能的重要训练路径，数据对任务语义、动作过程与多模态对齐的要求不断提高。通过第一视角视频数据与多模态信息的融合和精确对齐，数据不再只是对行为的简单记录，而能够进一步表达任务目标、动作逻辑与交互过程，从而为VLA模型训练提供更高质量的数据基础。

标准化数据生产：从采集到优化的全流程生产体系

高质量具身数据的价值，不只在于采集规模，更在于是否能够进入训练闭环。

围绕这一目标，数据堂正在构建从采集、清洗、标注到质检的全流程数据生产体系，持续提升数据的一致性、可用性与训练价值。

在这一体系中，灵巧手任务数据、第一视角视频数据与多模态感知数据并不是分散存在的，而是围绕真实任务过程进行统一组织与对齐。这意味着，数据不只是记录动作本身，更能够支撑任务理解与操作学习。

当具身智能进入真实世界，决定机器人能力上限的，正在从单纯的模型能力，转向真实世界数据的获取与生产能力。

围绕这一趋势，数据堂正通过8000㎡具身数据工厂、300套灵巧手操作设备、多场景任务体系与多模态采集能力，持续夯实具身智能的数据底座。

而此次围绕灵巧手全场景与第一视角视频数据能力的升级，也正在成为数据堂面向下一阶段具身智能训练与落地的重要突破。

近期内容