提速模型搭建:Ego-Centric成品数据+实景采集一站式解决方案

作者:数据堂发布时间:2026-06-18
对于很多正在搭建具身智能模型的团队来说,数据往往是项目启动阶段最先遇到的难题。模型需要大量数据,来学习人在真实环境中的观察、移动、操作和任务执行过程。但如果所有数据都从零开始定制采集,项目启动周期会被明显拉长,模型训练和验证也很难快速推进。

尤其是在真实应用场景中,数据采集并不是简单记录动作。不同空间布局、物品摆放、光照环境和任务流程,都会影响模型对场景变化与连续操作的理解。



近期,数据堂完成了一个 Ego-Centric 数据项目。客户最初希望快速获取大量成品 Ego-Centric 数据,用于模型训练和验证;随后,又基于自身应用需求,进一步提出了真实场景定制采集需求。其中,家居室内场景是本次项目的重点方向之一。


项目采用“成品数据先行、定制采集补充”的方式,帮助客户快速完成模型启动,并进一步补齐特殊场景下的关键数据需求。这不仅完成了一次数据交付,也跑通了一条具身智能模型快速搭建的数据路径。

让具身模型快速启动

项目初期,客户最核心的需求是:快速获得大量可用的 Ego-Centric 数据。对于具身智能来说,早期模型搭建通常需要大量数据进行基础训练、能力验证和任务方向测试。如果完全从零开始采集,客户不仅需要等待场地准备、任务设计、人员培训和采集执行,还要经过后续的数据质检与交付流程,整体周期较长。

因此,客户首先购买了数据堂部分“10万小时多场景Ego-Centric数据”成品数据,用于模型训练、任务理解和数据结构验证。这类成品数据的价值在于,客户能够基于成品数据快速验证第一人称视角数据在模型中的应用效果,也能更早判断模型对场景、任务、动作和数据结构的具体需求。

换句话说,成品数据解决的是项目早期的关键问题:模型快速启动。当模型基础跑通后,客户也进入了下一步:补充更贴近真实应用的场景数据。


从通用数据走向具体场景


第一阶段数据应用后,客户对下一步数据需求有了更清晰的判断。随着模型训练推进,客户发现,下一阶段需要的不只是更多 Ego-Centric 数据,而是更具体、更贴近应用场景的数据。

基于这一需求,客户提出了多场景定制采集方向,覆盖家居、办公等多个场景。其中,家居室内场景是本次项目的重点之一。

家居场景看似日常,但并不标准化。不同家庭中的户型布局、家具摆放、物品位置、光照条件和行动路线,都会影响任务执行过程。比如同样是整理桌面,不同环境下的操作路径、物体交互和视角变化都会有所不同。

这也是客户希望补充真实场景数据的原因:让模型进一步学习具体环境中的任务流程、操作逻辑和场景变化。

数据采集走进真实住宅

围绕家居室内场景的定制需求,数据堂根据项目标准租用了多个不同布局的真实住宅空间,用于 Ego-Centric 数据采集。

本次采集覆盖厨房、客厅、卧室、书房、卫生间、阳台等典型家庭空间。不同空间对应不同的物品结构、操作路径和任务逻辑,也让数据能够覆盖更丰富的家庭生活场景。例如,厨房可能涉及餐具、锅具、调料、清洁用品;客厅可能涉及沙发、茶几、遥控器、水杯、书本;卧室则可能涉及衣物整理、床品整理和收纳操作。

在采集过程中,采集人员佩戴 Pico 设备,按照预设任务流程完成连续操作,从第一人称视角记录任务执行中的观察路径、手部动作、物体交互和场景变化。

采集内容包括物品拿取与放置、桌面整理、餐具整理、厨房操作、衣物整理、房间清洁以及多种家居物品交互任务,并需要在多户型、多场景中重复采集。

通过多户型、多空间、多任务的采集设计,项目能够在真实住宅环境中覆盖更丰富的生活任务,为客户补充更贴近实际应用场景的 Ego-Centric 数据。


大规模数据稳定交付


对于大规模 Ego-Centric 数据项目来说,真实场景只是基础,能否持续稳定交付同样关键。本次项目中,数据堂实现了周产能有效数据约 5000 小时。

为了保证大规模采集的稳定推进,数据堂围绕场地协调、任务拆解、人员培训、设备管理、采集执行、质量检查和数据交付建立了完整流程。不同住宅空间、不同采集人员、不同任务类型都需要统一的操作标准和质检要求,才能确保最终数据具备一致性和可用性。

周产能 5000 小时背后,体现的不只是采集规模,更是数据堂在真实场景搭建、项目组织和质量控制方面的综合能力。

对客户而言,稳定的有效数据产能意味着模型训练不再受限于小规模数据验证,而是可以持续补充高质量 Ego-Centric 数据,支撑后续模型优化和场景扩展。

一条可落地的具身智能数据路径

本次项目的价值,不只是高效完成了 Ego-Centric 数据采集,更重要的是验证了一条可落地的具身智能数据建设路径:先用成品数据快速启动模型,再通过真实场景采集补齐关键数据。

在这一路径中,成品 Ego-Centric 数据帮助客户更快进入训练和验证阶段;定制采集则围绕家居等重点场景,进一步补充模型走向真实应用所需的数据基础。

而周产能约 5000 小时有效数据的交付能力,也让这一路径不只停留在小规模验证,而是具备持续扩展和迭代的基础。

这条路径能够落地,背后是数据堂在具身智能数据采集中的长期积累。从遥操数据、UMI 数据到 Ego-Centric 数据,数据堂已经形成多类型数据采集、真实场景搭建、规模化生产和质量控制能力,能够持续支持机器人学习、多模态模型和具身智能应用的数据需求。

如果您的团队正在推进具身智能模型训练,既需要快速获取可用数据,也需要补充真实场景下的定制化数据,数据堂可以基于成品数据资源与大规模定制采集能力,为模型训练、验证和持续迭代提供支持。