10万小时多场景第一人称视角具身智能数据
10万小时多场景第一人称视角(Ego-Centric)具身智能数据,在多种真实场景下,以第一人称视角采集的人类操作数据,每条数据包含:①时间对齐的双目视频、②双目相机参数、③3D场景重建的点云文件、④人体关节数据、⑤分步骤的语义标注文件。该数据集可用于具身智能大模型的训练。
数据规格
数据内容
10万小时多种真实场景下以第一人称视角采集的的人类操作数据,每条数据包含:①时间对齐的双目视频、②双目相机参数、③3D场景重建的点云文件、④关节数据、⑤分步骤的语义标注文件
10万小时多种真实场景下以第一人称视角采集的的人类操作数据,每条数据包含:①时间对齐的双目视频、②双目相机参数、③3D场景重建的点云文件、④关节数据、⑤分步骤的语义标注文件
采集设备
采集者头部佩戴PICO 4 Ultra,双手佩戴IMU腕带
数据分布
厨房、房间、酒店等多种真实场景,包含食材准备与烹饪、清洁打扫、物品收纳、床铺整理、衣物折叠等多种任务
样例展示

