202人多角度唇形多模态视频数据
202人多角度唇形多模态视频数据。采集环境包括室内自然光线场景和室内日光灯场景。采集设备为手机。采集多样性涵盖多种场景、不同年龄、13种拍摄角度。语言为中文普通话。录制内容为通用领域,内容不限。数据可用于语音图像领域的多模态学习算法研究。
数据规格
数据规模
202人,每人采集 13段不同角度的音视频+1个txt文档
人员分布
人种分布:黄种人(印度尼西亚);性别分布:男89人、女113人;年龄分布:18-30岁165人、31-45岁32人、46-60岁5人
采集环境
室内自然光线场景、室内日光灯场景
数据多样性
涵盖多种场景、不同年龄、不同拍摄角度
采集设备
手机,视频分辨率为1,920*1,080
采集角度
同时采集正脸、3个角度左侧脸、3个角度右侧脸、俯视、仰视、左侧脸俯视、右侧脸俯视、左侧脸仰视和右侧脸仰视共13个角度的音视频数据
录制内容
通用领域,内容不限
语言
中文普通话,每段视频时长在20秒以上
数据格式
视频格式为.mp4、音频大于或等于16KHz,16bit、帧率为25-30fps
准确率
字准确率超过95%
样例展示



