该数据涵盖法文、韩文、日文、西班牙文、德文、意大利文、葡萄牙文、俄文8种语言的会议场景PPT,以及中英文自然场景的海报、路标、包装说明、菜单等。自然场景为行级矩形框标注,PPT场景为四边形框标注,且都进行内容转写。
该数据规模5000人,其中,监控人脸识别数据500人,人脸多姿态数据3000人,跨年龄人脸数据1000人,遮挡人脸识别数据500人。以青年人为主,男女比例均为1:1。除人脸多姿态数据中黄种人、黑人、白人和印度人均匀分布,其他数据均为中国人。采集环境为室内、室外两个场景,采集设备有手机、相机。图像的数据格式为jpg。
该数据共3000人,每人分别采集正常、高兴、惊奇、悲伤、愤怒、厌恶、恐惧七种表情。涵盖黄种人、白人、黑人、棕色人(墨西哥人)四种肤色人种,以中青年为主,男女比例1:1。采集环境包括室内、室外。可用于表情识别算法研究。
该数据共10000张。以青年人为主,男女各5000人,包含黄种人4822人、白种人454人、黑种人2224人、印度人2500人。每人一张人脸图片,每张图片标注106人脸关键点,10种人脸属性。
该数据由黄种人、白人、黑人三种肤色的青年人在纯色、室内、室外场景下进行采集。男女比例均匀,涵盖了自然景观、街景、广场等多种场景;人脸倾斜、闭眼、瞪眼、抿嘴、张嘴等多种表情。对人脸、五官、身体和附属物进行抠图标注。
该数据包含室内外不同场景的18种静态手势及50种动态手势,从正视、斜视、俯视、仰视四个角度进行拍摄,对静态手势图像标注21关键点,手势的类别和属性;对动态手势的属性,相机的位置,采集的环境进行了标注。
该数据集由全国33个省市6278名发音人使用手机录制,录音环境为安静的室内,包含不影响语音辨识的背景噪音,录音内容包括30万条口语化句子,覆盖通用领域,数据格式为16kHz 16bit,wav单声道,句准确率不低于98%,可广泛应用于语音识别、声纹识别、机器翻译。
该数据由440人较年轻的采集人在不指定话题、以自然说话随意交谈的情况下录制,性别比例均衡,在相对安静的室内环境,环境底噪不超过50db,并标注了文本、说话人及有效句子的起止时间。该数据格式为16kHz或22.05kHz,16bit,单声道wav,句准确率不低于97%。
相对安静无回声的室内环境下,通过手机采集557名6-12岁儿童发音,录音内容来自儿童作文故事、人机交互、家居命令、数字及其他通用领域。该数据格式为16kHz、22.05kHz或44.1kHz,16bit,单声道wav,句准确率不低于97%。可应用于语音识别、声纹识别等方向。
在相对安静无回声的室内,由701名采集人录制的中英混杂语音数据,其中男女比例均衡,在噪音符号等附加项不计入的情况下句准确率不低于97%。数据有效时长200小时,该数据格式为16kHz 16bit,单声道wav。
该数据包括粤语、上海话、四川话、闽南话、武汉话、长沙话、昆明话、杭州话、苏州话、河南话各30小时,录音内容以口语化句子为主。在相对安静的室内通过手机采集录制,16kHz 16bit,wav,单声道,可广泛应用于语音识别、方言语种识别等场景。
该数据由来自俄罗斯、韩国、加拿大、美国、葡萄牙、日本、西班牙、印度、英国、中国的528人录制,每个国家男女比例均衡。在相对安静无回声的室内环境下,通用类语料,部分语言含有交互类、家居类、车载类和数字。数据格式为16kHz,16bit,无压缩wav,单声道,录音人员均使用英语进行录制,句错误率(SER)低于5%。
该数据由50人,每人80句家居类语句在真实家居场景下录制,每人同时采集37个通道,数据格式:麦克风阵列 48kHz 32bit(浮点);手机 48kHz 16bit,麦克风阵型为6+1麦环形。可应用于家居场景下的语音增强、语音识别等。
该数据包括日语、韩语、印地语、越南语、俄语、法语、德语、意大利语、西班牙语、葡萄牙语各20小时,每个人录制数百句话。录音人覆盖各个年龄段,以年轻人为主,男女比例均衡。语音数据格式:16kHz 16bit,wav,单声道,标注结果为txt,数据标签格式:metadata。可用于语音识别声学、语种识别研究、语言模型训练或算法研究。
注:邮寄地址请咨询在线客服或打客服电话13051623904
AI数据助研计划申请表