1,005人车载环境普通话多模态数据
中国普通话车载多模态语音数据,由1005名中国本土发音人参与录制。录制均在车内环境下进行,覆盖不同车型,不同场景,各场景由车速、开关窗、开关空调及开关音乐组成;采集设备为麦克风和双目摄像头,放置在不同点位;录音内容丰富,涵盖导航、多媒体、电话、车控和问答5个领域,为语音识别相关研究及应用提供了丰富的资源,经多家AI公司验证:有助于模型面对真实世界的多样性时能够表现出色。我们严格遵循数据保护法规和隐私规定,确保数据采集、存储和使用的过程中维护用户的隐私和合法权益,所有数据均遵循GDPR,CCPA,PIPL。
数据规格
格式
音频:48kHz,16bit,wav,单声道 ;视频:MP4
内容分类
导航类、多媒体类、电话类、车控类和问答类
录音条件
车载环境;1个安静场景,1个低噪音场景,3个中噪音场景及2个高噪音场景
录音设备
高保真麦克风;双目摄像头
录音人信息
1005人;音视频数据人数为407人;纯音频数据人数为1005人
国家
中国
语言地区代码
zh-CN
语言
普通话
标注特点
文本转写
准确率
句准确率98%