672小时多人会议多通道采集语音数据

672小时多人会议多通道采集语音数据,内容覆盖3-6人规模的会议场景,在多种会议室环境中采集,反映了真实会议中的互动情境。此数据集标注了文本内容、说话人身份、性别及位置等多种属性,准确性高(句准确率≥97%),易用性强,为语音识别及声纹识别相关研究与应用提供了高质量资源,经多家AI公司验证:有助于提升模型在复杂会议场景下的鲁棒性。我们严格遵循数据保护法规和隐私规定,确保数据采集、存储和使用的过程中维护用户的隐私和合法权益,所有数据均遵循GDPR,CCPA,PIPL。

数据规格

格式
1)远场16麦麦克风阵列:48kHz, 16bit, wav, 16声道; 2)远场8麦麦克风阵列:48kHz,16bit ,wav,8 声道;  3)远场高保真麦克风:48khz, 16bit, wav, 单声道;  4)近场手机:16kHz, 16bit, wav, 单声道;
1)远场16麦麦克风阵列:48kHz, 16bit, wav, 16声道; 2)远场8麦麦克风阵列:48kHz,16bit ,wav,8 声道;  3)远场高保真麦克风:48khz, 16bit, wav, 单声道;  4)近场手机:16kHz, 16bit, wav, 单声道;
录音环境
四种不同面积的会议室, 每个面积规格包含三个不同房间
录音内容
模拟真实会议场景进行会议交谈
设备
16 麦麦克风阵列,8 麦麦克风阵列,高保真麦克风, 手机
语言
普通话
标注特点
文本标注,说话人身份标注,性别标注,位置标注
应用场景
语音识别;声纹识别
准确率
句准确率不低于97%