
1505小时中文普通话语音数据集
【1505小时中文普通话语音数据集】数据时长1505小时,是数据堂中文普通话语音数据库中的一部分。采集区域覆盖全国34个省级行政区域,参与录音人数达6408人,录音内容超30万条口语化句子。经过专业语音校对人员转写标注,并通过严格质量检验,句标注准确率达98%以上,是行业内句准确率的最高标准。
数据规格
格式 | 16kHz 16bit,wav,单声道 |
---|---|
录音环境 | 安静的室内,噪音不影响语音识别 |
录音内容 | 30万条口语化句子 |
录音人员 | 6,408 人,男性 2,999 人,女性 3,301 人
≤20 岁 1,481 人,21~30 岁 4,412 人,31~40 岁 244 人,40 岁以上 163 人 录音人员分布于广东、福建、山东、江苏、北京、湖南、江西、香港、澳门等 34个省级行政区域 |
设备 | 安卓:iOS=9:1 |
语音 | 普通话;有口音的普通话 |
应用场景 | 语音识别、机器翻译、声纹识别 |
准确率 | 句标注准确率不低于98% |
使用效果 | 基于aidatatang_200zh数据集的语音识别模型训练效果,测评结果: |
- | GMM-HMM | TDNN | CHAIN | |
CER | 12.22% | 7.14% | 5.59% | |
SER | 43.11% | 31.19% | 26.06% |
基于aidatatang_1,505zh数据集的语音识别模型训练效果,测评结果: |
- | GMM-HMM | CHAIN | |
CER | 7.35% | 31.19% | |
SER | 3.14% | 23.05% |
注: *CER(Character Error Rate)指字识别错误率。 *SER(Sentence Error Rate)指句识别错误率。 *GMM-HMM指混合高斯模型-隐马尔科夫模型。 *TDNN(Time-delay Neural Networks)指时延神经网络模型。 *CHAIN(Chain model)是指链式模型。 |
申领流程及说明
协议原件邮寄信息
收 件 人:市场中心
联系方式:13260137510
邮件地址:services@datatang.com
收件地址:北京市海淀区宝盛南路1号院11号楼
合作机构















