数据解决方案

请输入姓名

手机号码格式错误

请输入联系电话

请输入公司名称

请输入正确的工作邮箱

请输入数据需求

提交成功!感谢您支持数据堂。

填写格式错误请重新填写

确定

数据需求不能小于5个字且不能为纯数字

https://www.datatang.com

https://www.datatang.ai

m.datatang.ai

1505小时中文普通话语音数据集

【1505小时中文普通话语音数据集】数据时长1505小时,是数据堂中文普通话语音数据库中的一部分。采集区域覆盖全国34个省级行政区域,参与录音人数达6408人,录音内容超30万条口语化句子。经过专业语音校对人员转写标注,并通过严格质量检验,句标注准确率达98%以上,是行业内句准确率的最高标准。

数据规格

格式16kHz 16bit,wav,单声道
录音环境安静的室内,噪音不影响语音识别
录音内容30万条口语化句子
录音人员6,408 人,男性 2,999 人,女性 3,301 人
≤20 岁 1,481 人,21~30 岁 4,412 人,31~40 岁 244 人,40 岁以上 163 人
录音人员分布于广东、福建、山东、江苏、北京、湖南、江西、香港、澳门等 34个省级行政区域
设备安卓:iOS=9:1
语音普通话;有口音的普通话
应用场景语音识别、机器翻译、声纹识别
准确率句标注准确率不低于98%
使用效果基于aidatatang_200zh数据集的语音识别模型训练效果,测评结果:
- GMM-HMM TDNN CHAIN
CER 12.22% 7.14% 5.59%
SER 43.11% 31.19% 26.06%
基于aidatatang_1,505zh数据集的语音识别模型训练效果,测评结果:
- GMM-HMM CHAIN
CER 7.35% 31.19%
SER 3.14% 23.05%
注:
*CER(Character Error Rate)指字识别错误率。
*SER(Sentence Error Rate)指句识别错误率。
*GMM-HMM指混合高斯模型-隐马尔科夫模型。
*TDNN(Time-delay Neural Networks)指时延神经网络模型。
*CHAIN(Chain model)是指链式模型。

申领流程及说明

下载协议并填写
获取协议
协议盖章
并提交邮件申请
审核反馈结果
准备数据
交付数据
完成申请

协议原件邮寄信息

收 件 人:市场中心

联系方式:13260137510

邮件地址:services@datatang.com

收件地址:北京市海淀区宝盛南路1号院11号楼

合作机构

开源数据活动最终解释权归数据堂所有