zh

数据解决方案

请填写姓名

手机号码格式错误

请填写手机号码

请填写公司全称

请填写企业邮箱

需求描述不能为空

提交成功!感谢您支持数据堂。

填写格式错误请重新填写

确定

需求描述格式错误且最少输入5个字符

暂无数据

语音合成

AI数据开源计划

1,505小时中文普通话语音数据

数据堂-AI数据服务-人工智能数据采集与标注-活动背景 数据堂-AI数据服务-人工智能数据采集与标注-活动说明
Activity
Background

活动背景

AI数据开源计划是数据堂面向高校和学术机构等非商业组织群体推出的学术支持计划,旨在赋能全球AI学术研究。数据堂将持续提供AI训练数据集给学术研究者,以帮助其攻克数据难关,充分发挥专业能力,实现技术进步,促进社会发展。

欢迎加入数据堂开源计划,与我们一起共建智能时代。

Activity
Description

活动说明

  • 面向高校和学术机构等非商业组织的群体提供开源数据
  • 开源数据及其衍生产品(包括但不限定于衍生数据和模型)未经允许禁止任何形式的商业用途
  • 当公开发表展示利用数据堂开源数据的全部或者部分获得的科研成果时,必须在所获科研成果中注明使用 “数据堂AI数据集”或“Datatang AI Dataset”,并且同时注明出处https://www.datatang.com

数据堂将保留对所有开源计划的最终解释权

【开源数据集aidatatang_1,505zh

1,505小时 中文普通话语音数据集】

数据介绍

【1,505小时 中文普通话语音数据集】数据时长1505小时,是数据堂中文普通话语音数据库中的一部分。采集区域覆盖全国34个省级行政区域,参与录音人数达6408人,录音内容超30万条口语化句子。经过专业语音校对人员转写标注,并通过严格质量检验,句标注准确率达98%以上,是行业内句准确率的最高标准。(仅支持学术研究,未经允许禁止商用)

数据集详情
格式 16kHz 16bit,wav,单声道
录音环境 安静的室内,噪音不影响语音识别
录音内容 30万条口语化句子
录音人员 6,408 人
男性 2,999 人,女性 3,301 人
≤20 岁 1,481 人,21~30 岁 4,412 人,31~40 岁 244 人,40 岁以上 163 人
录音人员分布于广东、福建、山东、江苏、北京、湖南、江西、香港、澳门等 34个省级行政区域
设备 安卓:iOS=9:1
语音 普通话;有口音的普通话
应用场景 语音识别
机器翻译
声纹识别
准确率 句标注准确率不低于98%
使用效果

基于aidatatang_200zh数据集的语音识别模型训练效果,测评结果:

GMM-HMM TDNN CHAIN
CER SER CER SER CER SER
12.22% 43.11% 7.14% 31.19% 5.59% 26.06%

基于aidatatang_1,505zh数据集的语音识别模型训练效果,测评结果:

GMM-HMM CHAIN
CER SER CER SER
7.35% 35.98% 3.14% 23.05%
  • 注:
  • *CER(Character Error Rate)指字识别错误率。
  • *SER(Sentence Error Rate)指句识别错误率。
  • *GMM-HMM指混合高斯模型-隐马尔科夫模型。
  • *TDNN(Time-delay Neural Networks)指时延神经网络模型。
  • *CHAIN(Chain model)是指链式模型。
训练方法 基于aidatatang_200zh数据集的训练方法点击查看
(说明:aidatatang_200zh数据集是aidatatang_1,505zh数据集中的一部分)

获取方式

开源数据【1,505小时 中文普通话语音数据】,我们提供以下获取方式:

开源计划合作机构

数据堂-AI数据服务-人工智能数据采集与标注-开源计划合作机构
数据堂-AI数据服务-人工智能数据采集与标注-开源计划合作机构
数据堂-AI数据服务-人工智能数据采集与标注-开源计划合作机构
数据堂-AI数据服务-人工智能数据采集与标注-开源计划合作机构
数据堂-AI数据服务-人工智能数据采集与标注