AI数据开源计划

1,505小时中文普通话语音数据

Activity
Background

活动背景

AI数据开源计划是数据堂面向高校和学术机构等非商业组织群体推出的学术支持计划,旨在赋能全球AI学术研究。数据堂将持续提供AI训练数据集给学术研究者,以帮助其攻克数据难关,充分发挥专业能力,实现技术进步,促进社会发展。

欢迎加入数据堂开源计划,与我们一起共建智能时代。

Activity
Description

活动说明

  • 面向高校和学术机构等非商业组织的群体提供开源数据
  • 开源数据及其衍生产品(包括但不限定于衍生数据和模型)未经允许禁止任何形式的商业用途
  • 当公开发表展示利用数据堂开源数据的全部或者部分获得的科研成果时,必须在所获科研成果中注明使用 “数据堂AI数据集”或“Datatang AI Dataset”,并且同时注明出处https://www.datatang.com

数据堂将保留对所有开源计划的最终解释权

【开源数据集aidatatang_1,505zh

1,505小时 中文普通话语音数据集】

数据介绍

【1,505小时 中文普通话语音数据集】数据时长1505小时,是数据堂中文普通话语音数据库中的一部分。采集区域覆盖全国34个省级行政区域,参与录音人数达6408人,录音内容超30万条口语化句子。经过专业语音校对人员转写标注,并通过严格质量检验,句标注准确率达98%以上,是行业内句准确率的最高标准。(仅支持学术研究,未经允许禁止商用)

数据集详情
格式 16kHz 16bit,wav,单声道
录音环境 安静的室内,噪音不影响语音识别
录音内容 30万条口语化句子
录音人员 6,408 人
男性 2,999 人,女性 3,301 人
≤20 岁 1,481 人,21~30 岁 4,412 人,31~40 岁 244 人,40 岁以上 163 人
录音人员分布于广东、福建、山东、江苏、北京、湖南、江西、香港、澳门等 34个省级行政区域
设备 安卓:iOS=9:1
语音 普通话;有口音的普通话
应用场景 语音识别
机器翻译
声纹识别
准确率 句标注准确率不低于98%
使用效果

基于aidatatang_200zh数据集的语音识别模型训练效果,测评结果:

GMM-HMM TDNN CHAIN
CER SER CER SER CER SER
12.22% 43.11% 7.14% 31.19% 5.59% 26.06%

基于aidatatang_1,505zh数据集的语音识别模型训练效果,测评结果:

GMM-HMM CHAIN
CER SER CER SER
7.35% 35.98% 3.14% 23.05%
  • 注:
  • *CER(Character Error Rate)指字识别错误率。
  • *SER(Sentence Error Rate)指句识别错误率。
  • *GMM-HMM指混合高斯模型-隐马尔科夫模型。
  • *TDNN(Time-delay Neural Networks)指时延神经网络模型。
  • *CHAIN(Chain model)是指链式模型。
训练方法 基于aidatatang_200zh数据集的训练方法点击查看
(说明:aidatatang_200zh数据集是aidatatang_1,505zh数据集中的一部分)

获取方式

开源数据【1,505小时 中文普通话语音数据】,我们提供以下获取方式:

开源计划合作机构

更多数据产品推荐

数据堂专注AI数据生产,为您提供更多高质量商用数据集

10万id一人多照爬取数据

10万人人脸多姿态网爬数据,每个人至少20张图像,涵盖多种姿态、多种拍摄角度、多种光照条件,数据可用于人脸识别等任务。

20,000人人证比对数据

20,000人人证比对数据,每个人一张证件照和5-10张生活照,涵盖多种背景多种光照,数据可用于人证比对等任务。

5,000东南亚人一人多照数据

5,000东南亚人(印尼人、马来人、越南人、菲律宾人、泰国人、新加坡人等)一人多照数据,每个人至少29张图像,涵盖多种姿态、多种拍摄角度、多种光照条件,数据可用于人脸识别等任务。

5,000墨西哥人一人多照数据

5,000墨西哥人一人多照数据,每个人至少29张图像,涵盖多种姿态、多种拍摄角度、多种光照条件,数据可用于人脸识别等任务。

点击查看> 更多数据

咨询电话

400-650-6137

服务邮箱

services@datatang.com

SOLUTIONS

Terms Privacy 2019 Datatang. All Rights Reserved.

开源数据

数据名称:

*姓名:

*高校/学术研究机构名称:

*邮箱:

*手机:

备注: 请简单描述你的申请原因及用途(200字以内)

说明:请留下您的正确联系方式,请认真阅读《数据使用许可协议-数据堂-中文普通话语音数据》并下载,签署协议盖章之后,将扫描文件发送至services@datatang.com 我们将在收到邮件的3个工作日内进行审核,并尽快与您取得联系。

开源数据

数据名称:

*姓名:

*高校/学术研究机构名称:

*邮箱:

*手机:

备注: 请简单描述你的申请原因及用途(200字以内)

已同意 【CC 署名-非商业性使用-禁止演绎 4.0 国际协议】

开源数据

数据名称:

*姓名:

*高校/学术研究机构名称:

*邮箱:

*手机:

备注: 请简单描述你的申请原因及用途(200字以内)