Activity
Background

活动背景

AI数据开源计划 是数据堂面向高校和学术机构等非商业组织群体推出的学术支持计划,旨在赋能全球AI学术研究。数据堂将持续提供AI训练数据集给学术研究者,以帮助其攻克数据难关,充分发挥专业能力,实现技术进步,促进社会发展。

欢迎加入数据堂开源计划,与我们一起共建智能时代。

Activity
Description

活动说明

开源计划面向对象 面向高校和学术机构等非商业组织的群体提供开源数据

禁止商用声明开源数据及其衍生产品(包括但不限定于衍生数据和模型)未经允许禁止任何形式的商业用途

引文声明 当公开发表展示利用数据堂开源数据的全部或者部分获得的科研成果时,必须在所获科研成果中注明使 用 “数据堂AI数据集”或“Datatang AI Dataset”,并且同时注明出处https://www.datatang.com.

数据堂将保留对所有开源计划的最终解释权

【开源数据集aidatatang_1505zh
1505小时中文普通话语音数据集】

数据介绍
【1505小时 中文普通话语音数据集】数据时长1505小时,是数据堂中文普通话语音数据库中的一部分。采集区域覆盖全国34个省级行政区域,参与录音人数达6408人,录音内容超30万条口语化句子。经过专业语音校对人员转写标注,并通过严格质量检验,句标注准确率达98%以上,是行业内句准确率的最高标准。(仅支持学术研究,未经允许禁止商用)
数据集详情
格式

16kHz 16bit,wav,单声道

录音环境

安静的室内,噪音不影响语音识别

录音内容

30万条口语化句子

录音人

6408 人

男性 2999 人,女性 3301 人

≤20 岁 1481 人,21~30 岁 4412 人,31~40 岁 244 人,40 岁以上 163 人

录音人员分布于广东、福建、山东、江苏、北京、湖南、江西、香港、澳门等 34个省级行政区域

设备

安卓:iOS=9:1

语音

普通话;有口音的普通话

应用场景

语音识别

机器翻译

声纹识别

准确率

句标注准确率不低于98%

使用效果

基于aidatatang_200zh数据集的语音识别模型训练效果,测评结果:

GMM-HMM TDNN CHAIN
CER SER CER SER CER SER
12.22% 43.11% 7.14% 31.19% 5.59% 26.06%

基于aidatatang_1505zh数据集的语音识别模型训练效果,测评结果:

GMM-HMM CHAIN
CER SER CER SER
7.35% 35.98% 3.14% 23.05%
训练方法

基于aidatatang_200zh数据集的训练方法

点击查看

(说明:aidatatang_200zh数据集是aidatatang_1505zh数据集中的一部分)

开源计划合作机构

开源计划相关报道

实战干货、技术论坛,学习、成长、分享、共建

更多数据产品推荐

数据堂专注AI数据生产,为您提供更多高质量商用数据集

  • 立即咨询
  • 咨询电话

    400-650-6137

  • 服务邮箱

    services@datatang.com

开源数据

数据名称:

*姓名:

*高校/学术研究机构名称:

*邮箱:

*手机:

备注: 请简单描述你的申请原因及用途(200字以内)

说明:请留下您的正确联系方式,请认真阅读《数据使用许可协议-数据堂-中文普通话语音数据》并下载,签署协议盖章之后,将扫描文件发送至services@datatang.com 我们将在收到邮件的3个工作日内进行审核,并尽快与您取得联系。

开源数据

数据名称:

*姓名:

*高校/学术研究机构名称:

*邮箱:

*手机:

备注: 请简单描述你的申请原因及用途(200字以内)

已同意【CC 署名-非商业性使用-禁止演绎 4.0 国际协议】

开源数据

数据名称:

*姓名:

*高校/学术研究机构名称:

*邮箱:

*手机:

备注: 请简单描述你的申请原因及用途(200字以内)