竞赛背景

2019年IEEE自动语音识别与理解研讨会(以下简称ASRU )将于2019年12月14日至18日在新加坡圣淘沙举行。ASRU 研讨会是IEEE语音和语言处理技术委员会(SLTC)的旗舰技术活动。该研讨会每两年举办一次,将来自学术界和工业界的顶级专家和研究人员聚集在一起,对包括语音识别与理解在内的语音领域广泛研究议题展开深入探讨。数据堂作为此次ASRU的白金赞助商,为促进国内外语种混杂语音识别方面的研究,联合西北工业大学音频语音与语言处理研究组、中国计算机学会语音对话与听觉专业组举办首届中英混杂语音识别挑战赛。

竞赛简介

在我们日常交流中经常会有中文语境下英文单词夹杂的现象,语种混杂(Code-switch)是一种常见的语言现象,也是当前语音识别技术面临的重要挑战之一。为促进国内外语种混杂语音识别方面的研究,数据堂联合西北工业大学音频语音与语言处理研究组举办首届中英混杂语音识别挑战赛暨 2019Automatic Speech Recognition and Understanding Workshop(以下简称ASRU)研讨会。评测颁奖将在12月14-18日新加坡召开的ASRU2019国际会议上进行。

赛道设置(暂定)

Track1

传统语音识别,固定语言模型。组委会提供ARPA格式的n-gram中英混杂语言模型,参赛者只能使用该语言模型,主要考察参赛者混杂声学建模能力,声学模型的搭建只能使用指定数据。

Track2

传统语音识别,开放语言模型。参赛者可以使用任意文本训练语言模型,声学建模只能使用指定数据,考察参赛者综合能力。

Track3

端到端语音识别。参赛者使用基于神经网络的端到端语音识别方案搭建系统,不能使用外接的语言模型,只能使用指定数据进行模型训练。

注:报名参加评测的队伍必须提交结果。

指定数据

数据堂提供【500小时中文普通话语音数据】【200小时中英文混读语音数据】,纯英文数据使用librispeech数据。参赛者只允许使用这些语音数据进行模型训练、系统搭建以及进行数据增广。本次竞赛不支持使用上述数据之外的其他任何数据。

【500小时中文普通话语音数据】规格
数据规模 500小时
格式 16kHz 16bit,wav,单声道
录音环境 安静的室内;包含不影响语音辨识的背景噪音
录音内容 口语化句子
录音人 男女比例均匀;≤20岁23%,21~30岁70%,31~40岁4%,40岁以上3%;录音人员分布于广东、福建、山东、江苏、北京、湖南、江西等33省
设备 安卓:iOS=9:1
语言 普通话;有口音的普通话
应用场景 语音识别;机器翻译;声纹识别
标注准确率 97%以上
【200小时中英文混读语音数据】规格
数据规模 200小时
格式 16kHz,16bit,单声道,无压缩wav
录音环境 相对安静的室内,无回声
录音内容 通用类口语句子;交互类句子
录音人 男女比例均匀;小于25岁67%,26-40岁25%,40岁以上7%;覆盖北方官话区、吴语区、粤语区、闽语区、湘语区、赣语区等
设备 安卓、苹果
语言 普通话
应用场景 语音识别,机器翻译;声纹识别
标注准确率 97%以上

数据获取

数据获取将在9月1日报名截止之后至9月5日之前,以邮件的方式提供数据下载地址,具体细则,敬请关注。

测试

组委会提供测试集,测试以MER(mixed error rate)进行评估,其中中文部分计算汉字准确率,英文部分计算词准确率。

参赛日程(暂定)

奖项

每个赛道(track)设置一二三等奖各一名。

第一名 5000元
第二名 3000元
第三名 2000元

*需特别注意

  • 1.以上所有提及金额均为税前金额。
  • 2.获奖评定需选手按要求提供材料及团队成员名单。

竞赛指导委员会(排名不分先后)

谢磊 西北工业大学
贾磊 百度语音技术部
陈伟 搜狗语音交互技术中心
张仕良 阿里巴巴达摩院
王东 清华大学
洪青阳 厦门大学
钱彦旻 上海交通大学
徐海华 新加坡南洋理工大学
丰强泽 数据堂
王大亮 数据堂

报名方式

本次竞赛报名邮箱:ASRU2019@datatang.com;

邮件主题:【中英混杂竞赛-队伍名称】,并附报名表。下载报名表

反作弊声明

• 参与者禁止提交多次报名,经发现将取消成绩并严肃处理

• 参与者禁止在指定考核技术能力的范围外利用规则漏洞或技术漏洞、额外数据等不良途径提高成绩排名,经发现将取消成绩并严肃处理

其他

具体细则将于近期公布,敬请期待。竞赛解释权归数据堂(北京)科技股份有限公司所有。