2020AESRC口音英语语音识别挑战赛线上技术交流会圆满结束

作者：数据堂发布时间：2020-12-07

12月5日，由中国计算机协会语音对话与听觉专业组、西北工业大学音频与语言处理研究组、南洋理工大学计算机科学与工程学院、美国约翰霍普金斯大学语言与语言处理中心、数据堂（北京）科技股份有限公司、西安高新产业技术开发区软件园发展中心、陕西鲲鹏生态创新中心和清华大学联合主办的2020AESRC口音英语语音识别挑战赛线上技术交流会圆满结束。此次技术交流会也是INTERSPEECH2020的旗舰技术活动。

会议伊始，由西安高新产业技术开发区软件园发展中心副主任张露致开幕词。张露女士指出，科技的发展正是因为有了竞争才会更加进步和繁荣。随后，张露女士对西安高新产业技术开发区和软件新城进行了介绍。

接下来，微软Partner Applied Scientist、技术负责人Jinyu Li（李锦宇）进行了主题为“构建工业级流式端到端语音识别模型”（Developing Streaming End-to-End Models for Automatic Speech Recognition in Industry）的特邀报告。Li指出，语音社区已经呈现出从基于深度神经网络的混合建模向用于自动语音识别（ASR）的端到端（E2E）建模转变的重要趋势。随着E2E模型对数据的需求越来越大，构建行业规模的ASR系统为E2E模型技术开发提供了良好的平台。Li还分享了微软开发高精度、低延迟流媒体RNN-T模型的进程。兼顾高精度和低Transformer模型运行成本，微软团队设计了一种流线型低延迟和低成本的Transformer传感器，Li介绍，该传感器采取了“masking is all you need”策略。

西北工业大学教授谢磊进行了2020AESRC口音英语语音识别竞赛的总结报告。本次竞赛共吸引了来自海内外的77支团队。最终，第一赛道英语语音识别的前三名分别由来自苏州思必驰信息科技有限公司、网易有道信息技术（北京）有限公司、浙江大学信息与电子工程学院的团队获得，第二赛道口音英语识别前三名分别由来自腾讯&约翰斯霍普金斯大学、苏州思必驰信息科技有限公司、网易有道信息技术（北京）有限公司的团队获得。

接下来是优秀参赛团队技术分享环节。腾讯&约翰霍普金斯、思必驰、同花顺、清华大学、浙江大学共五支优秀参赛团队进行系统讲解与说明。

腾讯&约翰霍普金斯团队获得了第二赛道的第一名，其团队成员徐晓烁详细介绍了他们使用的Wav2vec模型。徐进一步介绍了Wav2vec模型的优势以及其与Transformer ASR的区别，并强调了预训练和数据增强的重要性。

思必驰获得了第一赛道的第一名和第二赛道的第二名。思必驰团队成员黄厚军就其第一赛道方案的模型结构、数据增强、PPG特征、开发集实验结果测试集结果和方案创新点进行了分享和总结。

思必驰团队成员谭天对其第二赛道的方案进行了相似的总结，并指出，常规数据增强、基于TTS的口音识别训练数据生成方法、基于口音embedding的模型自适应、更好地初始化+多任务训练+重打分是其第二赛道参赛方案的创新点。

同花顺获得了第一赛道的第四名和第二赛道的第六名，其团队成员陈顺飞介绍了该团队两个赛道方案的数据使用策略、模型结构和训练策略。

清华大学团队获得了第二赛道的第五名，团队成员石桂欣系统介绍了其参赛方案。

浙江大学团队获得了第一赛道的第三名，其团队成员张展就其方案对音频场景分类、说话人分类、口音分类进行了总结分享。

约翰霍普金斯大学副研究员Shinji Watanabe进行了主题为“通过非自回归神经端到端建模简化语音识别”（Simplifying Automatic Speech Recognition with Non-Autoregressive Neural End-to-End Modeling）的特邀报告。首先，Shinji介绍了与基于隐马尔可夫模型的方法相比，基于单一神经结构的端到端神经模型简化ASR系统的方法。然后，Shinji介绍了ASR推理算法的简化与非自回归神经端到端的建模。

报告结束后，钱彦旻教授、谢磊教授、李锦宇同Shinji就其报告内容进行了热烈的交流讨论。