INTERSPEECH2025 多语言会话语音语言模型研讨论会

MLC-SLM 研讨会日程

日期&地点：8 月 22 日，14 号码头 - 鹿特丹 Ahoy 会议中心

8:30-9:00

领取胸牌

9:00-10:00

主题演讲 1: Shinji Watanabe Scaling Multilingual Speech Recognition: From a Handful to Thousands of Languages

10:00-10:30

休息时间

10:30-11:00

挑战赛总结+颁奖典礼

11:00-12:00

口头报告:1.Seewo's Submission to MLC-SLM: Lessons learned from Speech Reasoning Language Models, Speaker:Bo Li2.Transsion Multilingual Speech Recognition System for MLC-SLM 2025 Challenge, Speaker:Xiaoxiao Li3.Triple X: A LLM-Based Multilingual Speech Recognition System for the INTERSPEECH2025 MLC-SLM Challenge, Speaker:Miaomiao Gao4.The TEA-ASLP System for Multilingual Conversational Speech Recognition and Speech Diarization in MLC-SLM 2025 Challenge, Speaker:Hongfei Xue

12:00-13:00

午休

13:00-14:00

主题演讲 2: Hung-yi Lee Advancements in Spoken Language Model

14:00-14:30

口头报告:1.ILT: Iterative LORA Training through Focus-Feedback-Fix for Multilingual Speech Recognition, Speaker:Qingliang Meng2.BUT System for the MLC-SLM Challenge, Speaker:Alexander Polok

14:30-15:00

休息时间

15:00-15:30

受邀演讲 1: Ming Li Sequence-to-Sequence Neural Diarization under Online and Multi-modal Scenarios

15:30-16:00

受邀演讲 2: Shuai Wang One Embedding Doesn’t Fit All: Rethinking Speaker Modeling for Various Speech Applications

16:00-16:30

受邀演讲 3: Pan Pan Beyond Data Scarcity: Engineering Quality-First Data Pipelines in Different Training Stage

16:30-17:30

海报展示环节

参会报名渠道：

1.Interspeech官方报名通道（请在报名时选择 Workshop on Multilingual Conversational Speech Language Model）：点击链接

2.临时报名通道：点击链接

报名费用50欧元，注册会员可享受workshop当天茶歇、午餐一份。

注：通过临时报名通道参会的会员需要进行现场缴费，仅支持现金。

主题演讲 1:Shinji Watanabe卡内基梅隆大学副教授

主题演讲 1:Scaling Multilingual Speech Recognition: From a Handful to Thousands of Languages

Shinji Watanabe is an Associate Professor at Carnegie Mellon University, Pittsburgh, PA. He received his B.S., M.S., and Ph.D. (Dr. Eng.) degrees from Waseda University, Tokyo, Japan. He was a research scientist at NTT Communication Science Laboratories, Kyoto, Japan, from 2001 to 2011, a visiting scholar at Georgia Institute of Technology, Atlanta, GA, in 2009, and a senior principal research scientist at Mitsubishi Electric Research Laboratories (MERL), Cambridge, MA USA from 2012 to 2017. Before Carnegie Mellon University, he was an associate research professor at Johns Hopkins University, Baltimore, MD, USA, from 2017 to 2020. His research interests include automatic speech recognition, speech enhancement, spoken language understanding, and machine learning for speech and language processing. He has published over 500 papers in peer-reviewed journals and conferences and received several awards, including the best paper award from ISCA Interspeech in 2024. He is a Senior Area Editor of the IEEE Transactions on Audio Speech and Language Processing. He was/has been a member of several technical committees, including the APSIPA Speech, Language, and Audio Technical Committee (SLA), IEEE Signal Processing Society Speech and Language Technical Committee (SLTC), and Machine Learning for Signal Processing Technical Committee (MLSP). He is an IEEE and ISCA Fellow.

主题演讲 2:Hung-yi Lee台湾大学教授

主题演讲 2:Advancements in Spoken Language Model

Hung-yi Lee is a professor of the Department of Electrical Engineering at National Taiwan University (NTU), with a joint appointment at the Department of Computer Science & Information Engineering of the university. His recent research focuses on developing technology that can reduce the requirement of annotated data for speech processing (including voice conversion and speech recognition) and natural language processing (including abstractive summarization and question answering). He won Salesforce Research Deep Learning Grant in 2019, AWS ML Research Award in 2020, Outstanding Young Engineer Award from The Chinese Institute of Electrical Engineering in 2018, Young Scholar Innovation Award from Foundation for the Advancement of Outstanding Scholarship in 2019, Ta-You Wu Memorial Award from Ministry of Science and Technology of Taiwan in 2019, and The 59th Ten Outstanding Young Person Award in Science and Technology Research & Development of Taiwan. He owns a YouTube channel teaching deep learning technology in Marian, which has more than 300,000 subscribers.

受邀演讲 1:Ming Li昆山杜克大学教授

受邀演讲 1:Sequence-to-Sequence Neural Diarization under Online and Multi-modal Scenarios

Ming Li received his Ph.D. in Electrical Engineering from University of Southern California in 2013. He is currently a Professor of Electronical and Computer Engineering at Division of Natural and Applied Science and Principal Research Scientist at Digital Innovation Research Center at Duke Kunshan University. He is also an Adjunct Professor at School of Computer Science of Wuhan University. His research interests are in the areas of audio, speech and language processing as well as multimodal behavior signal analysis and interpretation. He has published more than 200 papers and served as the member of IEEE speech and language technical committee, APSIPA speech and language processing technical committee. He was an area chair at Interspeech 2016, Interspeech 2018, Interspeech 2020, SLT2022, Interspeech 2024, Interspeech 2025, ASRU 2025. He is the technical program co-chair at Odyssey 2022 and ASRU 2023. He is an editorial member of IEEE Transactions on Audio, Speech and Language Processing, Computer Speech and Language and APSIPA Transactions on Signal and Information Processing. Works co-authored with his colleagues have won first prize awards at Interspeech Computational Paralinguistic Challenges 2011, 2012 and 2019, ASRU 2019 MGB-5 ADI Challenge, Interspeech 2020 and 2021 Fearless Steps Challenges, VoxSRC 2021, 2022 and 2023 Challenges, ICASSP 2022 M2MeT Challenge, IJCAI 2023 ADD challenge, ICME 2024 ChatCLR challenge and Interspeech 2024 AVSE challenge. As a co-author, he has won the best paper award in DCOSS2009 and ISCSLP2014 as well as the best paper shortlist in Interspeech 2024. He received the IBM faculty award in 2016, the ISCA Computer Speech and Language 5-years best journal paper award in 2018 and the youth achievement award of outstanding scientific research achievements of Chinese higher education in 2020. He is a senior member of IEEE.

受邀演讲 2:Shuai Wang南京大学副教授

受邀演讲 2:One Embedding Doesn’t Fit All: Rethinking Speaker Modeling for Various Speech Applications

Shuai Wang is a tenure-track Associate Professor at Nanjing University and an adjunct faculty member at the Chinese University of Hong Kong, Shenzhen (CUHK-SZ). He received his Ph.D. from Shanghai Jiao Tong University in 2020 and his B.Sc. from Northwestern Polytechnical University in 2014. Dr. Wang has published over 60 papers on speaker modeling and has received several honors, including the IEEE Ramaswamy Grant at ICASSP 2018, and first place in both VoxSRC 2019 and DIHARD 2019. He is the initiator of the open-source projects WeSpeaker and WeSep, which are widely adopted by both academia and industry.

受邀演讲 3:Pan PanNexdata AI业务总监

受邀演讲 3:Beyond Data Scarcity: Engineering Quality-First Data Pipelines in Different Training Stage

Visionary leader and operational architect at Nexdata, Pan leverages over a decade of AI data expertise to lead elite teams in delivering end-to-end solutions for LLM, GenAI, and traditional AI models. She has successfully executed 1000+ projects by integrating global-scale multi-sensor data collection, AI-powered annotation, and a unified platform that streamlines the entire training data pipeline.

MLC-SLM研讨会演讲回放

错过了现场直播？您现在可以回顾MLC-SLM挑战赛研讨会上的精彩演讲。回放链接如下

精选演讲

Shinji Watanabe (Carnegie Mellon University)

Topic: Scaling Multilingual Speech Recognition: From a Handful to Thousands of Languages

观看回放

Hung-yi Lee (National Taiwan University)

Topic: Teaching LLM to Listen and Speak

观看回放

Ming Li (Duke Kunshan University)

Topic: Sequence-to-Sequence Neural Diarization under Online and Multi-modal Scenarios

观看回放

Shuai Wang (Nanjing University)

Topic: One Embedding Doesn’t Fit All: Rethinking Speaker Modeling for Various Speech Applications

观看回放

Pan Pan (Director of AI Business, Nexdata)

Topic: Beyond Data Scarcity: Engineering Quality-First Data Pipelines in Different Training Stage

观看回放

获取最新动态

关注我们的LinkedIn和YouTube，获取最新动态和精彩集锦。

关注LinkedIn

订阅YouTube

备注

媒体咨询或授权请求，请联系： marketing@nexdata.ai

背景

目前，大语言模型（LLMs）在各种下游任务中均展现出卓越的性能，已成为语言理解和文本生成等任务的基础模型。近年来，研究者们开始关注如何将 LLMs 应用于语音和音频处理任务，如自动语音识别 (ASR)、音频字幕生成以及语音对话系统等新兴领域。

然而，构建强大的基于 LLM的语音对话系统，在很大程度上依赖于真实世界的对话语音数据。这些数据涵盖了人类语音交流的多种复杂场景，包括自然停顿、中断、说话者重叠和多样化的对话风格。此类数据的稀缺性，尤其是在多语种环境中，极大地限制了该领域的研究和发展。

真实对话语音数据不仅对于技术进步至关重要，还在构建能够理解多语种和长上下文内容的人工智能系统方面发挥关键作用。对于下一代人机交互系统而言，语音对话是核心的沟通方式，高质量的对话语音数据对于提升其准确性和自然度尤为重要。

因此，本次挑战赛/研讨会旨在通过发起多语种对话语音语言模型（MLC-SLM）的挑战，以及发布真实的多语种对话语音数据集来促进该方向的研究。

任务设定与评估

本次挑战赛包含两个任务，均要求参赛者探索基于 LLM 的语音模型的开发：

任务 I：多语种对话语音识别

目标：开发基于 LLM 的多语种 ASR 模型。

参赛者将获得每段对话的真实时间戳标注及说话者标签用于切分语音片段。

该任务的重点是优化多语种对话环境下的语音识别准确率。

任务 II：多语种对话语音日志与识别

目标：开发一个同时进行说话者日志（即识别谁在何时说话），又能进行语音识别（将语音转换为文本）的系统。

评估过程中不提供任何先验信息，如真实时间戳标注、预先切分的语音片段、说话者标签等。

该任务可以使用基于级联系统或端到端系统的方法。

对于任务 I，系统性能将基于不同语言的词错误率（WER）或字符错误率（CER）进行评估。

对于任务 II，性能将基于说话人日志错误率（DER）以及连接最小排列词错误率（tcpWER）或字符错误率（tcpCER）进行评估。DER用于确定在参考标注和日志结果之间的最佳说话人排列。然后，将同一说话人识别结果和参考进行连接，以计算tcpWER或tcpCER。所有提交将根据tcpWER或tcpCER进行排名。

重要日期（AOE 时间）

2025 年 3 月 10 日：注册开放

2025 年 3 月 15 日：训练数据发布

2025 年 4 月 1 日：开发集和基线系统发布

2025 年 5 月 15 日：评估集发布及 Leaderboard开放

2025 年 5 月 30 日：Leaderboard冻结，论文提交系统（CMT）开放

2025 年 6 月 15 日：论文提交截止

2025 年 7 月 1 日：论文录用通知

2025 年 8 月 22 日：研讨会日期

数据集描述

训练集

训练集（Train）包含11 种语言：英语（en）、法语（fr）、德语（de）、意大利语（it）、葡萄牙语（pt）、西班牙语（es）、日语（jp）、韩语（ko）、俄语（ru）、泰语（th）、越南语（vi）。

每段录音均由两位说话者就随机分配的主题进行对话。

对话自然流畅，说话者就每个主题进行有意义的对话。

使用 iPhone 等设备在安静的室内环境中录制。

每段录音都将为语音识别和说话者日志系统的开发提供真实时间戳标注和说话者标签。

任务I和任务II共享相同的训练集。

英语数据集包含来自不同地区的约 500 小时录音，包括美国、英国、澳大利亚、印度和菲律宾英语。其他语言各贡献约 100 小时，总共约 1500 小时的多语言对话语音数据。

英语500覆盖5个不同口音说英语，发音人来自美国、英国、菲律宾、澳大利亚、印度。性别、年龄多样，自然对话风格，标注词准确率98%

100美式英语16K

100英式英语16K

100菲律宾英语16K

100澳大利亚英语16K

100印度英语16K

法语10016K手机录制，录音人选择熟悉的几个话题，分别录制一段流畅自然的对话。发音人性别、年龄多样，标注词准确率98%

德语10016K手机录制，录音人选择熟悉的几个话题，分别录制一段流畅自然的对话。发音人性别、年龄多样，标注词准确率98%

意大利语10016K手机录制，录音人选择熟悉的几个话题，分别录制一段流畅自然的对话。发音人性别、年龄多样，标注词准确率98%

日语10016K手机录制，录音人选择熟悉的几个话题，分别录制一段流畅自然的对话。发音人性别、年龄多样，标注句准确率95%

韩语10016K手机录制，录音人选择熟悉的几个话题，分别录制一段流畅自然的对话。发音人性别、年龄多样，标注句准确率95%

欧洲葡萄牙语10016K手机录制，录音人选择熟悉的几个话题，分别录制一段流畅自然的对话。发音人性别、年龄多样，标注词准确率98%

俄语10016K手机录制，录音人选择熟悉的几个话题，分别录制一段流畅自然的对话。发音人性别、年龄多样，标注词准确率98%

西班牙西班牙语10016K手机录制，录音人选择熟悉的几个话题，分别录制一段流畅自然的对话。发音人性别、年龄多样，标注词准确率98%

泰语10016K手机录制，录音人选择熟悉的几个话题，分别录制一段流畅自然的对话。发音人性别、年龄多样，标注词准确率97%

越南语10016K手机录制，录音人选择熟悉的几个话题，分别录制一段流畅自然的对话。发音人性别、年龄多样，标注词准确率98%

开发集

开发集 (Dev) 与训练集设置相同，但每种语言包含约 4 小时的录音。任务I和任务II共享相同的开发集。

评估集

每个任务使用不同的评估集，分别指定为 Eval_1 和 Eval_2。具体来说，Eval_1 包括真实时间戳标注和说话者标签，使用 WER/CER 进行评估。Eval_2 不提供时间戳或说话者标签，因此需要使用说话者日志系统在识别之前对较长的录音进行分段。

参与者可以通过签署数据使用协议并提交至报名表单来访问数据集。提交后，数据下载链接将发送到您的电子邮件。

开源访问

您可通过点击以下链接申请下载该评估数据集。请注意，下载前需填写一份简要申请表单。您的申请通过后，数据集下载链接将在 7 天内通过邮箱送达。

评估数据集下载链接申请

引用说明

如您在个人研究或学术研究中使用该评估数据集，请在成果中规范注明数据来源。

规则

所有参与者必须遵守以下规则。

外部资源使用：对于任务I 和任务II，允许使用外部数据集和预训练模型（包括语音基础模型和大语言模型）。所有使用的外部资源必须是公开可获取的，并且在最终系统报告中应明确标明。

数据增强：允许在发布的训练集上进行数据增强，可能包括但不限于添加噪声或混响、速度扰动和音调修改。

禁止使用评估集：严禁以任何形式使用评估集。这包括但不限于使用评估集进行微调或训练模型。

多系统融合：参与者不得在任务I和任务II中使用系统融合。提交的结果必须来自单个模型，而不是通过结果融合得出。

提交要求：所有参赛者必须提交其系统。提交内容包括最终识别结果、模型以及能够直接进行推理并获得最终结果的Docker容器等文件。详细的提交说明将在基线系统发布后提供。请注意，我们将公开那些确认参与但未提交任何文件的团队及其所属机构的名称。

主办方解释权：主办方对本规则拥有最终解释权，特殊情况由主办方酌情协调解释。

其他主题

除了挑战系统内容外，还鼓励参与者提交创新发和前瞻性研究论文。主题包括但不限于：

新颖的架构和算法：开发用于训练语音语言模型的新架构和算法。

音频数据处理管线：创新音频数据处理流程，促进多样化互联网数据的收集，以便训练语音语言模型。

自然且情感丰富的语音生成：设计用于生成更加自然且富有情感表达的对话语音的算法，提升对话系统的表现。

利用多轮对话历史：利用多轮对话历史来增强识别和分离结果的技术。

评估技术和基准：评估语音语言模型的创新评估技术或基准。

新数据集：创建用于训练语音和音频语言模型的新数据集，包括真实数据和合成数据。

数据访问和使用

已注册的参与者将有权访问训练和测试数据集。他们必须签署数据使用协议（见下文）、同意保密并遵守数据保护协议。数据集仅用于本次研讨会竞赛，严禁重新分发或任何其他用途。参与者有责任保护数据免受未经授权的访问。

数据许可协议
Data use agreement- nexdata

注册说明

参与者需进行注册。请上传已签署的数据使用协议并填写注册表单（谷歌表单）或（腾讯表单）。挑战赛将于2025年3月10日开始。

如需了解其他与注册相关的信息，请发送邮件至:mlc-slmw@nexdata.ai

联系方式

邮件地址: mlc-slmw@nexdata.ai

Slack频道: https://join.slack.com/t/mlc-slm-challenge/shared_invite/zt-314nfsmhz-QjOJjhjK3OHYUtJyBRtPxA

微信群:

基线系统

Github/MLC-SLM-Baseline

排行榜提交

任务I提交地址

任务II提交地址

论文提交指引

1. 竞赛论文：

a. 参赛者必须提交一篇简短的技术描述论文（同时参与两个任务的参赛者仅提交一篇论文即可）。
b. 长度：2-4页正文+1页参考文献。
c. 内容要求：
  i. 清晰的系统描述，以评估提交结果是否正确、合规。
  ii. 可复现的细节，包括使用的开源数据集和模型、数据增广策略、模型结构、训练配置等。
  iii. 消融实验结果，以验证方法的有效性。
d. 所有参赛者都需要在研讨会上进行口头或者海报展示。

2. 非竞赛论文：

a. 长度：4页正文+ 1页参考文献。
b. 主题：包括但不限于研讨会网站中罗列的主题。

3. 作者工具包：

请使用提供的Interspeech 2022 LaTeX作者工具包 (https://www.interspeech2022.org/files/IS2022_paper_kit.zip) 提交所有论文。请注意，我们使用Interspeech 2022作者工具包以确保单盲评审。

4. 提交平台：

a. 通过 CMT 会议系统提交论文。
b. 本次会议的同行评审流程由微软 CMT 服务管理。该服务由微软免费提供，所有费用由微软承担，包括 Azure 云服务以及软件开发和支持的费用。

奖项

奖金总额： 20,000美金（华为技术有限公司赞助）

本次比赛优秀团队奖金（每项任务）：

第一名：5,000 美金

第二名：3,000 美金

第三名：2,000 美金

竞赛成绩

MLC-SLM Task I

tenp19.61TENPTencent Ethereal Audio Lab

sixteen-years9.672sixteen-yearsChinese Academy of Sciences

t-asr9.833T-ASRSHENZHEN TRANSSION HOLDINGS CO.,LTD.

megaais10.084MegaAISMegatronix (Beijing) Technology Co., Ltd.

maxiaoai10.565MaXiaoAlMashang Consumer Finance Co., Ltd. (MSCF)

ntu_speechlab10.586NTU-SpeechlabNanyang Technological University

cheryfsai11.277Cheryfs-AIChery HuiYin Motor Finance Service Co., Ltd.

seewo11.578seewoGuangzhou Shirui Electronics Co., Ltd.

daominhtri11.719Cake By VPBankCake By VPBank

maybe11.7610MayShanghai Normal University

MLC-SLM Task II

megaais16.531MegaAISMegatronix (Beijing) Technology Co., Ltd.

tenp117.492TENPTencent Ethereal Audio Lab

seewo17.673seewoGuangzhou Shirui Electronics Co., Ltd.

duke_kunshan18.084DKUDuke Kunshan University

sixteen-years19.275sixteen-yearsChinese Academy of Sciences

cheryfsai26.36Cheryfs-AIChery HuiYin Motor Finance Service Co., Ltd.

saengthong27.257ST-ShinozakiLabInstitute of Science Tokyo

fosafer31.688FOSAFER_
RESEARCHBeijing Fosafer Information Technology Co., Ltd.

voicecode55.969VoiceCodeVOICECODE TECHNOLOGY PTE. LTD.

51751759.410INFXZhejiang University

注意：此次成绩公示仅列出每项任务的前 10 个队伍结果，如需查询团队成绩请联系组委会。

地点

荷兰鹿特丹，鹿特丹阿霍伊会议中心14号码头

参加研讨会的注册费

注册费用：50欧元

组委会

冯俊兰，IEEE Fellow及首席科学家，中国移动（中国）

Eng-Siong Chng，教授，南洋理工大学（新加坡）

谢磊，教授，西北工业大学（中国）

Khalid Choukri，秘书长，欧洲语言资源协会（法国）

王帅，研究科学家，南京大学（中国）

肖龙帅，华为技术有限公司（中国）

Shinji Watanabe，副教授，卡内基梅隆大学（美国）

丰强泽，联合创始人兼数据科学家，Datatang（中国）

王大亮，数据科学家，Datatang（中国）

刘和鑫，博士后，南洋理工大学（新加坡）

郭鹏程，博士研究生，西北工业大学（中国）

穆秉甡，博士研究生，西北工业大学（中国）

孙照凯，硕士研究生，西北工业大学（中国）

INTERSPEECH2025多语种对话语音语言模型（MLC-SLM）挑战赛/研讨会

MLC-SLM 研讨会日程

MLC-SLM研讨会演讲回放

精选演讲

获取最新动态

备注

背景

任务设定与评估

任务 I：多语种对话语音识别

任务 II：多语种对话语音日志与识别

重要日期（AOE 时间）

数据集描述

训练集

开发集

评估集

开源访问

引用说明

规则

其他主题

数据访问和使用

注册说明

联系方式

基线系统

排行榜提交

论文提交指引

1. 竞赛论文：

2. 非竞赛论文：

3. 作者工具包：

4. 提交平台：

奖项

竞赛成绩

地点

参加研讨会的注册费

组委会

赞助商

媒体合作伙伴

INTERSPEECH2025多语种对话语音 语言模型（MLC-SLM）挑战赛/研讨会

MLC-SLM 研讨会日程

MLC-SLM研讨会演讲回放

精选演讲

获取最新动态

备注

背景

任务设定与评估

任务 I：多语种对话语音识别

任务 II：多语种对话语音日志与识别

重要日期（AOE 时间）

数据集描述

训练集

开发集

评估集

开源访问

引用说明

规则

其他主题

数据访问和使用

注册说明

联系方式

基线系统

排行榜提交

论文提交指引

1. 竞赛论文：

2. 非竞赛论文：

3. 作者工具包：

4. 提交平台：

奖项

竞赛成绩

地点

参加研讨会的注册费

组委会

赞助商

媒体合作伙伴

INTERSPEECH2025多语种对话语音语言模型（MLC-SLM）挑战赛/研讨会