竞赛简介

第一届多语言对话语音语言模型(MLC-SLM)挑战赛作为 Interspeech 2025 的卫星活动,吸引了来自 13 个国家和地区的 78 支队伍参赛。在两个任务赛道中,共产生了 489 条有效的排行榜结果提交,并提交了 14 篇技术报告。该挑战赛的总结论文已被 ICASSP 2026 接收。此外,首届挑战赛研讨会安排了 2 场主题演讲和 3 场特邀报告,并有 6 支表现最优的参赛队伍通过口头报告形式展示了各自的技术方案,吸引了超过 100 名参会者,取得了显著的成功。

第二届多语言对话语音语言模型(MLC-SLM)研讨会与挑战赛的关键特点

覆盖更多语种和口音

上一届挑战赛发布了近 1500 小时的对话语音数据,涵盖 11 种语种:英语(en)、法语(fr)、德语(de)、意大利语(it)、葡萄牙语(pt)、西班牙语(es)、日语(jp)、韩语(ko)、俄语(ru)、泰语(th)和越南语(vi)。其中英语数据约 500 小时,包含来自多个地区的口音,如英式英语、美式英语、澳大利亚英语、印度英语和菲律宾英语。

第二届 MLC-SLM 挑战赛将新增三种语种:他加禄语(tl)、乌尔都语(ur)和土耳其语(tr),以及加拿大法语、墨西哥西班牙语和巴西葡萄牙语。

覆盖更多语种和口音

更具挑战性

第二届 MLC-SLM 挑战赛将继续推进上一届中尚未充分解决的语音日志与识别任务。

此外,我们还将进一步探索语音大语言模型在多语言对话理解中的潜力,该方向主要涉及声学与语义信息的联合建模与处理。

更具挑战性

动机

近年来,大语言模型的快速发展推动了语音大语言模型的进步,使得语音识别与理解能够实现统一建模。然而,该领域的发展在很大程度上依赖于高质量的真实世界多语言对话语音数据,因为这类数据能够真实反映人类自然交流的复杂性。

第一届研讨会证明了此类数据对于推动语音大语言模型在自动语音识别和说话人日志方面的发展具有重要意义。挑战赛结果表明,语音大语言模型在语音识别任务上取得了较强的性能,这意味着以转写为核心的建模问题在很大程度上已得到解决。相比之下,说话人日志仍然是一个关键的开放性难题,在复杂的多语言和对话场景中,其性能仍然受到限制。这些发现表明,进一步的突破需要从单纯提升转写准确率,转向对对话结构和语音内容进行更深层次的建模。

基于这些观察,第二届研讨会将重点推动语音大语言模型在说话人日志、声学理解与语义理解方面的进展。为支持这一目标,研讨会将发布更广泛、更具多样性的多语言对话语音数据集,进一步扩展语言覆盖范围和对话场景。通过鼓励开展对说话人身份、语音声学表现形式及所传递语义信息的联合建模研究,本次研讨会旨在推动全面的口语语言理解,并引领多语言语音大语言模型研究迈向下一发展阶段。

任务设置与评估

本挑战赛包含两个任务,均要求参赛者探索语音大语言模型的开发与应用:

任务一:多语言对话语音日志与识别

评估过程中不会提供任何先验或 Oracle 信息,例如不提供预分割的语句或说话人标签。
目标:开发一个系统,同时实现说话人日志(识别谁在何时发言)和语音识别(将语音转写为文本)。
鼓励采用流水线式或端到端系统,以提供系统设计与实现的灵活性。
系统性能将依据说话人分割错误率(DER)以及拼接式最小排列词错误率或字符错误率(分别记作 tcpWER 或 tcpCER)进行评估。DER 用于确定 oracle 标注和说话人分割结果之间最佳的说话人 ID 排列。然后,将同一录音中属于同一说话人的识别结果与参考文本进行拼接,以计算 tcpWER 或 tcpCER。所有提交结果将根据 tcpWER 或 tcpCER 进行排名。

任务二:多语言对话语音理解

评估过程中不会提供任何先验或 Oracle 信息,例如不提供预分割的语句或说话人标签。
目标:开发一个系统,实现多语言对话的声学理解与语义理解。
鼓励采用流水线式或端到端系统,以提供系统设计与实现的灵活性。
通过选择题的形式评估系统对整个对话内容的理解能力。

重要日期(AOE 时间)

2026 年 3 月 30 日:注册开启
2026 年 4 月 10 日:训练数据发布
2026 年 4 月 24 日:开发集与基线系统发布
2026 年 6 月 15 日:评估集发布及排行榜开放
2026 年 6 月 25 日:排行榜冻结,论文提交入口开放(CMT 系统)
2026 年 7 月 10 日:论文提交截止
2026 年 7 月 20 日:接收通知
2026 年 10 月 2 日:研讨会举办日期

数据集描述

训练集

训练集(Train)包含14种语言:英语(en)、法语(fr)、德语(de)、意大利语(it)、葡萄牙语(pt)、西班牙语(es)、日语(jp)、韩语(ko)、俄语(ru)、泰语(th)、越南语(vi)、他加禄语(tl)、乌尔都语(ur)和土耳其语(tr)。

  • 每段录音均由两位说话者就随机分配的主题进行对话。
  • 对话自然流畅,说话者就每个主题进行有意义的对话。
  • 使用 iPhone 等设备在安静的室内环境中录制。
  • 每段录音都将为语音识别和说话者日志系统的开发提供真实时间戳标注和说话者标签。
  • 任务 I 和任务 II 共享相同的训练集。
  • 英语数据集包含来自不同地区的约 500 小时录音,包括美国、英国、澳大利亚、印度和菲律宾英语。其他语言各贡献约 100 小时,总共约 2100 小时的多语言对话语音数据。

该数据集旨在为训练和评估多语言会话语音语言模型(MLC-SLM)提供丰富的资源,以应对语言多样性、说话人差异和上下文理解方面的挑战。

语种数据量(h)语种分类采样率详细说明
英语500覆盖 5 个不同口音说英语,发音人来自美国、英国、菲律宾、澳大利亚和印度。性别、年龄多样,自然对话风格,标注词准确率 98%
100美式英语16k
100英式英语16k
100菲律宾英语16k
100澳大利亚英语16k
100印度英语16k
法语20016k手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注词准确率 98%
100欧洲法语16k
100加拿大法语16k
德语10016k手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注词准确率 98%
意大利语10016k手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注词准确率 98%
日语10016k手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注句准确率 95%
韩语10016k手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注句准确率 95%
葡萄牙语20016k手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注词准确率 98%
100欧洲葡萄牙语16k
100巴西葡萄牙语16k
俄语10016k手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注词准确率 98%
西班牙语20016k手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注词准确率 98%
100欧洲西班牙语16k
100墨西哥西班牙语16k
泰语10016k手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注词准确率 97%
越南语10016k手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注词准确率 98%
他加禄语10016k手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注词准确率 97%
乌尔都语10016k手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注词准确率 98%
土耳其语10016k手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注词准确率 98%

其他议题

除了挑战赛系统描述外,鼓励参赛者提交展示创新成果、实际案例研究及前瞻性想法的研究论文。感兴趣的主题包括但不限于:
新型架构与算法:开发用于训练语音大语言模型的新型架构与算法。
音频数据处理流程:用于处理原始音频数据的创新流程,支持收集多样化的互联网数据以训练语音大语言模型。
自然且富有情感的语音生成:设计用于生成更自然、情感丰富的对话语音的算法,适用于对话系统。
利用多轮对话历史:利用多轮对话历史以提升说话人分离和语音理解效果的方法。
评估技术与基准:专门用于评估语音大语言模型的创新评估方法或基准。
新数据集:创建用于训练语音大语言模型的新数据集,包括真实数据和合成数据。

数据访问和使用

注册参赛者将获得训练集和测试集的访问权限。注册参加 MLC-SLM 挑战赛即表示您已接受数据使用协议(见下文),同意保密并遵守数据保护协议。数据集仅用于本次研讨会挑战赛,严禁重新分发或用于任何其他用途。参赛者有责任保护数据免遭未经授权的访问。

数据使用协议

注册

请使用注册表注册您的团队:

挑战赛将于 2026 年 3 月 30 日开始注册。注册即表示您同意相关条款和协议

我们欢迎学术界和产业界的团队参赛。我们也鼓励个人研究人员参与。

如需了解更多注册信息,请发送电子邮件至:mlc-slmw@nexdata.ai

组织者

谢磊,西北工业大学
王帅,南京大学
薛浏蒙,南京大学
Eng Siong Chng,南洋理工大学
李宏毅,台湾大学
陈谐,上海交通大学
Khalid Choukri,欧洲语言资源协会(ELRA)
丰强泽,数据堂
王大亮,数据堂
肖龙帅,华为技术有限公司
刘和鑫,南洋理工大学
穆秉甡,西北工业大学
林振楠,西北工业大学