竞赛简介

第一届多语言对话语音语言模型(MLC-SLM)挑战赛作为 Interspeech 2025 的卫星活动,吸引了来自 13 个国家和地区的 78 支队伍参赛。在两个任务赛道中,共产生了 489 条有效的排行榜结果提交,并提交了 14 篇技术报告。该挑战赛的总结论文已被 ICASSP 2026 接收。此外,首届挑战赛研讨会安排了 2 场主题演讲和 3 场特邀报告,并有 6 支表现最优的参赛队伍通过口头报告形式展示了各自的技术方案,吸引了超过 100 名参会者,取得了显著的成功。

第二届多语言对话语音语言模型(MLC-SLM)研讨会与挑战赛的关键特点

覆盖更多语种和口音

上一届挑战赛发布了近 1500 小时的对话语音数据,涵盖 11 种语种:英语(en)、法语(fr)、德语(de)、意大利语(it)、葡萄牙语(pt)、西班牙语(es)、日语(jp)、韩语(ko)、俄语(ru)、泰语(th)和越南语(vi)。其中英语数据约 500 小时,包含来自多个地区的口音,如英式英语、美式英语、澳大利亚英语、印度英语和菲律宾英语。
第二届 MLC-SLM 挑战赛将新增三种语种:他加禄语(tl)、乌尔都语(ur)和土耳其语(tr),以及加拿大法语、墨西哥西班牙语和巴西葡萄牙语。
feature-languages.png

更具挑战性

第二届 MLC-SLM 挑战赛将继续推进上一届中尚未充分解决的语音日志与识别任务。
feature-challenges.png

动机

近年来,大语言模型的快速发展推动了语音大语言模型的进步,使得语音识别与理解能够实现统一建模。然而,该领域的发展在很大程度上依赖于高质量的真实世界多语言对话语音数据,因为这类数据能够真实反映人类自然交流的复杂性。

第一届研讨会证明了此类数据对于推动语音大语言模型在自动语音识别和说话人日志方面的发展具有重要意义。挑战赛结果表明,语音大语言模型在语音识别任务上取得了较强的性能,这意味着以转写为核心的建模问题在很大程度上已得到解决。相比之下,说话人日志仍然是一个关键的开放性难题,在复杂的多语言和对话场景中,其性能仍然受到限制。这些发现表明,进一步的突破需要从单纯提升转写准确率,转向对对话结构和语音内容进行更深层次的建模。

基于这些观察,第二届研讨会将重点推动语音大语言模型在说话人日志、声学理解与语义理解方面的进展。为支持这一目标,研讨会将发布更广泛、更具多样性的多语言对话语音数据集,进一步扩展语言覆盖范围和对话场景。通过鼓励开展对说话人身份、语音声学表现形式及所传递语义信息的联合建模研究,本次研讨会旨在推动全面的口语语言理解,并引领多语言语音大语言模型研究迈向下一发展阶段。

奖项

奖金总额: 20,000美金或其他等值货币(华为技术有限公司赞助)

本次比赛优秀团队奖金(每项任务):

第一名:5,000 美金
第二名:3,000 美金
第三名:2,000 美金

重要日期(AOE 时间)

  • 2026 年 3 月 30 日:注册开启
  • 2026 年 4 月 10 日:训练数据发布
  • 2026 年 4 月 24 日:开发集发布
  • 2026年 5 月 13 日:基线系统发布
  • 2026 年 6 月 15 日:评估集发布及排行榜开放
  • 2026 年 6 月 25 日:排行榜冻结,论文提交入口开放(CMT 系统)
  • 2026 年 7 月 10 日:论文提交截止
  • 2026 年 7 月 20 日:接收通知
  • 2026 年 10 月 2 日:研讨会举办日期

任务设置与评估

本挑战赛包含两个任务,均要求参赛者探索语音大语言模型的开发与应用:

任务一:多语言对话语音日志与识别

  • 评估过程中不会提供任何先验或 Oracle 信息,例如不提供预分割的语句或说话人标签。
  • 目标:开发一个系统,同时实现说话人日志(识别谁在何时发言)和语音识别(将语音转写为文本)。
  • 鼓励采用流水线式或端到端系统,以提供系统设计与实现的灵活性。
  • 系统性能将依据说话人分割错误率(DER)以及拼接式最小排列词错误率或字符错误率(分别记作 tcpWER 或 tcpCER)进行评估。DER 用于确定 oracle 标注和说话人分割结果之间最佳的说话人 ID 排列。然后,将同一录音中属于同一说话人的识别结果与参考文本进行拼接,以计算 tcpWER 或 tcpCER。所有提交结果将根据 tcpWER 或 tcpCER 进行排名。

任务二:多语言对话语音理解

  • 评估过程中不会提供任何先验或 Oracle 信息,例如不提供预分割的语句或说话人标签。
  • 目标:开发一个系统,实现多语言对话的声学理解与语义理解。
  • 鼓励采用流水线式或端到端系统,以提供系统设计与实现的灵活性。
  • 通过选择题的形式评估系统对整个对话内容的理解能力。

数据集描述

训练集

训练集(Train)包含 14 种语言:英语(en)、法语(fr)、德语(de)、意大利语(it)、葡萄牙语(pt)、西班牙语(es)、日语(jp)、韩语(ko)、俄语(ru)、泰语(th)、越南语(vi)、他加禄语(tl)、乌尔都语(ur)和土耳其语(tr)。

  • 每段录音均由两位说话者就随机分配的主题进行对话。
  • 对话自然流畅,说话者就每个主题进行有意义的对话。
  • 使用 iPhone 等设备在安静的室内环境中录制。
  • 每段录音都将为语音识别和说话者日志系统的开发提供真实时间戳标注和说话者标签。
  • 任务 I 和任务 II 共享相同的训练集。
  • 英语数据集包含来自不同地区的约 500 小时录音,包括美国、英国、澳大利亚、印度和菲律宾英语。其他语言各贡献约 100 小时,总共约 2100 小时的多语言对话语音数据。
    该数据集旨在为训练和评估多语言会话语音语言模型(MLC-SLM)提供丰富的资源,以应对语言多样性、说话人差异和上下文理解方面的挑战。
语种 数据量(h) 语种分类 采样率 详细说明
英语 100 美式英语 16k 覆盖 5 个不同口音说英语,发音人来自美国、英国、菲律宾、澳大利亚和印度。性别、年龄多样,自然对话风格,标注词准确率 98%
英语 100 英式英语 16k 覆盖 5 个不同口音说英语,发音人来自美国、英国、菲律宾、澳大利亚和印度。性别、年龄多样,自然对话风格,标注词准确率 98%
英语 100 菲律宾英语 16k 覆盖 5 个不同口音说英语,发音人来自美国、英国、菲律宾、澳大利亚和印度。性别、年龄多样,自然对话风格,标注词准确率 98%
英语 100 澳大利亚英语 16k 覆盖 5 个不同口音说英语,发音人来自美国、英国、菲律宾、澳大利亚和印度。性别、年龄多样,自然对话风格,标注词准确率 98%
英语 100 印度英语 16k 覆盖 5 个不同口音说英语,发音人来自美国、英国、菲律宾、澳大利亚和印度。性别、年龄多样,自然对话风格,标注词准确率 98%
法语 100 欧洲法语 16k 手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注词准确率 98%
法语 100 加拿大法语 16k 手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注词准确率 98%
德语 100 16k 手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注词准确率 98%
意大利语 100 16k 手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注词准确率 98%
日语 100 16k 手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注句准确率 95%
韩语 100 16k 手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注句准确率 95%
葡萄牙语 100 欧洲葡萄牙语 16k 手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注词准确率 98%
葡萄牙语 100 巴西葡萄牙语 16k 手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注词准确率 98%
俄语 100 16k 手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注词准确率 98%
西班牙语 100 欧洲西班牙语 16k 手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注词准确率 98%
西班牙语 100 墨西哥西班牙语 16k 手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注词准确率 98%
泰语 100 16k 手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注词准确率 97%
越南语 100 16k 手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注词准确率 98%
他加禄语 100 16k 手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注词准确率 97%
乌尔都语 100 16k 手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注词准确率 98%
土耳其语 100 16k 手机录制,录音人选择熟悉的几个话题,分别录制一段流畅自然的对话。发音人性别、年龄多样,标注词准确率 98%

基线系统

对于任务1,我们在微软的开源模型VibeVoice-ASR上进行使用挑战赛训练集微调,使用Meeteval工具包计算tcpMER(日语韩语泰语语种是按照tcpCER计算,其他语种是按照tcpWER计算)。
对于任务2,我们首先使用Gemini2.5-Pro构造训练集和验证集涉及声学与语义信息理解的选择题,然后使用ms-swift工具包微调Qwen2.5-Omni-7B。我们将开源Dev集的选择题以及答案,以供参赛者参考。Eval集也将按照相似的方法构建语音理解选择题并且进行人工审核以用于任务2的最后排名。
Task 1 Baseline Github
Task 2 Baseline Github
Development set multiple-choice questions & answers for Task 2

其他议题

除了挑战赛系统描述外,鼓励参赛者提交展示创新成果、实际案例研究及前瞻性想法的研究论文。感兴趣的主题包括但不限于:

  • 新型架构与算法:开发用于训练语音大语言模型的新型架构与算法。
  • 音频数据处理流程:用于处理原始音频数据的创新流程,支持收集多样化的互联网数据以训练语音大语言模型。
  • 自然且富有情感的语音生成:设计用于生成更自然、情感丰富的对话语音的算法,适用于对话系统。
  • 利用多轮对话历史:利用多轮对话历史以提升说话人分离和语音理解效果的方法。
  • 评估技术与基准:专门用于评估语音大语言模型的创新评估方法或基准。
  • 新数据集:创建用于训练语音大语言模型的新数据集,包括真实数据和合成数据。

Q&A

  • Q1:关于多系统融合
  • A1:允许使用由多个组件/模型构成的级联流水线,例如 VAD(语音活动检测)+ Diarization(说话人切分)+ ASR(自动语音识别)。不过,本次挑战赛禁止使用诸如 ROVER 之类的方法来融合多个 ASR 模型的输出结果。
  • Q2:关于模型大小/公开资源/推理时间的限制
  • A2:本次挑战赛对模型大小、公开资源或推理时间均无限制,但在后续提交的技术报告中需提供详细说明。尽管如此,我们依然欢迎参赛者提交更具创新性、高效且高准确度的解决方案。
  • Q3:关于任务 2 的单选题
  • A3:开发集(Dev)和评估集(Eval)子集中的单选题均通过 Gemini2.5-Pro API 生成构建。具体的构建方法为:将每段对话音频及其对应的说话人信息、时间戳和转录文本作为输入,并从声学、语义以及声学与语义融合这三个维度来设计题目。每道题目设有 2 至 4 个选项,且仅包含一个正确答案。开发集中的题目与答案均经过 Gemini2.5-Pro 的反复验证;而评估集中的题目与答案不仅经过了 Gemini2.5-Pro 的多轮检查,还额外经过了人工审核。我们不会发布训练集中的单选题及其答案。参赛者在为任务 2 构建训练集的单选题时,可以使用开源模型或商业 API,但必须在后续提交的技术报告中提供详细说明。重要提示:商业 API 仅允许用于构建任务 2 训练集的单选题,严禁将其用于任何其他用途。
  • Q4:关于基线模型
  • A4:任务 1 的基线模型为经过微调的 VibeVoice-ASR;任务 2 的基线模型为通过 ms-swift 工具进行微调的 Qwen2.5-7B-Omni 模型。所有的微调过程均严格遵循官方提供的源代码实现,且相关的微调代码已对外开源。

数据访问和使用

注册参赛者将获得训练集和测试集的访问权限。注册参加 MLC-SLM 挑战赛即表示您已接受数据使用协议(见下文),同意保密并遵守数据保护协议。数据集仅用于本次研讨会挑战赛,严禁重新分发或用于任何其他用途。参赛者有责任保护数据免遭未经授权的访问。
数据使用协议

注册

请使用注册表注册您的团队:

挑战赛将于 2026 年 3 月 30 日开始注册。注册即表示您同意相关条款和协议
我们欢迎学术界和产业界的团队参赛。我们也鼓励个人研究人员参与。
如需了解更多注册信息,请发送电子邮件至:mlc-slmw@nexdata.ai

联系方式

邮件地址:mlc-slmw@nexdata.ai
Slack 频道:https://join.slack.com/t/mlc-slm-challenge/shared_invite/zt-314nfsmhz-QjOJjhjK3OHYUtJyBRtPxA
微信群:

组织者

  • 谢磊,西北工业大学
  • 王帅,南京大学
  • 薛浏蒙,南京大学
  • Eng Siong Chng,南洋理工大学
  • 李宏毅,台湾大学
  • 陈谐,上海交通大学
  • Khalid Choukri,欧洲语言资源协会(ELRA)
  • 丰强泽,数据堂
  • 王大亮,数据堂
  • 肖龙帅,华为技术有限公司
  • 刘和鑫,南洋理工大学
  • 穆秉甡,西北工业大学
  • 林振楠,西北工业大学