第一届多语言对话语音语言模型(MLC-SLM)挑战赛作为 Interspeech 2025 的卫星活动,吸引了来自 13 个国家和地区的 78 支队伍参赛。在两个任务赛道中,共产生了 489 条有效的排行榜结果提交,并提交了 14 篇技术报告。该挑战赛的总结论文已被 ICASSP 2026 接收。此外,首届挑战赛研讨会安排了 2 场主题演讲和 3 场特邀报告,并有 6 支表现最优的参赛队伍通过口头报告形式展示了各自的技术方案,吸引了超过 100 名参会者,取得了显著的成功。
上一届挑战赛发布了近 1500 小时的对话语音数据,涵盖 11 种语种:英语(en)、法语(fr)、德语(de)、意大利语(it)、葡萄牙语(pt)、西班牙语(es)、日语(jp)、韩语(ko)、俄语(ru)、泰语(th)和越南语(vi)。其中英语数据约 500 小时,包含来自多个地区的口音,如英式英语、美式英语、澳大利亚英语、印度英语和菲律宾英语。
第二届 MLC-SLM 挑战赛将新增三种语种:他加禄语(tl)、乌尔都语(ur)和土耳其语(tr),以及加拿大法语、墨西哥西班牙语和巴西葡萄牙语。

第二届 MLC-SLM 挑战赛将继续推进上一届中尚未充分解决的语音日志与识别任务。
此外,我们还将进一步探索语音大语言模型在多语言对话理解中的潜力,该方向主要涉及声学与语义信息的联合建模与处理。

近年来,大语言模型的快速发展推动了语音大语言模型的进步,使得语音识别与理解能够实现统一建模。然而,该领域的发展在很大程度上依赖于高质量的真实世界多语言对话语音数据,因为这类数据能够真实反映人类自然交流的复杂性。
第一届研讨会证明了此类数据对于推动语音大语言模型在自动语音识别和说话人日志方面的发展具有重要意义。挑战赛结果表明,语音大语言模型在语音识别任务上取得了较强的性能,这意味着以转写为核心的建模问题在很大程度上已得到解决。相比之下,说话人日志仍然是一个关键的开放性难题,在复杂的多语言和对话场景中,其性能仍然受到限制。这些发现表明,进一步的突破需要从单纯提升转写准确率,转向对对话结构和语音内容进行更深层次的建模。
基于这些观察,第二届研讨会将重点推动语音大语言模型在说话人日志、声学理解与语义理解方面的进展。为支持这一目标,研讨会将发布更广泛、更具多样性的多语言对话语音数据集,进一步扩展语言覆盖范围和对话场景。通过鼓励开展对说话人身份、语音声学表现形式及所传递语义信息的联合建模研究,本次研讨会旨在推动全面的口语语言理解,并引领多语言语音大语言模型研究迈向下一发展阶段。
训练集(Train)包含14种语言:英语(en)、法语(fr)、德语(de)、意大利语(it)、葡萄牙语(pt)、西班牙语(es)、日语(jp)、韩语(ko)、俄语(ru)、泰语(th)、越南语(vi)、他加禄语(tl)、乌尔都语(ur)和土耳其语(tr)。
该数据集旨在为训练和评估多语言会话语音语言模型(MLC-SLM)提供丰富的资源,以应对语言多样性、说话人差异和上下文理解方面的挑战。
注册参赛者将获得训练集和测试集的访问权限。注册参加 MLC-SLM 挑战赛即表示您已接受数据使用协议(见下文),同意保密并遵守数据保护协议。数据集仅用于本次研讨会挑战赛,严禁重新分发或用于任何其他用途。参赛者有责任保护数据免遭未经授权的访问。
请使用注册表注册您的团队:
挑战赛将于 2026 年 3 月 30 日开始注册。注册即表示您同意相关条款和协议 。
我们欢迎学术界和产业界的团队参赛。我们也鼓励个人研究人员参与。
如需了解更多注册信息,请发送电子邮件至:mlc-slmw@nexdata.ai