




Shinji Watanabe (Carnegie Mellon University)
Topic: Scaling Multilingual Speech Recognition: From a Handful to Thousands of Languages
Hung-yi Lee (National Taiwan University)
Topic: Teaching LLM to Listen and Speak
Ming Li (Duke Kunshan University)
Topic: Sequence-to-Sequence Neural Diarization under Online and Multi-modal Scenarios
Shuai Wang (Nanjing University)
Topic: One Embedding Doesn’t Fit All: Rethinking Speaker Modeling for Various Speech Applications
Pan Pan (Director of AI Business, Nexdata)
Topic: Beyond Data Scarcity: Engineering Quality-First Data Pipelines in Different Training Stage
目前,大语言模型(LLMs)在各种下游任务中均展现出卓越的性能,已成为语言理解和文本生成等任务的基础模型。近年来,研究者们开始关注如何将 LLMs 应用于语音和音频处理任务,如自动语音识别 (ASR)、音频字幕生成以及语音对话系统等新兴领域。
然而,构建强大的基于 LLM的语音对话系统,在很大程度上依赖于真实世界的对话语音数据。这些数据涵盖了人类语音交流的多种复杂场景,包括自然停顿、中断、说话者重叠和多样化的对话风格。此类数据的稀缺性,尤其是在多语种环境中,极大地限制了该领域的研究和发展。
真实对话语音数据不仅对于技术进步至关重要,还在构建能够理解多语种和长上下文内容的人工智能系统方面发挥关键作用。对于下一代人机交互系统而言,语音对话是核心的沟通方式,高质量的对话语音数据对于提升其准确性和自然度尤为重要。
因此,本次挑战赛/研讨会旨在通过发起多语种对话语音语言模型(MLC-SLM)的挑战,以及发布真实的多语种对话语音数据集来促进该方向的研究。
