厉害了！看嘴型竟然就能识别发音

作者：数据堂发布时间：2023-03-30

根据嘴型就能判断出人们在说什么，这就是唇语识别。

唇语识别并非最近才出现的技术，早在2003年，Intel就开发了唇语识别软件AVSR。2016 年，Google DeepMind的唇语识别技术就已经可以支持17500个词，新闻测试集识别准确率达到了50%以上。

唇语识别技术的原理是使用机器视觉技术，从图像中识别出人脸，判断其中正在说话的人，并提取此人连续的口型变化特征。

随后，将连续变化的口型特征输入到唇语识别模型中识别出对应的发音。最后，根据识别出的发音再计算出可能性最大的自然语言语句。

去年，国内知名AI企业搜狗与清华天工研究院合作，在语音和唇语的多模态识别方面取得了重大成果，相关论文《基于模态注意力的端到端音视觉语音识别》已经发表在去年的学术会议ICASSP上。论文提到，纯粹依靠语音的识别方式存在一个缺陷，就是无法在嘈杂环境下仍然保持较高的识别准确率。而视觉的识别方法不受环境声音的影响，在听不清对方讲话时，人们会自然的盯紧讲话者的嘴巴，而听力障碍人士正是通过唇语进行交流的。搜狗研究人员想到，如果让AI也能把这两种方法结合起来，即所谓的“多模态”识别，就能提高语音识别的准确率。

在非特定人开放口语测试集上，搜狗唇语识别系统已经达到60%以上的准确率，超过Google发布的英文唇语系统50%以上的准确率。在垂直场景如车载、智能家居等场景下，搜狗唇语识别系统甚至已经达到90%的准确率。

作为人机交互的形式之一，未来唇语识别技术可以辅助语音交互及图像识别，在日常生活、安防、公益等各个领域实现广泛应用。

搜狗相关负责人在2017年互联网大会上明确提出，希望唇语识别技术能够帮助听障人士“翻译”正常人语言，通过唇读技术把语音转换成文字，帮助他们更好地了解世界。

在车载场景下，周围噪音过大时会对语音指令产生干扰，通过唇语识别技术则可以规避干扰，保证人车交互的准确性和稳定性。

在安防领域，由于目前多数监控只有摄像头没有麦克风，给案情分析带来很多难题，唇语识别技术可以帮助公安人员获取重要的讲话信息，为公共安全提供有效支持。

可以预想，加入唇语识别技术后，公安人员可通过平台锁定视频中犯罪嫌疑人的语言记录，将极大助力犯罪缉查工作的开展。

在公路、会议室、火车站等噪音嘈杂的场景中，唇语识别可以帮助规避音频噪声对用户说话内容获取的影响，确保视屏或语音交流顺畅进行。

由于唇语识别是一项基于机器视觉与自然语言处理于一体的技术，所以在研发难度上比语音识别大得多。通常情况下，唇语识别系统会使用复杂端到端深度神经网络技术进行语言唇语序列建模，并通过数千小时的真实唇语数据进行训练。数据堂深耕于AI数据领域近十年，一直致力于为全球人工智能企业提供专业的数据服务，行业内高标准的《156小时唇形同步多模态视频数据》和《1,998人唇语视频数据》广受重视和好评，能够助力唇语识别技术落地更多应用场景。

156小时唇形同步多模态视频数据

这是一套由250人参与录制语音以及相匹配的唇语视频。工作人员使用多设备同步录制，录制内容包括普通话的短指令和口语句子，通过脉冲信号进行精准对齐，句准确率不低于95%。数据可用于唇语识别、语音图像领域的多模态学习算法研究。

1,998人唇语视频数据

数据由1998人参与录制，数据集中包含41,866段视频，总时长为86小时56分钟1.52秒。数据多样性涵盖多种场景、多个年龄段、多个时间段。

在每段视频中，被采集人读取8位阿拉伯数字。标注人员对视频拍摄时间、读取内容进行标注，准确率不低于95%，该数据可用于唇语识别任务场景。

业内人士预计，鉴于在公共安全、身份识别、残障教育、军事等领域的竞争力，唇语识别技术或将开启万亿级的大数据市场。

但鉴于语言环境的复杂性，唇语识别真正投入实战还尚需时日，仍需进一步加强大数据、可视分析、人工智能技术等领域的融合研究。

阅读更多内容

AI充当家庭安防排头兵，玩转场景数据让智能监控更“贴心”

家庭安防智能监控系统通过可连接到、手机、平板电脑或计算机的硬件设备（通常为智能摄像头），帮助用户监控财产、家庭成员或家里养的宠物。通过智能监控系统，用户不需要一直紧盯着屏幕。当屏幕出现异常，智能分析系统会自动做出判断，并发出报警信号，从而避免了人们由于长时间看屏幕所导致的疲劳、注意力下降，能够真正地提高全天候监控的实际效果。

自动驾驶数据解决方案：为自动驾驶提速提供“燃料”

自动驾驶的出现，重新定义了城市和远距离的出行方式，更是为车辆中人与技术的交互方式，带来了全新的挑战。如何设计自动驾驶下，人机交互的界面，甚至是人与人，系统与系统之间的交互方式，都将是一个值得不断探索和挖掘的话题。

厉害了！看嘴型竟然就能识别发音

上一篇

AI充当家庭安防排头兵，玩转场景数据让智能监控更“贴心”

下一篇

自动驾驶数据解决方案：为自动驾驶提速提供“燃料”

厉害了！看嘴型竟然就能识别发音

近期内容

AI助手：重塑办公生态，携手数据力量共创智能未来

AI定制化时代：小模型与数据深度融合的未来图景

AI手机的浪潮：数据驱动下的智能竞赛

上一篇

AI充当家庭安防排头兵，玩转场景数据让智能监控更“贴心”

下一篇

自动驾驶数据解决方案：为自动驾驶提速提供“燃料”