cn

数据解决方案

请输入姓名

手机号码格式错误

请输入联系电话

请输入公司名称

请输入正确的工作邮箱

请输入数据需求

提交成功!感谢您支持数据堂。

填写格式错误请重新填写

确定

数据需求不能小于5个字且不能为纯数字

https://www.datatang.com

https://www.datatang.ai

m.datatang.ai

厉害了!看嘴型竟然就能识别发音

作者:数据堂 发布时间:2023-03-30

根据嘴型就能判断出人们在说什么,这就是唇语识别。

唇语识别并非最近才出现的技术,早在2003年,Intel就开发了唇语识别软件AVSR。2016 年,Google DeepMind的唇语识别技术就已经可以支持17500个词,新闻测试集识别准确率达到了50%以上。


唇语识别技术的原理是使用机器视觉技术,从图像中识别出人脸,判断其中正在说话的人,并提取此人连续的口型变化特征

随后,将连续变化的口型特征输入到唇语识别模型中识别出对应的发音。最后,根据识别出的发音再计算出可能性最大的自然语言语句


去年,国内知名AI企业搜狗与清华天工研究院合作,在语音和唇语的多模态识别方面取得了重大成果,相关论文《基于模态注意力的端到端音视觉语音识别》已经发表在去年的学术会议ICASSP上。论文提到,纯粹依靠语音的识别方式存在一个缺陷,就是无法在嘈杂环境下仍然保持较高的识别准确率。而视觉的识别方法不受环境声音的影响,在听不清对方讲话时,人们会自然的盯紧讲话者的嘴巴,而听力障碍人士正是通过唇语进行交流的。搜狗研究人员想到,如果让AI也能把这两种方法结合起来,即所谓的“多模态”识别,就能提高语音识别的准确率。


在非特定人开放口语测试集上,搜狗唇语识别系统已经达到60%以上的准确率,超过Google发布的英文唇语系统50%以上的准确率。在垂直场景如车载、智能家居等场景下,搜狗唇语识别系统甚至已经达到90%的准确率。


作为人机交互的形式之一,未来唇语识别技术可以辅助语音交互及图像识别,在日常生活、安防、公益等各个领域实现广泛应用。

搜狗相关负责人在2017年互联网大会上明确提出,希望唇语识别技术能够帮助听障人士“翻译”正常人语言,通过唇读技术把语音转换成文字,帮助他们更好地了解世界。

车载场景下,周围噪音过大时会对语音指令产生干扰,通过唇语识别技术则可以规避干扰,保证人车交互的准确性和稳定性。


安防领域,由于目前多数监控只有摄像头没有麦克风,给案情分析带来很多难题,唇语识别技术可以帮助公安人员获取重要的讲话信息,为公共安全提供有效支持。


可以预想,加入唇语识别技术后,公安人员可通过平台锁定视频中犯罪嫌疑人的语言记录,将极大助力犯罪缉查工作的开展。

在公路、会议室、火车站等噪音嘈杂的场景中,唇语识别可以帮助规避音频噪声对用户说话内容获取的影响,确保视屏或语音交流顺畅进行。


由于唇语识别是一项基于机器视觉与自然语言处理于一体的技术,所以在研发难度上比语音识别大得多。通常情况下,唇语识别系统会使用复杂端到端深度神经网络技术进行语言唇语序列建模,并通过数千小时的真实唇语数据进行训练。数据堂深耕于AI数据领域近十年,一直致力于为全球人工智能企业提供专业的数据服务,行业内高标准的156小时唇形同步多模态视频数据》和《1,998人唇语视频数据》广受重视和好评,能够助力唇语识别技术落地更多应用场景。 


156小时唇形同步多模态视频数据

这是一套由250人参与录制语音以及相匹配的唇语视频。工作人员使用多设备同步录制,录制内容包括普通话的短指令和口语句子,通过脉冲信号进行精准对齐,句准确率不低于95%。数据可用于唇语识别、语音图像领域的多模态学习算法研究。 


1,998人唇语视频数据

数据由1998人参与录制,数据集中包含41,866段视频,总时长为86小时56分钟1.52秒。数据多样性涵盖多种场景、多个年龄段、多个时间段。

在每段视频中,被采集人读取8位阿拉伯数字。标注人员对视频拍摄时间、读取内容进行标注,准确率不低于95%,该数据可用于唇语识别任务场景。


业内人士预计,鉴于在公共安全、身份识别、残障教育、军事等领域的竞争力,唇语识别技术或将开启万亿级的大数据市场。

但鉴于语言环境的复杂性,唇语识别真正投入实战还尚需时日,仍需进一步加强大数据、可视分析、人工智能技术等领域的融合研究。

口音英语语音识别技术研讨会暨挑战赛-数据堂