cn

数据解决方案

请输入姓名

手机号码格式错误

请输入联系电话

请输入公司名称

请输入正确的工作邮箱

请输入数据需求

提交成功!感谢您支持数据堂。

填写格式错误请重新填写

确定

数据需求不能小于5个字且不能为纯数字

https://www.datatang.com

https://www.datatang.ai

m.datatang.ai

录音音质差听不清?普林斯顿提出新算法HiFi-GAN或许可以帮上忙

作者:数据堂 发布时间:2023-03-30

近日,普林斯顿大学的研究人员开发了一种新算法HIFI-GAN可以将低质量的录音转换为高质量的录音室音质音频

以往的人工智能音频处理方法通常只能改善录音音质的某一方面,如过滤背景噪音或去除混响,而这种新方法是一种多功能工具。


“先前的方法主要集中在改善录音的可懂度,但就改善音质来说并不是很有优势”,论文的第一作者Jiaqi Su说。研究人员希望将他们的框架应用于实现完全自动化的实时语音增强


HIFI-GAN使用深度学习的关键工具人工神经网络,可以模拟生物神经元的互联结构。在这个系统中,两个独立的网络相互竞争可以提高音频质量。


其中一个网络被称为“生成器”(generator),用以生成清洗过的语音录音。另一个网络叫做鉴别器”(discriminator),能够分析音频是录音室音质还是被生成器清洗过的录音。这些对抗神经网络之间的竞争提高了HIFI-GAN清洗音频的能力。


“生成器的任务就是欺骗辨别鉴别器”,合著者Adam Finkelstein说,“两者都在训练中逐渐提升,变得越来越有效率。这个过程完成后,你就可以拿掉鉴别器,而将拥有一个强大的生成器。”



为了评估HIFI-GAN生成的录音,研究人员寻求了众包平台Amazon Mechanical Turk的帮助。该平台的听众会分别对HIFI-GAN处理过的录音和其算法处理的录音进行评级。在Amazon Mechanical Turk2.8万名听众的评分中,HIFI-GAN的得分远高于其他五种算法的处理结果。


Finkelstein和团队成员还设立了一种客观评估指标,用于检验和量化录音中的细微差异。该指标是根据Amazon Mechanical Turk收集的5.5万人类判断进行训练的,它可以提高HIFI-GAN的性能,也能更广泛地应用于处理录音的深度学习方法的评估。


“我们想找到一种与人类感知相似指标,”合著者Pranay Manocha说,“例如,我们播放两段录音并让机器判断两段录音是完全相同还是截然不同,根据我们的指标机器应当能够给出与人类判断相似的答案”。


“深度学习在音频处理领域已经产生了巨大的影响,我们期望这一影响在未来十年能够变得更加深刻,”Finkelstein说,“但机器学习需要知道如何做……它需要一个损失函数。”


Finkelstei说在设计一个好的损失函数时,“需要一个全自动的方法来确定人们是否会说两段音频片段听起来相似”。因此,该团队接下来的努力方向就是开发一种自动方法来预测人类会如何回答这个问题。

目前,研究人员正在进一步完善该算法以实现实时语音增强,这一研究成果能够很好地应用于变焦对话或网络会议。

 

参考:

1.https://techxplore.com/news/2020-12-ai-latest-word-clearer-audio.html

2.https://daps.cs.princeton.edu/projects/HiFi-GAN/index.php?env-pairs=DAPS&speaker=f10&src-env=all

口音英语语音识别技术研讨会暨挑战赛-数据堂