cn

数据解决方案

请输入姓名

手机号码格式错误

请输入联系电话

请输入公司名称

请输入正确的工作邮箱

请输入数据需求

提交成功!感谢您支持数据堂。

填写格式错误请重新填写

确定

数据需求不能小于5个字且不能为纯数字

https://www.datatang.com

https://www.datatang.ai

m.datatang.ai

想准确识别各地方言?数据堂方言语音数据了解一下

作者:数据堂 发布时间:2023-03-14

不论是“啥事都中”的河南,还是遍地“靓女靓仔”的广东,方言都是各地极具特色的文化名片。一方面方言附着极大的亲切感 , 另一方面方言也承载着各地强烈的情感认同与文化价值。


方言识别顾名思义就是利用智能语音技术使机器听懂说话人的方言语音。随着科技的发展,人工智能应用使用场景也会不断拓展,方言识别已成为众多人工智能厂商关注的重点。


方言识别市场前景远大

在智能客服领域中,方言识别功能的加入能提高方言、重口音普通话识别的准确率,从而精准识别出用户提出的问题,给与用户最合适的回答,高效精准的服务用户,成为真正“听得懂,说的出”的智能客服,进而拉近企业与用户之间的距离,树立良好的企业形象。


在输入法领域,方言识别可以让重口音、方言用户做到随心所欲的语音输入,不必再担心因为口音问题出现的错输、漏输问题,也可以让只会讲方言的老年人,通过软件实现与听不懂方言的用户无障碍交流,亲身体会到科技带来的便利。


方言识别可用于传统文化保护

方言是一个地区独有的语言,它的形成包含了当地的自然因素、社会因素,汇集了当地特色文化的方言,如果丢失,就相当于丢掉了该地区的文化根基。


方言识别技术还可以反向输出方言,让当地居民了解、学习当地的方言,进而了解当地的文化,并去自发的保护当地文化,这样才能更好的保护文化多样性。在广袤的华夏大地上,科技正在反哺传统,正守护着多彩语言文化的灿烂文明。


面临重重挑战的方言识别

方言识别虽然前景较好,但面临的挑战也不少,首先,方言识别与普通话识别截然不同,方言的识别要复杂得太多。复杂不仅体现在文字使用习惯上 ( 例如:(普)近来还顺利吗?工作很辛苦吧?()呢段时间过得顺唔顺吖?做嘢好辛苦嘞?) , 读音上也存在差异性 ("  " "  " )哪怕同属于一个大的方言分区,也分歧异出,更不用说属于不同大区之间的方言了。


其次,众多的方言种类,给方言数据采集带来了很多困难。一般来说,数据库的采集无非是字、词、句的搜罗,把该方言点的常用句子、词语通过文字、音标乃至语音的方式记录下来,集成一个数据库,供人工智能学习使用。众多方言种类意味着需要收集的数据也是海量的。很难短时间建立起全国通用的方言数据集。


方言语音识别数据解决方案

面向方言识别技术在将来的大规模应用,数据堂提前预知、布局,已采集涵盖七大方言区和台湾地区的数万小时以上的方言数据,包含《粤语手机采集语音数据》、《昆明方言手机采集语音数据》、《台湾普通话手机采集语音数据》等方言数据集,可分秒交付,数据堂严格遵守相关规定,所采集的数据均已获得被采集人授权,数据堂致力于用高质量的数据推动步态别的发展、有效保障用户数据性的安全性。


粤语手机采集语音数据

该数据包括近5000名来自广东省发音人,在安静的室内环境下的录音数据。录音内容广泛,覆盖50 万句常用口语语句,包括微博高频词、日常用语等。句子平均重复次数1.5次,平均句长12.5字,句准确率95%。匹配主流安卓、苹果系统手机。


昆明方言手机采集语音数据

两千余名昆明话母语发音人参与录制,口音正宗,覆盖多个年龄段。录音文本涵盖通用、交互、车载、家居等多类别,内容丰富。昆明本地人参与质检校对,文本转写精准率达95%。匹配主流安卓、苹果系统手机。


台湾普通话手机采集语音数据

该数据由数百名台湾本土人员参与录制,每人朗读450句,录音内容丰富,包括经济,娱乐,新闻,口语,数字,字母等,涵盖通用场景及人机交互场景。已经过人工进行文本转写,句准确率达95%。匹配主流安卓、苹果系统手机。


维语手机采集语音数据

来自维吾尔族聚居区的人参与录制,男女均衡。录音内容为30万维语口语化句子,录音环境为安静的室内,所有句子均经过人工精准转写,并标注了噪音标识。


未来方言识别会加强对“方言字词”、“方言音标”标准化建设,让AI更懂人们的声音。未来随着语音识别自适应能力越强 , 不受特定人、口音、的方言识别技术将指日可待。


欢迎各界人士访问我们的网站,了解我们的数据服务和解决方案,如果您对方言语音数据集有需求,欢迎联系数据堂,我们将竭诚为您服务。

口音英语语音识别技术研讨会暨挑战赛-数据堂