zh

数据解决方案

请填写姓名

手机号码格式错误

请填写手机号码

请填写公司全称

请填写企业邮箱

需求描述不能为空

提交成功!感谢您支持数据堂。

填写格式错误请重新填写

确定

需求描述格式错误且最少输入5个字符

暂无数据

语音合成

首页>新闻列表>【好数推荐】小语种语音数据集

【好数推荐】小语种语音数据集

来源:数据堂2021-12-13

近两年,随着“一带一路”建设的深入推进以及AI和云计算等新兴技术产业迅速崛起,已经有越来越多的中国科技企业实现走出去。然而,对于一些人工智能企业来说,出海之路仍面临诸多难题。首当其冲就是语言问题,准确而清晰的识别语音,是智能产品打开当地市场的基本前提。



小语种,顾名思义即语言覆盖范围小,使用人数少而无法作为国际流通语言,对于小语种语音识别的实现而言,由于不同语言之间差异很大,人工智能厂商需要根据不同的语言特性单独建模,为保证语音识别的效果,就需要运用不同语种的优质数据集进行模型优化,然而高质量小语种训练数据稀缺,成为语音识别的一大瓶颈。



作为全球领先的人工智能的数据服务商,数据堂现有近30个小语种的成品语音数据,可满足多数小语种语音识别的需求,数据堂严格遵守相关规定,所采集的数据均已获得被采集人授权。


德语语音数据  

数据时长近3000小时,德国本土发音人参与录制,录音文本由语言专家参与设计,包括经济、娱乐、新闻、口语、数字、字母等,文本经过人工校对,准确率高,可应用于语音识别、机器翻译、声纹识别等任务。

获取数据样例:https://datatang.com/dataset/info/speech/65


韩语语音数据  

数据时长近2000小时,由来自韩国、朝鲜的本土发音人,在安静无回音的环境的录音数据,录音内容广泛,包括经济,娱乐,新闻,口语,数字,字母等,文本转写句错误率小于5%。匹配主流安卓、苹果系统手机。
获取数据样例:https://datatang.com/dataset/info/speech/60


法语语音数据  

数据时长近1800小时,由法国、加拿大、非洲等地的法语母语发音人参与录制,录音环境安静,录音内容丰富,覆盖经济、娱乐、新闻、口语等多个领域,所有文本由人工转写,句准确率达95%,可应用于语音识别、机器翻译、声纹识别等任务。

获取数据样例:https://datatang.com/dataset/info/speech/114


西班牙语语音数据  

数据时长近3000小时,由西班牙、墨西哥、委内瑞拉等国的西班牙语母语人员参与录制,录音环境安静,录音内容丰富,覆盖经济、娱乐、新闻、口语等多个领域,文本经过人工校对,准确率高,可应用于语音识别、机器翻译、声纹识别等任务。

获取数据样例:https://datatang.com/dataset/info/speech/951


葡萄牙语语音数据  

数据时长近2000小时,由葡萄牙、巴西本土葡萄牙母语发音人参与录制,录音文本由语言专家参与设计,涵盖通用、交互、车载、家居等多类别,内容丰富,文本经过人工校对,准确率高,匹配主流安卓、苹果系统手机。
获取数据样例:https://datatang.com/dataset/info/speech/954


日语语音数据  

数据时长近1000小时,由日本母语发音人参与录制,覆盖东部、西部、九州地区,其中东部地区占比最多。录音内容丰富,所有文本均经过人工转写,准确率高。

获取数据样例:https://datatang.com/dataset/info/speech/58


印地语音数据  

数据时长近1500小时,由印度本土发音人参与录制,录音涵盖安静和噪音的不同环境,更贴合语音识别实际应用场景,录音内容丰富,覆盖经济、娱乐、新闻、口语等多个领域,所有文本由人工转写,准确率高,可应用于语音识别、机器翻译、声纹识别等任务。

获取数据样例:https://datatang.com/dataset/info/speech/71


如果以上数据不能满足您当前的需求,数据堂还可以针对特定人群、特定场景、特定语种提供个性化的数据定制服务,我们将全力协助客户得到满意的数据服务。


口音英语语音识别技术研讨会暨挑战赛-数据堂