cn

数据解决方案

请输入姓名

手机号码格式错误

请输入联系电话

请输入公司名称

请输入正确的工作邮箱

请输入数据需求

提交成功!感谢您支持数据堂。

填写格式错误请重新填写

确定

数据需求不能小于5个字且不能为纯数字

https://www.datatang.com

https://www.datatang.ai

m.datatang.ai

通用场景语音合成数据集推荐

作者:数据堂 发布时间:2023-03-30

语音合成,通常又称文语转换(Text To Speech,TTS),是一种可以将任意输入文本转换成相应语音的技术,是人机语音交互中不可或缺的模块之一。


传统语音合成

传统的语音合成系统通常包含前端和后端两个模块。前端模块主要是对输入文本进行分析,提取后端模块所需要的语言学信息。对中文合成系统来说,前端模块一般包含文本正则化(Text Normalization,简称TN)、多音字消歧、韵律预测等子模块。后端模块根据前端分析结果,通过一定的方法生成语音波形。


前端技术的背后需要大量的TN标注、多音字标注、韵律标注等基础数据作为支撑,帮助前端技术输出准确的结果。


后端技术的背后需专业发音人录制的高质量音库,为了应对多种场景,需要音色多样、语种多样的大量音库。


个性化语音合成

个性化语音合成,通常指使用少量并且可能低质量的目标说话人语音,使用迁移学习等方法,训练一个能够合成目标说话人语音的语音合成模型。通常做法是基于大量不同发音人训练一个通用语音合成模型,然后使用少量目标说话人语音进行fine-tune。


个性化语音合成的应用日趋成熟,百度地图支持用户仅需录制9句话,便能生成一套完整的个人语音包,并在地图全场景进行使用


个性化语音合成技术的背后需要多发音人平均模型库作为重要的数据支撑。数据堂面向通用场景的语音合成数据分为三类:


一、单发音人合成库

由单个发音人,在专业录音棚内录制的音库。

1

24小时中文女声通用合成库

温柔亲切的年青女性录制,语料涵盖日常口语、有声读物、新闻、广告、客服、电影解说,文字标注的字准确率不低于99.9%,韵律标注的句准确率不低于98%。


2

13.3小时中文女声情感合成库

温柔亲切的年青女性录制,六种情感文本,语料音素覆盖均衡,专业语音学家参与标注,文字标注的字准确率不低于99.9%,音素标注的句准确率不低于99%,韵律标注的句准确率不低于98%。



3

6.78小时中文女声模仿童声合成库

活泼甜美的成人女性模仿儿童录制,语料覆盖K12练习题、阅读绘本、教辅内容、问候语、导读内容,文字标注的字准确率不低于99%。



4

19.46小时美国英语女声合成库

温柔亲切的年青女性录制,语料涵盖通用陈述句、通用疑问句等类别,标注了文字、词性、音素边界、4级重音、4级韵律。



5

20小时美国英语男声合成库

年轻积极的成人男性录制,语料涵盖通用陈述句、通用疑问句等类别,文字标注的字准确率不低于99.9%,韵律标注的句准确率不低于98%。


6

10小时日语女声合成库

活泼甜美的年轻女性录制,语料覆盖新闻、口语,文字标注的字准确率不低于99%。


7

10小时韩语女声合成库

活泼甜美的年轻女性录制,语料覆盖新闻、口语,文字标注的字准确率不低于99%。


二、多发音人平均模型库

由多个发音人,在专业录音棚内录制的音库。

1

100人中文通用平均音色合成库

涵盖新闻、日常口语、有声读物、诗词、广告、消息播送、娱乐等类别,语种涵盖中文、英文、中英混读,发音人男女各50人,涵盖不同年龄段(成人70人、儿童20人、老人10人),每人录制600到700个句子。标注了文字、音素、4级韵律、音素边界。


2

50人中文三风格平均音色合成库

每人录制客服类、播音类、故事类三种风格的数据,语料音素覆盖均衡,发音人男女各25人,每人录制600个句子。专业语音学家参与标注,句准确率不低于99%。


三、前端文本

1

199,652句TN数据

涵盖小说、文章、新闻等类别,将句子中包含的特定的特殊符号及阿拉伯数字标注为汉字写法,共计199,652条句子、454,638条标注。


2

319,977条汉语多音字语料数据

涵盖新闻、口语等类别,包含266个多音字的603个字音,共计319,977条句子。


3

200,955条中文文本韵律标注语料数据

文本来自新闻和日常聊天,进行了4级韵律标注。



作为全球领先的人工智能数据服务商,数据堂丰富的样音资源、突出的技术优势和数据处理经验,支持按语言、音色、年龄、性别个性化定制的采集服务。同时还支持音频切分、音素边界切分(切分精度0.01秒)、音字标注、韵律标注、词性标注、音准校对、声韵标注、乐谱制作等数据定制服务,全面满足多样化语音合成需求。使合成声音更有感情,使人工智能呈现更为真实的电脑语音,使人工智能语音助手在声音互动中更有亲和力。



关于数据堂

数据堂现拥有丰富的训练数据集产品,同时提供数据定制服务,旗下数加加标注平台通过集成 自动化标注工具可以快速降低数据处理成本。

凭借高质量训练数据服务,数据堂已成功帮助全球上千家企业提升AI模型性能。

官方网站:www.datatang.com

客服热线:13051623904

客服邮箱:services@datatang.com


口音英语语音识别技术研讨会暨挑战赛-数据堂