zh

https://www.datatang.com

https://www.datatang.ai

m.datatang.ai

20,000小时中文普通话语音数据集

20,000小时中文普通话语音数据集

数据堂自有版权的中文普通话语音数据集全部由来自中国本土发音人进行录制。覆盖不同年龄段,如低幼儿童、青少年、成年人、老年人等;覆盖不同地域发音人的不同习惯,如重口音普通话、台湾普通话、中英混读语音数据等;同时,中文普通话也覆盖室内室外不同场景,如家居、车载等场景的唤醒词、命令词等普通话语音数据。

更多数据
10,000小时中国地区方言语音数据集

10,000小时中国地区方言语音数据集

数据堂自有版权的中国地区方言语音数据集涵盖了来自八大方言区本土发音人参与录制的语音数据,包括粤语语音数据集、上海话语音数据集、闽南话语音数据集、昆明方言语音数据集、武汉方言语音数据集、长沙方言语音数据集、四川方言语音数据集等多个地区的方言语音数据,同时由本地人参与质检校对,文本转写更精确。

更多数据
10,000小时各国人说英语语音数据集

10,000小时各国人说英语语音数据集

数据堂自有版权的各国人说英语语音数据集包含了美国、英国、中国、德国、法国、加拿大等各国人说英语的语音数据集。录音文本由语言专家参与设计,贴合客户应用场景,涵盖通用、交互、车载、家居等多类别,内容丰富且文本经过人工校对,准确率高。

更多数据
6,000小时亚洲语系语音数据集

6,000小时亚洲语系语音数据集

数据堂自有版权的亚洲语系语音数据集包含了来自印尼、日本、韩国、越南、马来、泰国等国家的本土发言人参加录制。录音内容丰富,所有文本均有专业人员人工转写,准确率高。

更多数据
10,000小时欧洲语系语音数据集

10,000小时欧洲语系语音数据集

数据堂自有版权的欧洲语系语音数据集包含了来自德国、法国、俄罗斯、西班牙、意大利等国家本土发音人参与录制。录音内容丰富,所有文本均有专业人员人工转写,准确率高。

更多数据
2,500小时其他语系语音数据集

2,500小时其他语系语音数据集

数据堂自有版权的其他语系语音数据集主要包括巴西人录制的巴西葡萄牙语数据集、以色列人录制的希伯来语数据集。该系列仍在不断扩建中。

更多数据

专业项目经理为您制定语音识别数据解决方案

立即获取方案

定制采集

数据堂自研语音采集工具集成了录音项目管理、语料领用、自动检测语音质量、结果加密上传、电子授权、采标一体化等多种功能,确保录音质量满足各种定制要求。

方言普通话语言数据
方言普通话语言数据
外语语音数据
外语语音数据
多语种混合语音数据
多语种混合语音数据
会议语音数据
会议语音数据
声纹识别语音数据
声纹识别语音数据
语音唤醒数据
语音唤醒数据
客服语音数据
客服语音数据

定制标注

数据堂语音标注工具标注效率高,覆盖单人/多人、多标签、属性的定制标注需求,通过人机协作“Human-in-the-loop”的方式有效利用语音识别模型来进行半自动标注,提高标注产能。

定制标注

预识别自动标注功能

数据堂旗下数加加Pro标注平台内置领先的语音预识别自动标注工具,基于“Human-in-the-loop”技术可以实现大规模高质量数据生产能力,加倍提升标注产能,满足不同领域客户的人工智能产品研发需求。

预识别自动标注功能

欢迎试用语音识别数据标注平台

体验自动化标注带来的高效与便捷

试用平台