100小时荷兰语(荷兰)实体标注手机采集朗读语音数据

荷兰荷兰语实体标注语音数据_朗读(手机),基于给定的文本朗读并模拟录制,涵盖人名、电话号码、地址、数字字母序列、Email、产品型号、产品序列号、金钱等多个实体类型,内容丰富。此数据集标注了文本内容等多种属性,准确性高,为语音识别相关研究及应用提供了丰富的资源,经多家AI公司验证:有助于模型面对真实世界的多样性时能够表现出色。我们严格遵循数据保护法规和隐私规定,确保数据采集、存储和使用的过程中维护用户的隐私和合法权益,所有数据均遵循GDPR,CCPA,PIPL。

数据规格

格式
16kHz,16bit,wav,单声道
录音环境
相对安静的室内,普通环境(包含不影响识别的噪声)
内容分类
录音人员依据给定文本进行朗读并录制,每条文本至少包含一类指定实体词:人名、电话号码、地址、数字字母序列、Email、产品型号、产品序列号、金钱
国家
荷兰
语言地区代码
nl-NL
语种
荷兰语
准确率
词准确率98%(标点、标签及非语音标注部分相对主观,因此准确率不包括标点标签和其他标识符的错误)
录音设备
安卓手机,苹果手机