234小时日语手机采集语音数据_朗读
日本日语语音数据_朗读(手机),基于给定的脚本朗读并模拟录制,涵盖21万句常用日语书面语及常用日语口语。此数据集标注了文本内容、时间戳等多种属性,由799名来自不同地域和文化背景的日本本土人在安静的室内、街道、餐馆等环境下录制,口音正宗,文本经过人工校对,准确率高,为语音识别相关研究及应用提供了丰富的资源,经多家AI公司验证:有助于模型面对真实世界的多样性时能够表现出色。我们严格遵循数据保护法规和隐私规定,确保数据采集、存储和使用的过程中维护用户的隐私和合法权益,所有数据均遵循GDPR,CCPA,PIPL。
数据规格
格式
16kHz,16bit,未压缩wav,单声道
内容分类
书面语、口语
录音条件
相对安静的室内;街道;餐馆
录音设备
安卓手机
录音人信息
共计799名日本人;其中男性占比51%,女性占比49%
国家
日本
语言地区代码
ja-JP
语言
日语
标注特点
标注文本内容、时间戳、6种噪音符号
准确率
句准确率95%(噪音符号和其他标识符的准确率不计入在内)
样例展示
0:00/ 0:00
0:00/ 0:00
法律上の定めはないが、戦後も歴代内閣が続けている[n]
0:00/ 0:00
0:00/ 0:00
納得できるまで問い続けたいんですよね
0:00/ 0:00
0:00/ 0:00
大人げないなんて言われても、私は気にしない
0:00/ 0:00
0:00/ 0:00
業界初の車いす用の衝撃吸収システムも装備した
0:00/ 0:00
0:00/ 0:00
[n]カラーはラセットとメチルチャコールの二種類