234小时日语手机采集语音数据_朗读

日本日语语音数据_朗读（手机），基于给定的脚本朗读并模拟录制，涵盖21万句常用日语书面语及常用日语口语。此数据集标注了文本内容、时间戳等多种属性，由799名来自不同地域和文化背景的日本本土人在安静的室内、街道、餐馆等环境下录制，口音正宗，文本经过人工校对，准确率高，为语音识别相关研究及应用提供了丰富的资源，经多家AI公司验证：有助于模型面对真实世界的多样性时能够表现出色。我们严格遵循数据保护法规和隐私规定，确保数据采集、存储和使用的过程中维护用户的隐私和合法权益，所有数据均遵循GDPR,CCPA,PIPL。

数据堂如何保障数据质量与安全

数据规格

格式

16kHz，16bit，未压缩wav，单声道

内容分类

书面语、口语

录音条件

相对安静的室内；街道；餐馆

录音设备

安卓手机

录音人信息

共计799名日本人；其中男性占比51%，女性占比49%

国家

日本

语言地区代码

ja-JP

语言

日语

标注特点

标注文本内容、时间戳、6种噪音符号

准确率

句准确率95%（噪音符号和其他标识符的准确率不计入在内）

样例展示

0:00/ 0:00

法律上の定めはないが、戦後も歴代内閣が続けている[n]

0:00/ 0:00

納得できるまで問い続けたいんですよね

0:00/ 0:00

大人げないなんて言われても、私は気にしない

0:00/ 0:00

業界初の車いす用の衝撃吸収システムも装備した

0:00/ 0:00

[n]カラーはラセットとメチルチャコールの二種類