日本OKWAVE问答数据集,助力大语言模型训练

源自日本知名问答平台OKWAVE的海量日文文本数据,截至2025年4月,提问840万条、23亿文字;回答2700万条、76亿文字;感谢(提问者对回答者表达的谢意)1550万条、17亿文字;补充说明210万条、3.6亿文字;数据字段完整(含问题、答案、类别、日期、作者、感谢及补充说明),经专业清洗,是训练面向日本市场的大语言模型、优化问答与对话系统的优质语料资源。

数据规格

数据内容
OKWAVE问答文本数据,平台授权、版权清晰
数据规模
数据持续更新,截至25年4月底,提问840万条、23亿文字;回答2700万条、76亿文字;感谢(提问者对回答者表达的谢意)1550万条、17亿文字;补充说明210万条、3.6亿文字
数据持续更新,截至25年4月底,提问840万条、23亿文字;回答2700万条、76亿文字;感谢(提问者对回答者表达的谢意)1550万条、17亿文字;补充说明210万条、3.6亿文字
数据字段
包含问题、答案、类别、发布日期、发布作者等多个字段
存储格式
Json
语言
日语

样例展示