印尼语、马来语、越南语预训练语料
本数据集为东盟语种的预训练语料,包含70GB的印尼语语料、70GB的越南语语料和10GB的马来语语料,每个语种的语料均涉及社会、文化、百科、新闻等多个领域。字段清晰,领域丰富,且可根据需求扩充语种及语料规模,助力国内大模型出海。
数据规格
数据内容
本数据集为大模型预训练语料,涉及印尼语、越南语和马来语,每个语种的语料均涉及社会、文化、百科、新闻等多个领域。
数据规模
印尼语语料70GB,马来语语料10GB,越南语语料70GB
存储格式
Jsonl
语言
印尼语,马来语,越南语
字段
id (字符串)唯一标识符 text (字符串)内容正文 meta (对象) data_info (对象) lang (字符串): 语言代码(如 "vi") url (字符串): 来源网址 source (字符串): 来源类型(如 "encyclopedia") processing_date (字符串): 处理日期 title (字符串): 标题 content_info (对象) domain (字符串): 主领域 subdomain (字符串): 子领域
id (字符串)唯一标识符 text (字符串)内容正文 meta (对象) data_info (对象) lang (字符串): 语言代码(如 "vi") url (字符串): 来源网址 source (字符串): 来源类型(如 "encyclopedia") processing_date (字符串): 处理日期 title (字符串): 标题 content_info (对象) domain (字符串): 主领域 subdomain (字符串): 子领域