11.4万道中文竞赛试题文本结构化解析处理数据

11.4万道中文竞赛试题文本结构化解析处理数据,包含小学、初中、高中的数学、物理、化学及生物学科。每道试题包含问题、答案、解析、学科、学段、题型等字段。该数据可用于大模型学科知识增强任务,同时可以促进模型的整体智能发展。

数据规格

数据内容
竞赛试题文本数据
数据规模
约11.4万道
数据字段
包含问题、答案、解析、学科、学段、题型、知识点、是否带图字段,部分试题无解析
学科类别
小初高的理科试题
存储格式
Jsonl
语言
中文
数据处理
解析了学科、问题、解析及答案等,做了公式latex转换和表格格式转换,内容也做了清洗

样例展示