222,522张中文手写体OCR数据
222,522张中文手写体OCR数据。书写环境包括A4纸、方格纸、横格纸、白板、彩色便签和答题卡等。书写内容包括诗歌、散文、店铺活动通知、祝福语、心愿单、摘抄文本、作文和笔记等。数据多样性包括多种书写纸张、多种字体、多种书写内容、多种采集角度。采集角度为平视和仰视。在标注方面,标注行/列级文本的四边形框,行/列级文本转写。本套数据可用于中文手写体OCR任务。
数据规格
数据规模
222,522张,2,499,944个四边形框
书写环境
A4纸、方格纸、横格纸、白板、彩色便签、答题卡等
书写内容
诗歌、散文、店铺活动通知、祝福语、心愿单、摘抄文本、作文、笔记等
书写方式
横排文字书写、竖排文字书写
采集多样性
包括多种书写纸张、多种字体、多种书写内容、多种采集角度
采集设备
手机
采集角度
平视、仰视
数据格式
图像数据格式为.jpg,标注文档格式为.json
采集内容
采集不同类型的中文手写体数据
标注内容
行级/列级四边形标注、行级/列级内容转写
准确率
四边形框顶点偏差不超过5个像素为正确检测,检测框精度不低于95%;文本转写精度不低于95%