222,289张中文自然场景OCR数据

222,289张中文自然场景OCR数据采集场景涵盖室内和室外场景。数据多样性包括多种场景和多种拍摄角度。在标注方面,对图像中文字进行行级标注、单词级标注、字符级标注和内容转写。本套中文自然场景OCR数据可用于自然场景OCR任务。

数据规格

数据规模
222,289张图像
采集环境
包括室内场景和室外场景
采集多样性
多种场景、多种拍摄角度
采集设备
手机、相机
拍摄角度
仰视、俯视、平视
数据格式
图像数据格式为jpg、png、jpeg,标注文档格式为json
标注内容
行级矩形框标注,行级内容转写;单词级矩形框标注,单词级内容转写 ;字符级矩形框标注,字符级内容转写
准确率
检测框标注准确率不低于95%; 文本转写准确率不低于95%

样例展示