3,997组多类型结构化OCR数据
3,997组多类型结构化OCR数据。数据包含多种文档类型,比如票据、表单、截屏、图纸、线路图等。在标注方面,对多类型文档数据进行OCR标注和结构化标注。数据可用于多类型文档OCR识别和文档结构化识别等任务。
数据规格
数据规模
3,997组
采集设备
手机、电脑
数据类型
票据、表单、截屏、图纸、线路图、信息板、证件、指示牌
采集多样性
包含多样文档类型
数据格式
图像数据格式为.jpg等通用格式,OCR文档格式为.json,结构化文档格式为.txt和.md
标注内容
对多类型文档数据进行OCR标注和结构化标注
准确率
OCR标注:四边形框顶点偏差不超过5个像素为正确检测,检测框精度不低于97%;文本转写精度不低于97%;结构化描述:以标点符号为间隔,若该句内容描述客观准确,无明显文字或逻辑错误,不包含敏感内容,则认定该句标注正确,正确标注句子的占比不低于97%
OCR标注:四边形框顶点偏差不超过5个像素为正确检测,检测框精度不低于97%;文本转写精度不低于97%;结构化描述:以标点符号为间隔,若该句内容描述客观准确,无明显文字或逻辑错误,不包含敏感内容,则认定该句标注正确,正确标注句子的占比不低于97%
样例展示


