500,000张21国自然场景&文档拍照场景&电子场景OCR标注数据

500,000张21国自然场景&文档拍照场景&电子场景OCR标注数据。数据包含21个语种,每个语种数量分布为20,000-25,000张。数据类型包括自然场景、文档拍照场景和电子场景。数据多样性包括多种数据类型、多种拍摄角度、多语种。在标注方面,采用行(列)级四边形或多边形标注、行(列)级内容转写。数据可用于多语种OCR识别任务。

数据规格

数据规模
500,000张,每个语种数量分布为20,000-25,000张
语种分布
德语、法语、葡萄牙语、意大利语、西班牙语、印尼语、俄语、日语、韩语、越南语、波兰语、捷克语、土耳其语、菲律宾语、荷兰语、印地语、马来语、哈萨克语、斯洛伐克语、罗马尼亚语、乌兹别克语
德语、法语、葡萄牙语、意大利语、西班牙语、印尼语、俄语、日语、韩语、越南语、波兰语、捷克语、土耳其语、菲律宾语、荷兰语、印地语、马来语、哈萨克语、斯洛伐克语、罗马尼亚语、乌兹别克语
采集环境
文档拍照场景:书籍、报纸、多类型卡片、票据等;自然场景:海报、警示语、路标、食品包装、广告牌、站牌、招牌等;电子场景:手机截屏、电脑截屏、电子文档
采集多样性
多种数据类型、多种拍摄角度、多语种
采集设备
手机、电脑
数据格式
图片格式为.jpg等通用格式、标注文档格式为.json
标注内容
行(列)级四边形或多边形标注、行(列)级内容转写
准确率
行级检测框精度不低于97%,框分行正确且四周偏差不超过5个像素认定为正确标注; 行级、字符级转写精度不低于97%。