29,954张东南亚小语种OCR采集数据
29,954张东南亚小语种OCR采集数据包括高棉语(柬埔寨)、老挝语和缅甸语3种语言。采集多样性包括多语种、多种采集类型、多种拍摄角度。本套数据可用于东南亚语言OCR任务。
数据规格
数据规模
29,954张,包含高棉语(柬埔寨)8,798张、老挝语11,575张、缅甸语9,581张
采集环境
自然场景:商店牌匾、海报、警示语、路标、食品包装、广告牌、街景等;文档拍照:卡片、票据、书籍报纸(文档、报纸、书籍、试卷等);电子场景:电脑截图(教育、旅游、新闻、艺术等)、手机截图(金融、体育、医疗等)
自然场景:商店牌匾、海报、警示语、路标、食品包装、广告牌、街景等;文档拍照:卡片、票据、书籍报纸(文档、报纸、书籍、试卷等);电子场景:电脑截图(教育、旅游、新闻、艺术等)、手机截图(金融、体育、医疗等)
采集多样性
多语种、多种采集类型、多种拍摄角度
采集设备
手机、电脑
数据格式
图片格式为.png等通用格式
准确率
按照采集要求,采集准确率不低于95%
样例展示



