cn

数据解决方案

请输入姓名

手机号码格式错误

请输入联系电话

请输入公司名称

请输入正确的工作邮箱

请输入数据需求

提交成功!感谢您支持数据堂。

填写格式错误请重新填写

确定

数据需求不能小于5个字且不能为纯数字

https://www.datatang.com

https://www.datatang.ai

m.datatang.ai

推荐 | 光学字符识别的 5 个最佳免费数据集

作者:数据堂 发布时间:2023-03-30

光学字符识别技术,即OCR。OCR是指电子设备,例如扫描仪或相机检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别的方法将形状翻译成计算机文字的过程。

OCR的作用是检测图像中的文字区域以及识别文字内容,它在很多场合可替代键盘完成高速文字录入任务。


OCR技术的应用场景十分广泛,以下是几个应用较为成熟的领域:

·远程身份认证:结合OCR和人脸识别技术,实现用户证件信息的自动录入,并完成用户身份验证。应用于金融保险、社保、O2O等行业,有效控制业务风险。

·内容审核与监管:自动识别图片、视频中的文字内容,及时发现涉黄、涉暴、政治敏感、恶意广告等不合规内容,规避业务风险,大幅节约人工审核成本。

·纸质文档票据电子化:通过OCR实现纸质文档资料、票据、表格的自动识别和录入,减少人工录入成本,提高输入效率。



自然环境下的OCR要面临、要解决的问题还是相当多的,例如背景复杂、加盖印章干扰叠加、图像对比度低、污迹和磨损、字体种类繁多、印刷受墨多寡等情况。

基于深度学习的技术而言,训练数据的数量很大程度上影响了技术效果,提升训练数据的数量和质量成为解决上述问题的根本途径。

为了提升OCR识别和转写的准确度,不是少平台开发了OCR标注和转写数据集,以下是五个常用的OCR数据库网络资源。

 

·NIST数据库

美国国家科学研究院出版了3600位作者的笔迹,其中包括80万个字符图像。

网址:

https://catalog.data.gov/dataset/nist-handprinted-forms-and-characters-nist-special-database-19

 

·MNIST数据库

原始NIST数据的子集,具有60,000个手写数字示例的训练集。

网址:

https://yann.lecun.com/exdb/mnist/

 

·阿拉伯语印刷文本

包含113,284个单词的词典,并使用10种阿拉伯字体。

网址:

https://diuf.unifr.ch/main/diva/APTI/

 

·Stanford OCR

包含由Stanford发布的MIT Spoken Language Systems Group收集的手写单词数据集。

网址:

https://ai.stanford.edu/~btaskar/ocr/

 

·Chars74K数据

包含英文和卡纳达语数字的74K图像。

网址:https://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/

 

沉淀十余年数据处理经验,数据堂在句法标注、事件标注等方面也积累了自己OCR标注和转写方面独特的数据优势,以下是数据堂研制的OCR数据:

数据堂自有版权OCR数据

1

4,002张互联网图像OCR数据

2

105,959张12种语言自然场景OCR数据

3

14,980张8种语言PPT OCR数据

4

3,506张印地语OCR标注及转写数据

5

4,995张越南语OCR标注及转写数据

欢迎联系客服小堂获取样例数据 ~



口音英语语音识别技术研讨会暨挑战赛-数据堂