人工智能方向很多,其中OCR作为图片文字识别,在很多方面得到运用,例如:网络安全公司通过爬虫网络图片,对图片上的文字识别分析,从而判定其是否含有特定色彩信息等。对图片上的文字有效识别,方便了文字的携带和再次重复使用,只需对需要识别的图片拍摄扫描就可识别其文字信息,大大简化人的工作量。
OCR识别的第一步便是数据准备,数据作为训练好坏的关键,往往具有一定重要性,巨大的数据量也是模型识别能力的重要保障。而OCR数据准备不像图片识别目标检测那样需要人工标注,因其数据需求简单,因此,算法开发者通常通过程序自动生成训练数据,本人之前做中文、英文、日语等多种语言OCR识别过程都是通过程序仿真。而丰富多样的数据格式,有利于提高模型的泛化能力。今天给大家介绍一个GitHub开源的OCR字符识别利器。
GitHub地址:https://github.com/Belval/TextRecognitionDataGenerator
该项目下载后可以直接在本地运行,支持中文、英文数据仿真,使用者只需要按要求将字体和语料库放到指定目录即可。
通过如下命令即可仿真数据:
生成仿真数据入口
如下是仿真的英文OCR训练数据:
仿真的英文OCR训练数据
当然,在真实场景中,如上数据远远不能满足需求,该项目提供了配置参数,通过 - k命令可以生成倾斜或呈对角线排列的数据,如下:
对角线排列的OCR训练数据
这种对角线排列的数据在训练过程很有意义,对提高模型的泛化和抗噪能力至关重要。
不仅如此,该项目提供了波浪形状的仿真数据,通过- d参数即可生成。
呈波浪形的OCR训练数据
这种数据加入OCR训练过程,通过实验,对模型能力提升特别大。
不仅如此,项目提供了-d参数的以图片作为背景的OCR数据。
以图片作为背景的OCR仿真数据
这种数据只需要开发者将搜集到的背景图片放到指定目录,程序在仿真过程会自动读取并仿真,本人在一步步调试其源代码的时候,对其做了很多修改。
该项目还支持手写字符识别的数据仿真,通过-hw参数控制。
手写OCR数据仿真
作者还提供了仿真速度结果:
仿真速度对比
可以看到,不同环境中仿真的图片速度不同,开发者只有指定参数即可。目前,该项目已经有673个star,fork286次,可以说得到了很多人的喜欢,如果你也从事或者准备从事人工智能中的OCR方向,不妨以此作为你的仿真数据利器,相信一定会给你带来意想不到的惊喜和模型效果。
喜欢的朋友可点击关注哦,有问题欢迎大家随时留言。
留言与评论(共有 0 条评论) |