让人工智能认出一只猫有多难?

首先我们必须明确一点,人脑和计算机的“大脑”的是完全不同的。

计算机具备高速运算的功能,可以快速完成很多对于人类来说很麻烦的事情。

拿圆周率π的计算来说,公元前480年前后,祖冲之得出精确到小数点后七位的结果,这个记录保持了将近八百年。

随着数学这门科学的不断演进,1948年英国的弗格森(D.F. Ferguson)和美国的伦奇共同发表了π的808位小数值,这是人工计算圆周率值的最高纪录。

而在1949年美国制造出世界上第一台计算机ENIAC之后,这台电脑只花了70小时就算出π的2037个小数位。

而到了2011年10月16日,日本一个普通公司职员利用家中电脑,将圆周率计算到了小数点后10万亿位。

但是有些人类可以轻而易举完成的事情,对于计算机来说却有着巨大的障碍。

——比如从一张图片中识别一只猫。

人可以轻易的分辨出一只猫的形象,但是对于计算机来说,这是个相当艰难的任务。

计算机不具备人类大脑高度发达的神经反射系统,这不是拥有高速运算能力能解决的问题。任何图像信息进入计算机之后都是一堆杂乱的像素点,计算机如何确定这是一只猫呢?

最开始的办法,是首先要明确猫是什么样的。

猫应该有毛,但是有些猫就是没毛。

猫应该有耳朵,但是有些猫耳朵是趴着的,根本看不出来耳朵。

猫总该有胡须眼睛,但有的猫是背对着你的。

猫总要有一些颜色,但晚上看一只黑猫就不行。

有的看起来像猫,但说不定是狗,是狐狸,或者是其他的什么动物。

传统OCR文字识别也面临着类似的问题。

要识别一张图像中的文字,首先要对图像进行二值化,把图像简单粗暴地处理成黑白两色,然后针对其中黑色的部分进行分析和字符切分,甚至还需要找到所有可能的切分点进行过切分,从而从更多的组合方式中寻找最优的识别结果。

这样的做法实在太过复杂,中文OCR识别字符集达到20000个,要用这种切分再识别的方式,就像让计算机在一堆各式各样的像素点里认出一只猫一样,需要人工设定无数条规则,过分依赖人工干预,不仅效率低,而且误差相当大。

但人工智能进入深度学习阶段之后,问题就变得不一样了。

深度学习将计算机科学和人类神经学结合起来,让计算机像人脑一样去学习和思考,实现“自我进化”。

基于深度神经网络,人们给计算机提供大量的图片,告诉它这是猫或者不是猫,给它一个模型让它自己去学习、分析,自主形成“猫”的概念。经过一定量的训练后,再给它一张图,它就可以判断到底是不是猫了。

基于深度学习的OCR识别技术简化掉了二值化和切分的流程,将识别的重点落在了文字检测上,也就可以完成许多传统OCR识别难以完成的任务。比如复杂背景、低分辨率、多种字体、非均匀光照、图像退化、字符变形、透视变形、多语言混合、多种排列方式等等图像的OCR识别。

如何在一张图片中识别出文字?

现在要解决的问题变成了如何在杂乱无序、千奇百怪的复杂场景中准确定位出角度、直线、图章、文字等区域。如果将角度检测、直线检测、图章检测、文字检测几个模块分开进行,那么网络规模将非常大、存储的模型非常大,串行效率非常低,而且存在大量重复的卷积操作。

易道博识创造性的采用了多任务(MultiTask)的FCN检测网络,将角度检测、直线检测、图章检测、文字检测融合在一个检测网络中,这样就大大提升了检测效率,并且可以适应不同角度、排列规则、多方向、多尺度的文字和图章识别,在金融样本中已经达到出色的识别效果。

易道博识基于深度学习的OCR识别技术,打破了传统OCR对图像质量的苛刻要求,不仅可以识别高拍仪、扫描仪采集的图像,还能有效识别手持设备如手机、PAD等采集的图像,极大地扩大了OCR处理范围,充分满足金融业务需求,大大提高业务效率,降低人工成本,提高信息利用价值,有效推动金融数据体系的建立,助力金融行业实现跨越式升级。

发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

推荐文章

'); })();