AI第一个攻略的领域:图像

在几年的各种渲染和轰炸下,AI也开始渐渐走入人们的生活。很多人可能第一个接触到的AI就是手机上的”图像AI“衍生出的——AI美颜、AI图像优化等等。

相对于AI其他的领域,比如广告推荐、windows更新的推送、大数据等等,图像更贴近生活一些,从某种程度也更容易被察觉。不过从某种角度来说,”图像AI“其实很早以前就进入了生活,只不过在全新的技术下焕发新的活力。

在现在的AI出现之前,已经有很多拍摄设备在"偷偷“的优化你所拍摄的图像。厂商会根据调研或产品经理制定的标准来制作一个算法,将照片的参数代入其中,并尽量自动调整一些总体上的对比度,亮度,曝光等做一些后处理,提高出片率。在计算能力不强的时候,很多CMOS较差的硬件就通过这种方式提升照片的观感。不过这种方法只能对整张照片进行操作,有时候在部分区域容易”用力过猛“。

随着半导体制作能力的逐步增长,和更多新技术和研发的上线,芯片的运算能力逐渐增长,相比以前可以运算更多内容,也可以开始对照片能有更多的操作。现在意义上的图片,从按下快门要经过几个步骤。

(图源:@WHYLAB)

由CMOS最初输出为RAW无损格式,这时需要矫正像素和电平,降噪去马赛克后转为RGB颜色空间。此时会矫正白平衡、色彩和伽马值。最后压缩为YUV颜色空间,进行锐化、色彩处理,最后压缩成片。

这些图片的转换过程之中,倾向性占了很大的部分。这也是为什么三星索尼苹果使用区别不大的CMOS但是照片色彩表达区别巨大的原因。这些人工的调教在过去曾是每个厂商最重要的机密,不过在AI的出现之后,这个步骤变得简单太多。

和原有方案相比,AI需要的是一个好的模型。厂商只需要给定一些图片的优化样例进行训练,通过训练,AI能够逐渐学习给定的图片优化倾向。学习之后的AI在获得图片后,能通过学习出来的模型,来倾向性优化。

在图形AI化的道路中,有两个代表性的技术。一个名叫caffe,另一个是HDR+。

两者都是图形相关的AI技术,却代表者截然不同的两条路。caffe走的是草根路线,它是一种常用的深度学习框架,主要用于对视频和图像的处理上。它有一名加州大学生研发,并全部开源。其可以轻易的和CUDA和cuDNN结合,轻易的成为每个人都可以使用,调教的深度学习模型,并制作成AI软件。目前几乎所有的NVIDIA显卡都支持CUDA,也基本无需担心速度和兼容问题。即使在不支持CUDA的硬件上,也能调用CPU来完成AI操作。目前流行的放大图片神器waifu就是使用的caffe框架和CUDA,既能降噪也能放大图片。

HDR+则走的是强强联合路线,它由谷歌和高通联手,深耕于硬件之后,它的软硬件结合程度远优于竞争对手。它在你按下快门之前就已经开始自动拍摄照片,在按下快门之后,系统会自动从所有已拍摄的照片中筛选,合成出质量最好的照片。谷歌通过算法补齐这些照片的曝光差距,后期提亮暗部细节,降噪等,提升整个画面的观感。它的效果是显著的,让只有一个摄像头且不是顶级硬件的pixel系列的拍照能力名列前茅,之中算法作用非常大.

和HDR+不同,caffe使用了BSD开源协议,鼓励代码共享,也允许使用者修改和重新发布,开放的协议让caffe很快成为了非常主流的图像类深度学习框架,开源也让开发成本更低,更快。和caffe不同的HDR+,谷歌并没有公开其详细的技术和代码,敝帚自珍让很多手机的拍照至今都无法赶上pixel。

这也代表了未来AI图像和AI的两个不同的路线,草根开源和大公司强强联合。从技术能力来看,大公司的预算和环境更好,研发能力更强。但从长远来看,开源对整个生态和业界有更好的促进作用。商业闭源和社区开源,也不是单单Ai行业面临的选择,不过在目前各有优势的情况下,很难判断。不过在AI仍在训练模型,未有真正的智力之前,可能社区开源更好,能让AI有机会诞生更多的可能。

发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

推荐文章

'); })();