AI第一个攻略的领域：图像--粉丝服务平台-粉丝头条-fensifuwu.com

AI第一个攻略的领域：图像

科技 08-15 来源：牛科技

在几年的各种渲染和轰炸下，AI也开始渐渐走入人们的生活。很多人可能第一个接触到的AI就是手机上的”图像AI“衍生出的——AI美颜、AI图像优化等等。

相对于AI其他的领域，比如广告推荐、windows更新的推送、大数据等等，图像更贴近生活一些，从某种程度也更容易被察觉。不过从某种角度来说，”图像AI“其实很早以前就进入了生活，只不过在全新的技术下焕发新的活力。

在现在的AI出现之前，已经有很多拍摄设备在"偷偷“的优化你所拍摄的图像。厂商会根据调研或产品经理制定的标准来制作一个算法，将照片的参数代入其中，并尽量自动调整一些总体上的对比度，亮度，曝光等做一些后处理，提高出片率。在计算能力不强的时候，很多CMOS较差的硬件就通过这种方式提升照片的观感。不过这种方法只能对整张照片进行操作，有时候在部分区域容易”用力过猛“。

随着半导体制作能力的逐步增长，和更多新技术和研发的上线，芯片的运算能力逐渐增长，相比以前可以运算更多内容，也可以开始对照片能有更多的操作。现在意义上的图片，从按下快门要经过几个步骤。

（图源：@WHYLAB)

由CMOS最初输出为RAW无损格式，这时需要矫正像素和电平，降噪去马赛克后转为RGB颜色空间。此时会矫正白平衡、色彩和伽马值。最后压缩为YUV颜色空间，进行锐化、色彩处理，最后压缩成片。

这些图片的转换过程之中，倾向性占了很大的部分。这也是为什么三星索尼苹果使用区别不大的CMOS但是照片色彩表达区别巨大的原因。这些人工的调教在过去曾是每个厂商最重要的机密，不过在AI的出现之后，这个步骤变得简单太多。

和原有方案相比，AI需要的是一个好的模型。厂商只需要给定一些图片的优化样例进行训练，通过训练，AI能够逐渐学习给定的图片优化倾向。学习之后的AI在获得图片后，能通过学习出来的模型，来倾向性优化。

在图形AI化的道路中，有两个代表性的技术。一个名叫caffe，另一个是HDR+。

两者都是图形相关的AI技术，却代表者截然不同的两条路。caffe走的是草根路线，它是一种常用的深度学习框架，主要用于对视频和图像的处理上。它有一名加州大学生研发，并全部开源。其可以轻易的和CUDA和cuDNN结合，轻易的成为每个人都可以使用，调教的深度学习模型，并制作成AI软件。目前几乎所有的NVIDIA显卡都支持CUDA，也基本无需担心速度和兼容问题。即使在不支持CUDA的硬件上，也能调用CPU来完成AI操作。目前流行的放大图片神器waifu就是使用的caffe框架和CUDA，既能降噪也能放大图片。

HDR+则走的是强强联合路线，它由谷歌和高通联手，深耕于硬件之后，它的软硬件结合程度远优于竞争对手。它在你按下快门之前就已经开始自动拍摄照片，在按下快门之后，系统会自动从所有已拍摄的照片中筛选，合成出质量最好的照片。谷歌通过算法补齐这些照片的曝光差距，后期提亮暗部细节，降噪等，提升整个画面的观感。它的效果是显著的，让只有一个摄像头且不是顶级硬件的pixel系列的拍照能力名列前茅，之中算法作用非常大.

和HDR+不同，caffe使用了BSD开源协议，鼓励代码共享，也允许使用者修改和重新发布，开放的协议让caffe很快成为了非常主流的图像类深度学习框架，开源也让开发成本更低，更快。和caffe不同的HDR+，谷歌并没有公开其详细的技术和代码，敝帚自珍让很多手机的拍照至今都无法赶上pixel。

这也代表了未来AI图像和AI的两个不同的路线，草根开源和大公司强强联合。从技术能力来看，大公司的预算和环境更好，研发能力更强。但从长远来看，开源对整个生态和业界有更好的促进作用。商业闭源和社区开源，也不是单单Ai行业面临的选择，不过在目前各有优势的情况下，很难判断。不过在AI仍在训练模型，未有真正的智力之前，可能社区开源更好，能让AI有机会诞生更多的可能。