服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

恺明团队新作FLIP,MAE助力CLIP更快更高精度

日期: 来源:极市平台收集编辑:Random
↑ 点击蓝字 关注极市平台

作者丨Random
来源丨AIWalker
编辑丨极市平台

极市导读

 

本文提出一种用于训练CLIP的简单而有效的方案FLIP(Fast Language-Image Pre-training, FLIP),它在训练过程中对图像块进行大比例的随机Mask移除。所提方案取得了更好的精度与训练时间均衡,相比无Mask基线方案,所提FLIP在精度与训练速度方面具有大幅改善(前期400M对image-text)。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

目标检测,语义分割免费实训周开启中,添加极小新(cvmart8),即可报名参加~

paper:https://arxiv.org/abs/2212.00794

本文提出一种用于训练CLIP的简单而有效的方案FLIP(Fast Language-Image Pre-training, FLIP),它在训练过程中对图像块进行大比例的随机Mask移除。Mask机制使得我们可以在有限周期内学习到更多的image-text数据对,同时具有更少的内存占用。所提方案取得了更好的精度与训练时间均衡,相比无Mask基线方案,所提FLIP在精度与训练速度方面具有大幅改善(前期400M对image-text)。

受益于加速训练能力,我们对扩展模型尺寸、数据集大小、训练周期进行了探索,同时取得了喜人的结果。

本文方案

上图为所提FLIP方案示意图,它由两部分构成:

  • Image Masking: 该采用ViT对图像进行编码,参考MAE对图像块进行大比例Mask丢弃(如50%、75%),这种处理方式还可以减少图像编码耗时与内存占用。关于MAE的介绍可参考《何恺明提出简单实用的自监督学习方案MAE,ImageNet-1K 87.8%》。
  • Text Masking:与此同时,我们还可以对text执行类似Image的Mask处理(可选想发)。当执行Mask时,我们仅对可见token进行编码处理。这不同于BERT的处理机制:采用Learned Mask Token进行替换。这种稀疏计算同样可以一定程度减少文本编码耗时。不过,由于文本编码器比较小,这里的加速不会导致更好的均衡。
  • Objective:Image/Text编码器采用对比损失进行训练优化。在这里,作者并未像MAE那样使用重建损失。丢弃解码器与重建损失取得了进一步的加速。
  • Unmasking:尽管编码器是在Masked图像上进行的预训练,但它可以像MAE那样直接作用到无干扰的图像,此可作为对标的基线。为进一步减少因Mask导致的分布差异,作者将Mask比例设为0并进行少量的连续预训练。这种处理机制可以取得有利的精度/耗时均衡。

具体实现

在实现方面,作者参考CLIP与OpenCLIP并进行了以下几点改动:

  • 图像编码器采用的是ViT,但在Patch Embedding后并未使用额外的LayerNorm,此外在图像编码尾部添加了GAP。图像输入尺寸为224.
  • 本文编码器为Non-AutoRegressive Transformer,作者采用了WordPiece序列化方案。序列长度通过pad或cut固定为32。
  • 图像编码器与文本编码器的输出投影到相同的嵌入空间,然后经LTP(Learnable Temperature Parameter)缩放后计算两者的Cosine相似性。
  • 采用JAX实现,在TPUv3集成进行训练。

本文实验

消融实验结果对比如下:

ImageNet1K数据集上结果对比如下:

更多分类数据集上的结果对比如下:

更多消融实验与实验结果请查看原文,为避免误导各位大佬,这里直接略过。

公众号后台回复“CCF2022”2022(拟定)目录PDF下载~
极市干货
技术干货数据可视化必须注意的30个小技巧总结如何高效实现矩阵乘?万文长字带你从CUDA初学者的角度入门
实操教程Nvidia Jetson TX2使用TensorRT部署yolov5s模型基于YOLOV5的数据集标注&训练,Windows/Linux/Jetson Nano多平台部署全流程

CV技术社群邀请函 #

△长按添加极市小助手
添加极市小助手微信(ID : cvmart2)

备注:姓名-学校/公司-研究方向-城市(如:小极-北大-目标检测-深圳)


即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群


极市&深大CV技术交流群已创建,欢迎深大校友加入,在群内自由交流学术心得,分享学术讯息,共建良好的技术交流氛围。

点击阅读原文进入CV社区
获取更多技术干货

相关阅读

  • GET!2022魔都咖啡店攻略!

  • 源自越南的优质咖啡品牌中原传奇集团旗下第①家海外旗舰店已于上海南京西路699号开业中原传奇咖啡由创始人邓黎原武先生于1996年成立,经过26年的发展与品牌创新在全球超过83
  • 笔试科三没过,能参加面试吗?有一种情况可以!

  • 点击下方名片 关注我们有报考三科笔试的同学总会担心,万一哪一科出现闪失,这次面试就没办法报名了,拿证的脚步又慢了一步。其实,小黑告诉大家,有一种情况,科目三没过也能参加面试
  • 暖心!惊险瞬间,丈夫第一时间护住妻子!

  • 12月1日,湖南长沙一对夫妻回家时遭遇电梯卡顿晃动惊险瞬间丈夫紧紧抱住了妻子据了解当时该男子也很害怕腿都吓软了但第一反应还是护住妻子事发后该小区物业已安排专业人员对

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • 银行低估值之谜

  • 作者:王剑 来源:王剑的角度本文为金融业研究方法探讨。本文不是证券研究报告,不构成任何投资建议,涉及个股也仅为举例或陈述事实之用,不代表我们对他们的证券或产品的推荐。具体
  • ios终于也能用了!真的爽!

  • 有一种资源我是真的找了好久,像看片、看小说的,时不时会有第三方APP出来,但是听书这一块是真的少。我网上搜了一下,这方面的版权管控相当严格,上面有巨头公司一点都不松口的,之前
  • 刚上架苹果商店!速度下载!

  • 每天都有问ios漫画软件的,伙计们别急,这不是就来了,而且这次找的漫画神器相当强悍,啥都能看,啥资源都有,使用体验非常不错,美滋滋。ios漫画软件(软件链接在文章底部)APP不是伪装上架,