恺明团队新作FLIP，MAE助力CLIP更快更高精度--粉丝服务平台-粉丝头条-fensifuwu.com

恺明团队新作FLIP，MAE助力CLIP更快更高精度

日期： 2023-03-01 09:34:35 来源：极市平台收集编辑：Random

↑ 点击蓝字关注极市平台

作者丨Random

来源丨AIWalker

编辑丨极市平台

极市导读

本文提出一种用于训练CLIP的简单而有效的方案FLIP(Fast Language-Image Pre-training, FLIP),它在训练过程中对图像块进行大比例的随机Mask移除。所提方案取得了更好的精度与训练时间均衡，相比无Mask基线方案，所提FLIP在精度与训练速度方面具有大幅改善(前期400M对image-text)。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

目标检测，语义分割免费实训周开启中，添加极小新（cvmart8），即可报名参加～

paper：https://arxiv.org/abs/2212.00794

本文提出一种用于训练CLIP的简单而有效的方案FLIP(Fast Language-Image Pre-training, FLIP),它在训练过程中对图像块进行大比例的随机Mask移除。Mask机制使得我们可以在有限周期内学习到更多的image-text数据对，同时具有更少的内存占用。所提方案取得了更好的精度与训练时间均衡，相比无Mask基线方案，所提FLIP在精度与训练速度方面具有大幅改善(前期400M对image-text)。

受益于加速训练能力，我们对扩展模型尺寸、数据集大小、训练周期进行了探索，同时取得了喜人的结果。

本文方案

上图为所提FLIP方案示意图，它由两部分构成：

Image Masking: 该采用ViT对图像进行编码，参考MAE对图像块进行大比例Mask丢弃(如50%、75%)，这种处理方式还可以减少图像编码耗时与内存占用。关于MAE的介绍可参考《何恺明提出简单实用的自监督学习方案MAE，ImageNet-1K 87.8%》。
Text Masking：与此同时，我们还可以对text执行类似Image的Mask处理(可选想发)。当执行Mask时，我们仅对可见token进行编码处理。这不同于BERT的处理机制：采用Learned Mask Token进行替换。这种稀疏计算同样可以一定程度减少文本编码耗时。不过，由于文本编码器比较小，这里的加速不会导致更好的均衡。
Objective：Image/Text编码器采用对比损失进行训练优化。在这里，作者并未像MAE那样使用重建损失。丢弃解码器与重建损失取得了进一步的加速。
Unmasking：尽管编码器是在Masked图像上进行的预训练，但它可以像MAE那样直接作用到无干扰的图像，此可作为对标的基线。为进一步减少因Mask导致的分布差异，作者将Mask比例设为0并进行少量的连续预训练。这种处理机制可以取得有利的精度/耗时均衡。

具体实现

在实现方面，作者参考CLIP与OpenCLIP并进行了以下几点改动：

图像编码器采用的是ViT，但在Patch Embedding后并未使用额外的LayerNorm，此外在图像编码尾部添加了GAP。图像输入尺寸为224.
本文编码器为Non-AutoRegressive Transformer，作者采用了WordPiece序列化方案。序列长度通过pad或cut固定为32。
图像编码器与文本编码器的输出投影到相同的嵌入空间，然后经LTP(Learnable Temperature Parameter)缩放后计算两者的Cosine相似性。
采用JAX实现，在TPUv3集成进行训练。

本文实验

消融实验结果对比如下：

ImageNet1K数据集上结果对比如下：

更多分类数据集上的结果对比如下：

更多消融实验与实验结果请查看原文，为避免误导各位大佬，这里直接略过。

公众号后台回复“CCF2022”2022（拟定）目录PDF下载～

极市干货

技术干货：数据可视化必须注意的30个小技巧总结｜如何高效实现矩阵乘？万文长字带你从CUDA初学者的角度入门

实操教程：Nvidia Jetson TX2使用TensorRT部署yolov5s模型｜基于YOLOV5的数据集标注＆训练，Windows/Linux/Jetson Nano多平台部署全流程

# CV技术社群邀请函 #

△长按添加极市小助手

添加极市小助手微信（ID : cvmart2）

备注：姓名-学校/公司-研究方向-城市（如：小极-北大-目标检测-深圳）

即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群

极市&深大CV技术交流群已创建，欢迎深大校友加入，在群内自由交流学术心得，分享学术讯息，共建良好的技术交流氛围。

点击阅读原文进入CV社区

获取更多技术干货

服务粉丝

恺明团队新作FLIP，MAE助力CLIP更快更高精度

本文方案

具体实现

本文实验

文章推荐

相关阅读

从头开始进行CUDA编程：Numba并行编程的基本概念

北师版数学1-6年级上册第七单元测试卷12套（含答案）丨可打印

人教PEP版英语四年级上册Unit 5 单元检测卷（含听力）丨可打印

人教PEP版英语五年级上册Unit 5 单元检测卷（含听力）丨可打印

人教PEP版英语六年级上册Unit 5 单元检测卷（含听力）丨可打印

GET！2022魔都咖啡店攻略！

公布！新一批民办园所信息！含特色课程、预约通道！

有空余学位！上海多所民办初中招生报名中，附预约链接～

笔试科三没过，能参加面试吗？有一种情况可以！

暖心！惊险瞬间，丈夫第一时间护住妻子！

聚合标签

热门文章

百元茅台没人买，千元茅台有人追。十年前，有人花百元买了一万股茅台，后出手追中石油，如今，茅台一飞冲天，中石油深套十年。炒股，不要见异思迁，价值投资是首选。#股票#

谁说定期存款提前支取不划算？存中原银行“惠农宝”放心随便取

张小龙:交了8千万税无北京户籍孩子连私立也不让上

万字详解：ROE连续十年超过20的明星公司全面分析（附：详细名单）

“复活”半年后　京东拍拍二手杀入公益事业

离职时没有做满一个月，公司还需要帮纳当月社保吗？

最新文章

恺明团队新作FLIP，MAE助力CLIP更快更高精度

从头开始进行CUDA编程：Numba并行编程的基本概念

2008年，江泽民同志发表论文指出：发展智能化、机器学习会大有作为

银行低估值之谜

ios终于也能用了！真的爽！

刚上架苹果商店！速度下载！