EACL 2023 | 图像文本检索：自适应特征聚合与训练目标--粉丝服务平台-粉丝头条-fensifuwu.com

日期： 2023-03-08 10:20:14 来源：PaperWeekly收集编辑：张梓键

©PaperWeekly 原创 · 作者 | 张梓键

单位 | 同济大学

研究方向 | 自然语言处理

图文匹配（Image-Text Matching）是指通过模型学习图像和文字的特征表征方式，计算得出图片和文字的语义相关性。其中最重要的方法是视觉语义嵌入（Visual-Semantic Embedding, VSE），旨在学习相关视觉和语义实例彼此接近的嵌入空间。

此项技术应用在信息化生活的方方面面，如百度 [1] 推出的图片搜索功能，为跨模态信息检索提供便利；小红书 [2] 中应用此技术优化封面图像，使得笔记的吸引力大大增加；大众点评 [3] 中保证图文的高相关性，帮助消费者遴选高优质信息等等。这些无不为我们的生活带来了诸多便利，因此，本文旨在研究图文匹配中自适应的特征聚合、训练目标方法，从而进一步提升实际应用效果。

视觉语义嵌入（VSE）方法以其高效的检索速度、精准的跨模态检索能力而著称，通常训练过程具有以下步骤：

特征抽取：图像和文本特征首先由各自独立的视觉和文本编码器提取；

特征映射：将特征投影到联合嵌入空间中，使其具备语义可比性；

相似性计算：计算相似性值以度量图像和文本嵌入间的语义关联程度；

优化目标：为优化过程选择合适的训练目标以拟合模型使其具备强大的能力；

其中，特征抽取和相似性计算的方式较为固定。前者强依赖于计算机视觉（Computer Vision, CV）和自然语言处理（Natural Language Processing, NLP）领域的进步与发展，而后者则通常采用余弦距离（Cosine Similarity）度量语义相似程度。因此，为了提升 VSE 模型的效果，本文将改进的重点放在了提升特征映射以及优化目标上，为方便后续研究者使用，本文代码已公开。

本文在 VSE 框架的基础上，提出了两个优化方法，自适应特征聚合方法（Adaptive Pooling）和自适应优化目标（Adaptive Objective），因为其自适应性，所以可以“即插即用”的迁移到相似的框架中帮助模型得到的更好的表现能力。

论文标题：

Improving Visual-Semantic Embedding with Adaptive Pooling and Optimization Objective

论文链接：

https://arxiv.org/abs/2210.02206

代码链接：

https://github.com/96-Zachary/vse_2ad

模型

1.1 自适应特征聚合

自适应特征聚合，顾名思义是将特征矩阵抽象成特征向量。常用的方法是池化操作（Pooling），然而一般的池化方法（Mean/Max/K-Max）无法同时适配视觉特征和文本特征，而找到最优的特征组合往往需要大量的时间，且在不同数据分布下这种组合往往是不同的。基于此问题，本文提出了一种自适应的 Pooling 策略，从 token-level 和 Embedding-level 两个维度分别计算，并最终融合在一起。

Token-level Pooling：首先，无论是 Mean—Pooling、Max—Pooling 还是 KMax—Pooling，都可以认为是一种先将值按照特征维度进行排序，随后分配静态的权重来抽取特征向量。以 Max-Pooling 为例，他的权重中最大值对应了 1，其余均为 0。

本文也延续此“排序-权重分配”的策略进行自适应特征聚合，其中将权重的确定过程交给模型自动化学习，使用一层全连接网络。实验发现，仅考虑 Token-level Pooling 得到的权重与 Mean—Pooling/KMax—Pooling 分布很相似，因此，从更多元化和普适的角度出发需要考虑更多维的设计；

Embedding-Level Pooling：按照输入粒度进行 Softmax 的 weight-sum，使得特征矩阵中更加显著的特征值被赋予更多的权重，此过程不涉及参数学习过程；

融合：使用 Balance 模块将上述两个维度的学习结果进行融合，同时使用正则保证图像和文本的抽象特征能映射到相似空间。

1.2 自适应优化目标

自适应优化目标，顾名思义是为模型在不同的训练阶段找到最合适的优化目标。首先我们需要一套评判模型阶段性能力的标准，其次我们需要根据不同的阶段为模型设计不同的优化目标。

表征学习中常常使用 Aligment 和 Uniformity 来评判模型能力，其中，Aligment 用来判断相似样本间的聚合程度，Uniformity 则用来反映不同样本映射到表征空间的分散程度（理想情况下不同样本表征应尽量分散，从而体现其差异化）。通过此两标准，我们可以设计一个范围为 [0,1] 的比率值，其中，值为 1 时模型效果最差，越接近 0 表示模型效果越好。

VSE 模型常构造三元训练目标，原点（anchor）、与之对应的正样本（positive）以及与之对应的负样本（negative）。基于度量模型得到的比率值，我们为模型不同训练阶段选择不同数量的负样本，当模型训练伊始、表现较差时，为模型选择更多的负样本可以帮助模型拟合，快速提升区分样本差异的能力；当模型训练逐渐熟练、表现较好时，为模型选择最难的一个或几个负样本（Hard Negative Samples）则能帮助模型区分细致化差异，提升模型能力。

本文最终的损失函数选择 InfoNCE，因为其具备抽象多个正负样本的能力。由此，模型能在训练的不同阶段选择不同的负样本数（由于按照与 anchor 的相似性降序，难分辨的样本更容易被选到），从而能自适应的选择优化目标，帮助模型习得更好的表征能力。

实验结果

本文在两个公开数据集上进行实验来验证模型的准确性和速度，分别是 MS-COCO 和 Flickr30K（最常用的图文检索数据集）。

实验中，我们对不同的图文编码器进行组合以验证本文所提方法的鲁棒性，前文有提到过 VSE 模型的效果依赖于 CV 和 NLP 领域的发展。文本/图像编码器组合分别是：BiGRU/Faster-RCNN、BiGRU/Vit、BERT/Faster-RCNN、BERT/Vit。评测指标选择 Recall@K，其中 K=1,5,10 以及对以上指标的加和形式的 RSUM。

通过实验结果可以发现，无论在何种图文编码器组合下，VSE 框架下使用本文提出的两个自适应模块后都能进一步提升模型效果，且集成模型的效果能有更进一步的提升。

同时，我们还通过消融实验验证了本文所设计的每个模块（包括两个 level 的自适应特征聚合方法和自适应优化目标）对模型取得更好的效果均有益处。而且，通过对比当前主流的池化方法验证了本文所提自适应特征聚合能够保质高效的表征图文特征。

本文的最后还展示了一些模型图文检索的结果，可以看到即使误检索结果也具备了一定的合理性。左下角中给定的图片及对应的 Top-4 检索句子，从人的角度很难认为是模型错误，这更像是验证集中的一个误标结果。

总结

本文在当前图文表征的 VSE 框架下，改进并提出了自适应特征聚合方法和自适应优化目标。与之前的方法不同，本文所提的两个自适应模块可以即插即用应用到其他相似框架下，且均由模型在训练过程中自动化进行，无需冗杂的调参便可提升模型表现。

本文分别在两个公开数据集（MS-COCO 和 Flickr30K）上验证了效果，并公开了源代码方便后续研究者使用。

参考资料

[1] https://www.baidu.com/

[2] https://www.xiaohongshu.com/

[3] https://www.dianping.com/

关于作者

张梓键

毕业于同济大学。主要研究自然语言处理及其在检索中的应用、跨模态检索等等。

舒畅

毕业于英国布里斯托大学。主要研究自然语言处理、机器视觉、社交媒体网络及多模态检索等等。

陈又新

毕业于清华大学。主要研究自然语言处理、文字识别及多模态检索等等。

刘杰汉

毕业于墨尔本大学。主要研究自然语言处理、社交媒体网络等等。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

服务粉丝

EACL 2023 | 图像文本检索：自适应特征聚合与训练目标

1.2 自适应优化目标

文章推荐

相关阅读

这项国际比拼，武汉大学刷新世界纪录！

ChatGPT 官方版 API，终于来了！

深入了解视觉语言模型

ChatGPT API 正式开放，价格直接打骨折！100万个单词才18元

GPT4展望：生成式AI时代，产业进步的10大猜想

ChatGPT一路狂飙，我们的安全带在哪儿？

谷歌的野心：通用语音识别大模型已经支持100+语言

ChatGPT版Office来了：微软下周四举行发布会，CEO亲自上

10行代码搞定图Transformer，图神经网络框架DGL迎来1.0版本

从LLM到MLLM，多模态大规模语言模型KOSMOS-1赋予了语言模型看见世界的能力

聚合标签

热门文章

百元茅台没人买，千元茅台有人追。十年前，有人花百元买了一万股茅台，后出手追中石油，如今，茅台一飞冲天，中石油深套十年。炒股，不要见异思迁，价值投资是首选。#股票#

谁说定期存款提前支取不划算？存中原银行“惠农宝”放心随便取

张小龙:交了8千万税无北京户籍孩子连私立也不让上

万字详解：ROE连续十年超过20的明星公司全面分析（附：详细名单）

“复活”半年后　京东拍拍二手杀入公益事业

离职时没有做满一个月，公司还需要帮纳当月社保吗？

最新文章

六个变美的思路，让你看起来很“贵”！

性价比之王，气爪之颠覆者，钧舵重磅推出百元级迷你电爪！

峰回路转，京东方可再获苹果OLED面板订单！

100%持股！宁德时代“接盘”锂矿企业