跨模态检索论文阅读：Learning Semantic Relationship among Instances for Image-Text Matching学习实例之间的语义关系实现图像-文本匹配

若年封尘

1940人浏览 · 2023-11-30 17:40:45

若年封尘 · 2023-11-30 17:40:45 发布

摘要

图像-文本匹配是连接图像和语言的桥梁，也是一项重要的任务，它一般通过学习跨模态的整体嵌入来实现两种模态之间高质量的语义对齐。然而，以往的研究只关注捕捉特定模态的样本内的片段级关系，例如图像中的突出区域或句子中的文本词，而通常不太关注捕捉样本和模态之间的实例级交互，例如多个图像和文本。因此，我们提出了一种新颖的分层关系建模框架（HREM），它能明确捕捉片段和实例级关系，以学习具有区分性和鲁棒性的跨模态嵌入。在Flickr30K和MS-COCO上进行的大量实验表明，我们提出的方法在rSum方面比最先进的方法高出4%-10%。我们的代码可在https://github.com/CrossmodalGroup/HREM。
在这里插入图片描述
图 1. 我们的动机说明。样本关系建模改进了跨模态学习的整体表征。颜色和形状分别表示不同的模态和图像-文本对。橙色元素表示有效的交互：(a) 在前人和我们工作的流水线上，我们添加了样本间的跨模态关系交互。(b) 对于 "带冲浪板的冲浪者 "这一相同主题，具体行为存在细微差别，如 "握住/蹲下/骑在冲浪板上 "和 “盯着/冲破/擦出海浪”。我们的方法可将这些硬否定样本与语义模糊样本区分开来。(c ) 对于 "man play a ball "下的相似主题，相应的行为通常语义相似，如 "play the hockey/cricket/polo "都需要用 "stick/bats "来 “击球”。我们的方法可以在这些语义稀缺的不常见样本上改进嵌入学习。

3.提出的方法

图 2 是 HREM 的概览。我们首先在第 3.1 节介绍特征提取，在第 3.2 节介绍片段级关系建模。然后在第 3.3 节中介绍实例级关系建模。最后，我们将在第 3.4 节中介绍优化方法，并在第 3.5 节中进行讨论。
在这里插入图片描述
图 2. 分层关系建模框架（HREM）概述。给定 N 对图像-文本（本图中 N = 3），我们首先捕捉片段级关系，并为每张图像或文本独立学习关系增强局部特征，然后通过池化操作聚合局部特征，得到全局嵌入 {vi, ui}N i=1。接下来，我们提出了一种新颖的交叉嵌入关联图，通过识别连接关系和学习样本间的相关性关系来捕捉实例级关系。最后，我们提出了两种跨模态关系交互机制，以获得关系增强嵌入，并计算最终损失函数。

3.1. 特征提取

视觉表征：给定图像 I 后，我们使用自下而上的注意力网络 [1]，通过 Faster-RCNN [37] 提取突出区域，并通过预训练的 ResNet-101 [15] 获得区域特征。然后，我们添加一个全连接（FC）层，将每个区域映射为 d 维局部特征。我们将 R = {r1, - - , rnr } 表示为 ∈ Rnr×d 是图像 I 的视觉片段和局部特征，nr 是区域特征的数量。

文本表示：给定一个句子 T，我们使用序列模型、双向门控递归单元（BiGRU）[38] 或预训练 BERT [6] 来提取单词特征集。我们还添加了一个 FC 层，以保持与图像相同的维度。我们将 C = {c1, - - , cnc } 表示为 ∈Rnc×d，它是文本的文本片段和局部特征，nc 是单词特征的个数。

3.2. 片段级关系建模

为了捕捉片段之间的上下文信息并增强 3.1 节介绍的两种模态的局部特征，我们分别针对视觉区域和文本词提出了片段级关系建模。

3.3. 实例级关系建模

为了更好地学习第 3.2 节中获得的跨模态嵌入，我们提出了多图像和文本的实例级关系建模。给定图像-文本对及其嵌入图{vi,ui}Ni=1，我们提出了一个新的交叉嵌入关联图G（V,E），其中节点是嵌入图V={v1,…,vN,u1…,uN}∈R2N×d，边E是成对的语义关系。

3.3.1 交叉嵌入关联图

关键的挑战在于如何准确地构建成对关联图。在不失一般性的前提下，我们将关联图分为两部分：关联性和相关性。

我们用矩阵 A∈R2N×2N 来表示连接关系，即节点之间是否存在关联边。我们用矩阵 S∈R2N×2N 来表示相关性关系，即节点之间的语义关联度。此外，我们将这些矩阵分为两种模式和四个块：模内关系（图像到图像 I I、文本到文本 T T）和模间关系（图像到文本 I T、文本到图像 T I），每个块的形状等于 RN×N。
在这里插入图片描述
图 3 利用片段级匹配构建模态间关系图。对于每一对图像-文本，我们使用相应的模块得到连接关系 aI→T （aT →I ）和相关性关系 sI→T （sT →I ），它们是连接矩阵 AI→T （AT →I ）和相关性矩阵 SI→T （ST →I ）的元素。

3.3.2 关系互动机制

在 3.3.1 节中构建了交叉嵌入关联图之后，我们设计了两种关系交互机制来捕捉图像和文本之间的语义关系，其中嵌入是通过信息交互过程更新的，如图 4 所示。
在这里插入图片描述
图 4. 基于如何探索模态间和模态内关系的两种关系交互机制。如公式（12）所示，连接矩阵 A 和相关性矩阵 S 可全部或单独应用于注意力模块。
融合机制：如图 4b 所示，我们将视觉和文本嵌入作为输入。模态间和模态内的关系交互是同步进行的。嵌入信息首先经过多头自注意模块，以实现注意多样性。此外，我们采用多层感知器实现的前馈网络模块进行关系推理[41]。它与 3.2 节中的片段级交互模块类似。我们还在其后添加了残差连接[15]和层归一化[2]。连接矩阵 A 是注意力模块的注意力屏蔽矩阵，其中零位置不允许参加，而非零位置则保持不变 [41]。相关性矩阵 S 是作为显式关系建模的额外注意力权重矩阵，我们使用 λ 来平衡 S 与原始注意力权重矩阵。

Standalone机制：
如图 4a 所示，视觉嵌入和文本嵌入被送入两个分支，并获得关系交互。嵌入词首先通过多头交叉注意模块获得模态间关系交互，其中 Q 和 K、V 来自两种模态。然后，它们通过多头自注意模块获得模内关系交互，其中 Q、K、V 来自同一模态。最后，通过前馈网络模块输出增强嵌入。

首先将连接矩阵 A 和相关性矩阵 S 分成预先定义的四块，如式（4）所示，然后将每块应用到相应的模块，如式（12）所示。具体来说，模态间关系部分作用于第一个交叉注意模块，模态内关系部分作用于第二个自注意模块。经过 L 层关系交互机制后，我们最终得到两种模态的关系增强嵌入，即 {v1, …, vN } 和 {u1 …, uN }。

3.4. 优化

邻居批量采样：为了确保 3.3 节中的有效关系互动，我们提出了一种邻居抽样方法，以取代后期训练中的批次随机抽样。我们使用 k-means 聚类[30]对视觉嵌入进行聚类，然后随机选择 P 个聚类，并从每个聚类中选择 K 幅图像，批量大小 N = P × K。
目标函数：我们使用三重损失法[10]，相似度得分是视觉嵌入 v 和文本嵌入 u 之间的余弦相似度。我们使用距离加权采样 [31] 来进行硬负挖掘。我们不仅使用关系增强嵌入式来计算匹配损失，如式（13）所示，而且还为匹配损失添加了初始嵌入式，以保持嵌入式的一致性，因为我们需要在推理阶段直接对嵌入式进行编码，而无需样本交互。

3.5. 讨论

推理阶段：由于实际应用中可能没有批量数据，我们的框架可以在推理阶段对跨模态嵌入进行编码，而无需样本交互。实例级关系建模仅用于训练。直观地说，当我们用第 3.4 节中的端到端方式和一致损失一起训练嵌入编码网络和样本交互网络时，编码网络也会在嵌入交互的帮助监督下得到改进。
时间复杂性：在跨模态检索中，两种匹配方法具有不同的时间复杂性。给定 N 对图像-文本，单独编码使得基于嵌入的方法的时间复杂度为 O(2N )，而跨模态交互使得基于分数的方法的时间复杂度为 O(N²)。给定一个查询和要检索的 N 个样本集，基于嵌入的查询检索时间复杂度为 O(1)，而基于分数的查询检索时间复杂度为 O(N )。因此，基于分数的方法通常会牺牲检索速度来提高性能。然而，我们的方法可以同时实现高精度和高效率的检索，如图 5 所示。

实验

在这里插入图片描述
表 1. MS-COCO 5K 测试集中图像-文本检索的比较。Region 表示图像使用区域特征[1]。BiGRU[38]和 BERT [6]表示文本使用其单词特征。E 和 S 分别表示基于嵌入的方法和基于分数的方法。∗ 表示两个模型的集合结果。
在这里插入图片描述
表 2. 在 Flickr30K 和 MS-COCO 1K 测试集上的图像-文本检索性能比较。区域表示使用 FasterRCNN [37] 提取图像的区域特征 [1]。BiGRU [38] 和 BERT [6] 代表使用它们来提取文本的单词特征。我们列出了现有的最先进的基于嵌入的图像-文本匹配方法。∗ 表示两个模型的集合结果。

结论

本文提出了一种用于图像-文本匹配的新型分层关系建模框架（HREM）。HREM 不仅能捕捉单一模态和样本内的片段级关系，还能有效利用不同模态和样本间的实例级关系来学习更好的整体嵌入。基于我们的设计，HREM 在推理阶段无需与样本或模态交互就能对嵌入进行编码，从而实现高效的跨模态检索。在两个基准上的广泛实验表明了我们方法的优越性。