Grounding DINO：多模态 | 零样本 | 开放集目标检测

本文提出了一种名为 Grounding DINO 的开放集目标检测器，通过将基于Transformer的检测器 DINO 与基础预训练结合，实现能够根据人类输入（如类别名称或指代表达）检测任意物体的功能。开放集目标检测的关键解决方案是将语言引入闭集检测器，以实现开放集概念的泛化。为了有效融合语言和视觉模态，我们从概念上将闭集检测器分为三个阶段，并提出了一种紧密融合的解决方案，包括特征增强器、语言引

小马不会过河

1383人浏览 · 2024-10-25 16:59:48

小马不会过河 · 2024-10-25 16:59:48 发布

标题：《Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection》[1]
代码地址：https://github.com/IDEA-Research/GroundingDINO
前置知识：Swin Transformer、BERT、DINO、GLIP
版本：v5

摘要

本文提出了一种名为 Grounding DINO 的开放集目标检测器，通过将基于Transformer的检测器 DINO 与基础预训练结合，实现能够根据人类输入（如类别名称或指代表达）检测任意物体的功能。

开放集目标检测的关键解决方案是将语言引入闭集检测器，以实现开放集概念的泛化。

为了有效融合语言和视觉模态，我们从概念上将闭集检测器分为三个阶段，并提出了一种紧密融合的解决方案，包括特征增强器、语言引导的查询选择和跨模态解码器。

我们首先在大规模数据集上对 Grounding DINO 进行预训练，这些数据集包括目标检测数据、基础数据和图像描述数据，并在开放集目标检测和指代目标检测基准上评估该模型。Grounding DINO 在这三种设置上表现出色，包括在 COCO、LVIS、ODinW 和 RefCOCO/+/g 上的基准测试。在 COCO 零样本检测基准上，Grounding DINO 达到了 52.5 的 AP。在 ODinW 零样本基准上，它以平均 26.1 的 AP 刷新了记录。

1. 引言

研究目标与任务：

本文的目标是开发一个强大的 开放集目标检测系统，即检测由人类语言指定的任意物体，体现了人工通用智能（AGI）系统在处理开放世界场景中的潜力。该任务具有广泛的应用，例如与生成模型协作进行图像编辑（如图 1 (b) 所示）。

Grounding DINO 的两个设计原则：
基于 DINO 的紧密模态融合
大规模的基础预训练以实现概念泛化

基于 DINO 的紧密模态融合

开放集目标检测的关键：

开放集检测的核心在于结合语言信息，使模型能够泛化到未见物体。如图 2 所示，传统的闭集检测器通常包含三个模块：用于特征提取的主干、用于特征增强的颈部和用于区域细化（或框预测）的头部。通过学习 语言感知的区域嵌入，模型可以在语义空间中识别新类别。实现这一点的关键是在模型的颈部或头部模块中引入 对比损失，使区域输出与语言特征对齐。

跨模态特征融合的重要性：

跨模态特征融合对于开放集检测至关重要。一些现有工作在最终损失阶段前尝试融合特征。特征融合可以在三个阶段进行：颈部、查询初始化和头部。例如，GLIP 在颈部（阶段 A）进行早期融合，而 OV-DETR 使用语言感知查询进行头部（阶段 B）输入。本文提出在所有三个阶段进行特征融合，以促进更好的模态对齐。
Grounding DINO 的具体设计：

基于Transformer的检测器（如 DINO）由于其结构层级设计，能够轻松与语言信息交互。Grounding DINO 在三阶段进行特征融合：

颈部阶段：通过堆叠自注意力、文本-图像交叉注意力、图像-文本交叉注意力，设计了特征增强器。
查询初始化阶段：开发了 语言引导的查询选择 方法，初始化检测头的查询。
头部阶段：设计了 跨模态解码器，通过图像与文本的交叉注意力层提升查询表示。

大规模基础预训练以实现零样本转移

现有开放集模型的局限性：

大多数现有的开放集检测模型依赖于预训练的 CLIP 模型 来实现概念泛化。然而，CLIP 模型在图像-文本对检测任务中的效果有限，例如在 RegionCLIP 的研究中指出的局限性。

GLIP 模型的改进：

GLIP 通过将目标检测重新构建为短语定位任务，并引入目标区域与语言短语之间的对比训练，提出了一种更有效的方法。这种方法在闭集和开放集检测任务中表现优异，具有处理异构数据集的灵活性。

Grounding DINO 的创新：

Grounding DINO 采用并改进了 GLIP 的基础训练方法。GLIP 采用将所有类别名称随机连接成一个句子的方式，可能导致类别间无关特征的干扰。为了避免这一问题，Grounding DINO 引入了一种 子句级文本特征提取技术，在词特征提取过程中消除了无关类别之间的注意力影响，从而提高了模型性能。

模型的预训练与评估：

Grounding DINO 在大规模数据集上进行了预训练，并在主流的目标检测基准（如 COCO）上评估其性能。与部分标签方法不同，Grounding DINO 采用了完全的零样本检测方法，更适用于实际应用场景。

应用扩展与表现：

Grounding DINO 模型还扩展到了 指代表达理解（REC） 场景，即通过属性描述来检测对象。
在实验中，Grounding DINO 在闭集检测、开放集检测以及指代目标检测三种设置下表现优异，如图 1 所示，以全面评估开放集检测性能。例如，在 COCO minival 基准上达到 52.5 的 AP，而无需使用 COCO 训练数据；在 ODinW 零样本基准上，以 26.1 的平均 AP 刷新纪录，超越了竞争对手。

Referring Expression Comprehension (REC)，即指代表达理解，是一项旨在通过自然语言描述定位特定图像区域或对象的任务。在这项任务中，给定一幅图像和一个自然语言描述（例如“桌子上的红色杯子”），模型需要在图像中找到与描述最匹配的对象或区域。

2. 相关工作

Detection Transformers

Grounding DINO 基于 DETR 类模型 DINO，它是一种端到端的基于Transformer的检测器。DETR 首次在文献中提出，随后在过去几年中从多个方向得到了改进。

DAB-DETR 引入了锚框作为 DETR 查询，以实现更准确的框预测。
DN-DETR 提出了一种查询去噪的方法，以稳定二分匹配。
DINO 进一步发展了多种技术，包括对比去噪，并在 COCO 目标检测基准上创下新纪录。

然而，这些检测器主要集中在闭集检测上，难以对新类别进行泛化，因为预定义类别有限。

开放集目标检测

开放集目标检测使用现有的边界框注释进行训练，旨在借助语言泛化检测任意类别。

OV-DETR 使用由 CLIP 模型编码的图像和文本嵌入作为查询，在 DETR 框架中解码指定类别的框。
ViLD 从 CLIP 教师模型中提取知识，形成类似 R-CNN 的检测器，使得学习到的区域嵌入包含语言的语义。
GLIP 将目标检测表述为一个定位问题，并利用额外的地面数据帮助学习在短语和区域级别上的对齐语义。该方法表明，这种表述甚至可以在完全监督的检测基准上实现更强的性能。
DetCLIP 涉及大规模的图像描述数据集，并使用生成的伪标签来扩展知识数据库。这些生成的伪标签有效地帮助扩展泛化能力。

然而，之前的工作仅在部分阶段融合多模态信息，这可能导致亚优化的语言泛化能力。例如，GLIP 仅考虑在特征增强（阶段 A）中进行融合，而 OV-DETR 仅在解码器输入（阶段 B）注入语言信息。此外，REC 任务在评估中通常被忽视，而这是开放集检测的重要场景。我们在表 1 中将我们的模型与其他开放集方法进行了比较。

3. Grounding DINO

Grounding DINO 为给定的（图像，文本）对输出多个对象框和名词短语。例如，如图 3 所示，模型从输入图像中定位出一只猫和一张桌子，并从输入文本中提取出单词“cat”和“table”作为对应的标签。对象检测和 REC 任务都可以与该管道对齐。遵循 GLIP，我们将所有类别名称连接为对象检测任务的输入文本。REC 需要为每个文本输入提供一个边界框。我们使用得分最高的输出对象作为 REC 任务的输出。

Grounding DINO 是一个双编码器-单解码器架构。它包含：

Backbone：
图像主干网络：用于图像特征提取
文本主干网络：用于文本特征提取
特征增强器：用于图像和文本特征融合
语言引导查询选择模块：用于查询初始化
跨模态解码器：用于框细化

流程：

对于每个（图像，文本）对，我们首先分别使用图像主干和文本主干提取原始图像特征和原始文本特征。
这两个原始特征输入特征增强模块进行跨模态特征融合。
在获得跨模态文本和图像特征后，我们使用语言引导查询选择模块从图像特征中选择跨模态查询。
与大多数类似 DETR 模型中的对象查询一样，这些跨模态查询将被输入到跨模态解码器中，以探测来自两个模态特征的期望特征并更新自身。
最后解码器层的输出查询将用于预测对象框并提取相应的短语。

3.1 特征提取与增强器

给定一对（图像，文本），我们使用图像主干（如 Swin Transformer）提取多尺度图像特征，并使用文本主干（如 BERT）提取文本特征。遵循之前的 DETR 类检测器，多尺度特征是从不同模块的输出中提取的。在提取原始图像和文本特征后，我们将它们输入特征增强器进行跨模态特征融合。

特征增强器包含多个特征增强层。我们在图 3 的第 2 个模块中展示了一个特征增强层。

利用可变形自注意力增强图像特征，
使用原始自注意力作为文本特征增强器。

受到 GLIP 的启发，我们添加了图像到文本和文本到图像的跨注意力模块以进行特征融合。这些模块帮助对齐不同模态的特征。

3.2 语言引导查询选择

Grounding DINO 旨在根据输入文本从图像中检测对象。为了有效利用输入文本指导对象检测，我们设计了一个语言引导查询选择模块，以选择与输入文本更相关的特征作为解码器查询。

设图像特征为，文本特征为。这里，表示图像标记的数量，表示文本标记的数量，对应于特征维度。在我们的实验中，我们特别使用特征维度。通常，在我们的模型中，的值超过 10,000，而保持在 256 以下。我们的目标是从编码器的图像特征中提取个查询，用作解码器的输入。与 DINO 方法一致，我们将设置为 900。图像特征的前查询索引（记作）通过以下表达式选择：

在这个表达式中，Top 表示选择前的操作。函数 Max(-1) 在 -1 维度上执行最大操作，符号表示矩阵转置。我们在 PyTorch 风格的算法 1 中展示查询选择过程。语言引导查询选择模块输出个索引。我们可以根据选定的索引提取特征以初始化查询。遵循 DINO，我们使用混合查询选择初始化解码器查询。每个解码器查询包含两部分：内容部分和位置部分。我们将位置部分表述为动态锚框，这些锚框用编码器输出初始化。另一部分，内容查询，在训练期间设置为可学习。

3.3 跨模态解码器

图中Cross-Modality Query就是上一步选出来的Top900

我们开发了一个跨模态解码器，用于结合图像和文本模态特征，如图 3 的第 3 个模块所示。每个跨模态查询输入到自注意力层、图像跨注意力层（用于结合图像特征）、文本跨注意力层（用于结合文本特征）以及每个跨模态解码器层中的前馈网络（FFN）层。

与 DINO 解码器层相比，每个解码器层额外包含一个文本跨注意力层，因为我们需要将文本信息注入查询，以实现更好的模态对齐。

3.4 子句级别文本特征

之前的研究探索了两种类型的文本提示，如图 4 所示，

句子级表示：将整个句子编码为一个特征。如果短语定位数据中的某些句子包含多个短语，它会提取这些短语并丢弃其他词。这样做虽然消除了词之间的影响，但也失去了句子中的细粒度信息。
词级表示：允许通过一次前向传播编码多个类别名称，但在类别之间引入了不必要的依赖，尤其是当输入文本是多个类别名称的任意顺序拼接时。如图 4 (b) 所示，在注意力过程中，一些无关词之间发生了交互。

为了避免不必要的词交互，我们引入注意力掩码来阻止无关类别名称之间的注意力，称为“子句”级表示。它消除了不同类别名称之间的影响，同时保留每个词的特征，以便进行细粒度理解。

3.5 损失函数

遵循之前的 DETR 类工作，我们对边界框回归使用 L1 损失和 GIOU 损失。
跟随 GLIP，使用预测对象与语言标记之间的对比损失进行分类。具体而言，我们将每个查询与文本特征进行点积，以预测每个文本标记的 logits，然后计算每个 logit 的焦点损失。

边框回归和分类损失首先用于预测和真实值之间的二分匹配。然后，我们计算真实值与匹配预测之间的最终损失，使用相同的损失组件。遵循 DETR 类模型，我们在每个解码器层和编码器输出后添加辅助损失。

4. 实验

在三个设置上进行了广泛的实验：

在 COCO 检测基准上的闭集设置
在零样本 COCO、LVIS 和 ODinW 上的开放集设置
在 RefCOCO/+/g 上的指代检测设置

随后进行了消融实验，以展示我们模型设计的有效性（见 Sec. 4.5）。我们还探索了一种通过训练少量插件模块将经过良好训练的 DINO 转移到开放集场景的方法（见 Sec. C.1）。我们在 Sec. C.4 中展示了模型效率的测试。

4.1. 实现细节

模型变体：训练了两个模型变体，分别是使用 Swin-T 作为图像主干的 Grounding DINO T 和使用 Swin-L 作为图像主干的 Grounding DINO L。我们从 Hugging Face 使用 BERT-base 作为文本主干。由于我们更关注模型在新类别上的表现，我们在正文中列出了零样本迁移和引用检测的结果。

默认情况下，我们在模型中使用 900 个查询，遵循 DINO 的设置。我们将最大文本标记数设置为 256。使用 BERT 作为文本编码器时，我们按照 BERT 使用 BPE 方案对文本进行分词。特征增强模块中使用了六个特征增强层。跨模态解码器也由六个解码层组成。我们在图像跨注意力层中利用了可变形注意力。

匹配成本和最终损失包括分类损失（或对比损失）、边框 L1 损失和 GIOU 损失。遵循 DINO，在匈牙利匹配过程中，我们将分类成本、边框 L1 成本和 GIOU 成本的权重分别设置为 2.0、5.0 和 2.0。最终损失计算中的相应损失权重为 1.0、5.0 和 2.0。

Swin Transformer Tiny 模型在 16 个 Nvidia V100 GPU 上训练，总批量大小为 32。我们提取了三个图像特征尺度，从 8× 到 32×。在 DINO 中称其为“4scale”，因为我们将 32× 特征图下采样到 64× 作为额外的特征尺度。对于使用 Swin Transformer Large 的模型，我们从主干中提取了四个图像特征尺度，从 4× 到 32×。该模型在 64 个 Nvidia A100 GPU 上训练，总批量大小为 64。

4.2 Grounding DINO 的零样本迁移

在这个设置中，作者在大规模数据集上预训练模型，并直接在新数据集上评估模型。我们还列出了一些微调结果，以便更全面地比较我们的模型与以前的工作。

COCO 基准

比较模型性能：

在表 2 中将Grounding DINO 与 GLIP 和 DINO 模型在 COCO 基准上进行了比较，经过大规模数据集(O365)预训练后直接评估。
DINO 作为零样本基线模型，表现优于 DyHead。Grounding DINO 在零样本迁移上超越所有之前的模型，相比 DINO 和 GLIP 分别提升了 +0.5 AP 和 +1.8 AP。

Grounding 数据的帮助：

引入 Grounding 数据为 Grounding DINO 提供了超过 1 AP 的提升（从 46.7 提升至 48.1 AP），说明该数据在零样本迁移设置中有帮助。

新纪录与微调结果：

通过更强的主干网络和更大的数据集，Grounding DINO 在 COCO 基准上创下 52.5 AP 的新纪录，且训练时未见过 COCO 数据。
Grounding DINO 在 COCO minival 上达到了 62.6 AP，超过 DINO 的 62.5 AP。

放大输入图像的影响：

当输入图像放大 1.5 倍时，性能提升有所减少，可能是由于文本分支放大了不同输入图像模型之间的差距。尽管随着输入尺寸增大性能趋于平稳，Grounding DINO 在 COCO test-dev 上通过在 COCO 数据集上微调获得了 63.0 AP（见表 2 中的括号数字）。

LVIS 基准

LVIS 数据集与零样本测试：

LVIS 数据集包含超过 1000 个类别，主要用于评估长尾对象的检测性能。Grounding DINO 与 GLIP 和 DetCLIPv2 作为基线进行比较，结果显示在表 3 中。

两个现象：

常见与稀有类别性能差异：Grounding DINO 在常见对象上表现优于 GLIP，但在稀有类别上的表现较差。DETR 类模型在 LVIS 的稀有类别 AP 上普遍较低，这可能是架构的局限性。
数据量增益差异：在数据量增大时，Grounding DINO 的性能增益 (+1.8 AP) 高于 GLIP (+1.1 AP)，表明 Grounding DINO 具有更好的可扩展性。

与 DetCLIPv2 的对比：

虽然 Grounding DINO 的整体表现优于 GLIP，但在 DetCLIPv2 上表现较差。这种差异可能是由于训练数据与 LVIS 数据集的分布差异所致。

微调结果：

Grounding DINO 在 LVIS 数据集上微调后表现出色，超越了 DetCLIPv2-T 1.5 AP，尽管其仅在 O365 和 GoldG 数据集上预训练。这表明 Grounding DINO 可能学习到了更好的对象级表示，从而在微调后（与目标数据集对齐）取得了更好的性能。

未来工作：

未来将继续研究，通过调整训练数据的语义覆盖范围并增加数据规模，进一步提升零样本泛化性能。

ODinW 基准

ODinW 基准：

ODinW（Object Detection in the Wild）是一个更具挑战性的基准，测试模型在真实场景下的表现，涵盖了 35 个数据集。

模型性能对比：

Grounding DINO 在零样本、少样本和全样本设置下表现良好。仅通过 O365 和 GoldG 预训练，Grounding DINO T 在少样本和全样本设置上优于 DINO。
在全样本设置中，使用 Swin-T 主干的 Grounding DINO 超越了 Swin-L 主干的 DINO。
Grounding DINO 在零样本设置中优于使用相同主干的 GLIP，且与 GLIPv2-T 的平均 AP 接近，但在 AP 中位数上显著优于 GLIPv2-T（11.9 对 8.9），表明其性能更加稳定。

模型复杂性与规模：

GLIPv2 采用了更复杂的技术（如掩蔽文本训练和跨实例对比学习），但 Grounding DINO 模型更紧凑（172M 参数），相比 GLIPv2 的 232M 参数更小。
尽管 GLIPv2 更复杂，Grounding DINO 展现出更高的性能一致性和泛化能力，消除了对其在开放集场景中的能力担忧。

零样本记录：

Grounding DINO L 在 ODinW 基准的零样本设置中达到了 26.1 AP 的新纪录，甚至超越了大型 Florence 模型，展示了其强大的泛化和可扩展性。

4.3 指代对象检测设置

本节探讨了模型在指代表达识别（REC）任务中的表现，使用 GLIP 作为基线，并在 RefCOCO/+/g 数据集上进行评估。

主要发现：

Grounding DINO 在相同设置下的表现优于 GLIP，但在没有 REC 数据的情况下，两者的表现都不理想。
增加训练数据（如字幕数据）或使用更大的模型对性能提升有限。

数据引入效果：

将 RefCOCO/+/g 数据集引入训练后，Grounding DINO 的性能显著提升，显示出更好的效果。

结论：

当前的开放集对象检测器需要更多关注细粒度的检测，以在 REC 任务中取得更好的性能。

4.4 RefC 和 COCO 数据的影响

在某些设置中，我们将 RefCOCO/+/g（在表中我们称之为“RefC”）和 COCO 数据集添加到训练中。我们在表 6 中探讨了这些数据的影响。结果显示，RefC 有助于提升 COCO 的零样本和微调性能，但对 LVIS 和 ODinW 的结果有负面影响。引入 COCO 数据后，COCO 结果得到了极大的提升。它还表明，COCO 在 LVIS 上带来的提升是边际的，并在 ODinW 上略有下降。

4.5 消融实验

实验设计：

本节通过消融实验验证了开放集对象检测模型中各个融合模块的有效性。通过移除不同的融合模块，构建了多个模型变体，并在 O365 上进行预训练，主干网络为 Swin-T。

关键发现：

编码器融合：显著提升了模型在 COCO 和 LVIS 数据集上的性能。模型 #1 对比基线模型 #0 证明了这一点。
语言引导的查询选择、文本交叉注意力和子句文本提示均对 LVIS 数据集性能有明显提升，分别带来了 +3.0 AP、+1.8 AP 和 +0.5 AP 的增益。
这些技术也提升了 COCO 零样本检测的性能，进一步验证其有效性。

微调影响：

尽管这些方法对 COCO 微调的影响较小，但这是合理的，因为它们不会显著改变模型参数或增加计算负担。
文本交叉注意力提升性能的幅度（+0.6 AP）不如编码器融合（+0.8 AP），表明微调性能主要受模型参数影响。

未来方向：

扩展模型规模可能是进一步提升微调性能的一个有前途的方向。

5. 结论

在本文中提出了 Grounding DINO 模型。Grounding DINO 扩展了 DINO 的能力，使其适用于开放集对象检测，能够在给定文本作为查询时检测任意对象。

回顾了开放集对象检测器的设计，并提出了一种紧密融合的方式，以更好地融合跨模态信息。此外，我们提出了一种子句级表示方法，以更合理的方式利用检测数据作为文本提示。实验结果表明，我们的模型设计和融合方法是有效的。此外，我们还将开放集对象检测扩展到指代表达检测（REC）任务，并进行了相应的评估。我们发现现有的开放集检测器在没有微调的情况下对 REC 数据的表现并不理想。因此，我们建议在未来的研究中更加关注 REC 的零样本性能。

局限性：尽管 Grounding DINO 在开放集对象检测设置中表现出色，但它无法像 GLIPv2 那样用于分割任务。此外，我们的训练数据少于最大规模的 GLIP 模型，这可能限制了我们的最终性能。此外，我们发现模型在某些情况下会产生误报结果，这可能需要更多的技术或数据来减少这种现象。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述