【计算机视觉前沿研究热点顶会】ECCV 2024中目标检测有关的论文

这篇博客搜集了了ECCV 2024中与目标检测，包括多模态目标检测、3D目标检测、开放词汇目标检测有关的论文，该系列博客将不断更新，覆盖更全面的主题。

多想常做

2543人浏览 · 2024-09-04 21:59:26

多想常做 · 2024-09-04 21:59:26 发布

整值训练和尖峰驱动推理脉冲神经网络用于高性能和节能的目标检测

与人工神经网络(ANN)相比，脑激励的脉冲神经网络(SNN)具有生物合理性和低功耗的优势。由于 SNN 的性能较差，目前的应用仅限于简单的分类任务。在这项工作中，我们专注于弥合人工神经网络和神经网络在目标检测方面的性能差距。我们的设计围绕着网络架构和尖峰神经元。

当行人检测遇到多模态学习时：通才模型和基准数据集

近年来，利用不同传感器模态(如 RGB、 IR、 Depth、 LiDAR 和 Event)进行行人检测的研究受到越来越多的关注。然而，设计一个能够有效处理不同传感器模式的统一通用模型仍然是一个挑战。本文介绍了一种新的多模态感知的通用性模型MMPedestron。与以前只处理一个或一对特定模态输入的专家模型不同，MMPedestron 能够处理多个模态输入及其动态组合。

TCC-Det：弱监督 3D 检测的临时一致线索

准确的激光雷达点云目标检测是健壮、安全的自主驾驶和机器人应用的关键前提。当前训练 3D 对象检测器涉及手动注释大量训练数据的需要，这非常耗时且昂贵。因此，容易获得的带注释的训练数据量是有限的，而且这些带注释的数据集可能不包含边缘情况或其他罕见的实例，这仅仅是因为它们出现在如此小的数据集中的概率很低。在本文中，我们提出了一种不需要任何人工标注的方法，通过利用现有的视觉组件和我们周围世界的一致性来训练 3D 对象检测器。因此，该方法可以用于通过仅收集真实世界中的传感器记录来训练 3D 探测器，这是非常便宜的，并且允
许使用比传统的完全监督方法多一个数量级的数据进行训练。

CARB-Net：用于安全自动驾驶的摄像机辅助雷达网络

确保易受伤害的道路使用者的可靠感知对安全自动驾驶至关重要。雷达因其对恶劣天气的适应能力、成本效益、深度传感能力以及在自适应巡航控制中的既定作用而脱颖而出，成为一种有吸引力的传感器选择。然而，雷达有限的角度分辨率给目标识别带来了挑战，特别是在区分近距离目标方面。为了解决这一局限性，我们提出了基于相机的雷达网络(CARB-Net)，这是一种新颖而高效的框架，它融合了相机的角度精度与雷达的稳健性和深度感知能力。

基于百分比的对象检测的生成模型的弱到强合成学习

视觉-语言(VL)模型通过利用来自网络的弱监督图像-文本对，在各种目标检测任务中被证明是非常有效的。然而，这些模型对可视对象的复杂组成(例如，属性、形状及其关系)表现出有限的理解，在给定复杂和多样化的语言查询的情况下导致显著的性能下降。虽然传统的方法试图通过使用文本域上的硬否定合成增强来增强VL 模型，但如果没有密集的图像-文本增强，其有效性仍然受到限制。本文提出了一种结构化合成数据生成方法来提高基于语言的目标检测的 VL 模型的成分理解能力，该方法在图像和文本域中生成密集配对的正负三元组(对象、文本描述、边界框)。

Grounding DINO: 通过定位预训练与 DINO 结合，以进行开放集对象检测

本文将变压器型探测器 Dino 与接地预训练相结合，开发了一种开放集合的目标探测器–Grounding DINO，它可以检测人类输入的任意目标，如类别名称或指代表达式。开集目标检测的关键解决方案是在闭集检测器中引入语言对开集概念进行泛化。为了有效地融合语言和视觉通道，我们在概念上将闭集检测器划分为三个阶段，并提出了一种紧密融合的解决方案，该方案包括特征增强器、语言引导的查询选择和用于跨通道融合的跨通道解码器。

解锁文本和视觉智慧：通过文本和图像的全面指导增强开放词汇 3D 对象检测

开放词汇表 3D 对象检测(OV-3DDET)是一项具有挑战性的任务，旨在定位和识别3D 场景中的对象，包括已见和以前未见的类别。在视觉和语言领域，有大量的训练数据可用于训练广义模型，而 3D 检测模型则受到训练数据稀缺的影响。尽管存在这一挑战，但蓬勃发展的视觉语言模型(VLMS)提供了宝贵的见解，可以指导 OV-3DDET 的学习过程。虽然已经做出了一些努力将 VLM 纳入 OV-3DDET 学习，但现有的方法往往不能在 3D 探测器和 VLM 之间建立全面的联系。在本文中，我们研究了 VLMS 在开放词汇 3D 检测任务中的应用。

一种基于扩散模型的目标检测的简单背景增强方法

在计算机视觉中，众所周知，缺乏数据多样性将损害模型的性能。在这项研究中，我们解决了增强数据集多样性问题的挑战，以利于各种下游任务，如对象检测和实例分割。我们提出了一种简单而有效的数据增强方法，通过利用生成模型的进步，特别是文本到图像合成技术，如稳定扩散。我们的方法专注于生成标记的真实图像的变体，通过修复来利用生成的对象和背景增强来增强现有的训练数据，而不需要额外的注释。我们发现背景增强尤其显著地提高了模型的稳健性和泛化能力。

利用众包的注释进行对象检测的 Bayesian 检测器组合

在不受约束的图像中获取细粒度的对象检测注释是耗时、昂贵的，并且容易受到噪声的影响，尤其是在众包场景中。大多数先前的目标检测方法都假设有准确的标注；最近的一些工作研究了带有噪声的众包标注的目标检测，并在人工假设下对不同设置的不同合成众包数据集进行了评估。为了解决这些算法的局限性和评估的不一致性，我们首先提出了一种新的贝叶斯检测器组合(BDC)框架，以更有效地训练具有噪声的众包注释的对象检测器，具有独特的自动推断注释者的标签质量的能力。与以前的方法不同， BDC 与模型无关，不需要事先了解注释者的技能水平，并且可以与现有的对象检测模型无缝集成。

桥梁过去与未来：克服增量对象检测中的信息不对称

在增量对象检测中，知识提炼已被证明是缓解灾难性遗忘的一种有效方法。然而，以前的工作侧重于保存旧模型的知识，而忽略了图像可能同时包含来自过去、现在和未来阶段的类别。目标的共现使得优化目标在不同阶段不一致，因为前景目标的定义在不同阶段不同，这极大地限制了模型的性能。为了克服这一问题，我们提出了一种称为“过去和未来的桥梁”(BPF)的方法，它跨阶段对齐模型，确保一致的优化方向。

基于分组排名的损失用于目标检测器的高效训练

基于排序的损失函数，如平均精度损失和等级排序损失，在目标检测中优于广泛使用的基于分数的损失。这些损失函数更好地符合评估标准，具有更少的超参数，并针对正负类别之间的不平衡提供稳健性。然而，它们需要在正预测和负预测之间进行两两比较，从而引入了 $O_{(PN)}$ 的时间复杂性，这是令人望而却步的，因为 $N$ 通常很大。尽管它们有优势，但基于排名的损失的广泛采用因其高度的时间和空间复杂性而受到阻碍。在本文中，我们致力于提高基于排名的损失函数的效率。为此，我们提出了基于桶的排名损失，它可以减少成对比较的次数，从而降低时间复杂度。

IRSam：改进红外小目标检测的分段任意模型

最近提出的任意分段模型(Segment Anything Model， SAM)是自然图像分割领域的一项重大进展，表现出强大的零镜头性能，适用于各种下游图像分割任务。然而，由于自然图像和红外图像之间存在明显的域差距，直接使用预先训练的 SAM 进行红外小目标检测(IRSTD)任务并不能取得令人满意的性能。与可见光相机不同，热像仪通过捕捉红外辐射来显示物体的温度分布。小目标通常会在其边界处显示出微妙的温度变化。针对这一问题，我们提出了 IRSTD 的 IRSAM 模型，该模型改进了 SAM 的编解码器结构，以更好地学习红外小目标的特征表示。

YOLOv 9：使用可编程梯度信息学习您想学习的内容

如今的深度学习方法关注的是如何设计最合适的目标函数，使模型的预测结果最接近地面真实。同时，必须设计一个合适的架构，以便于获取足够的信息来进行预测。现有的方法忽略了一个事实，即当输入数据经过逐层特征提取和空间变换时，会丢失大量信息。本文将深入研究数据在深度网络中传输时的数据丢失问题，即信息瓶颈和可逆函数。我们提出了可编程梯度信息(PGI)的概念，以应对深度网络实现多个目标所需的各种变化。

CLFF：开放词汇对象检测的连续潜在扩散

开放词汇对象检测(OVD)利用图像级线索来扩展区域建议的语言空间，从而促进对不同新奇类别的检测。最近的研究通过在区分范式中组合最小化对象-图像和对象-文本的差异来适应剪辑嵌入。然而，它们忽略了图像和文本对象之间的潜在分布和不一致，导致了视觉和语言子空间之间的错位分布。针对这一不足，我们探索了具有分布感知的高级生成范式，并在扩散模型的基础上提出了一种新的框架，称为连续潜在扩散(CLIFF)，该框架概率地描述了对象、图像和文本潜在空间之间的连续分布转移。

将点投影到轴：通过点-轴表示的定向对象检测

本文介绍了航空图像中定向对象的点轴表示，如图 1 所示，强调了它的灵活性和几何直观性，包括两个关键组件：点和轴。 1)点描述对象的空间范围和轮廓，提供详细的形状描述。 2)轴定义了物体的主要方向，提供了对精确检测至关重要的基本方位线索。点轴表示分离了位置和旋转，解决了传统的基于包围盒的方法中经常遇到的损失不连续性问题。为了在不引入额外注释的情况下进行有效的优化，我们提出了用最大投影损失来指导点集学习，用跨轴损失来指导稳健的轴表示学习。

关系 DETR：探索对象检测的显式位置关系优先级

本文提出了一种提高检测变压器(DETR)收敛和性能的总体方案。我们从一个新的角度研究了变压器中的慢收敛问题，认为这是由于自我关注导致的，这种自我关注没有引入对投入的结构性偏见。为了解决这一问题，我们探索了将位置关系优先作为注意偏差来增强目标检测，并使用提出的定量宏观视觉相关(MC)度量来验证其统计意义。我们的方法称为 Relationship-DETR，它引入了一个编码器来构建位置关系嵌入，用于渐进式注意求精，将 DETR 的传统流水线扩展为对比关系流水线，以解决无重复预测和积极监督之间的冲突。（Page 393）