【前沿热点顶会】NIPS 2024中目标检测有关的论文

NIPS 2024中与目标检测有关的论文，包括3D目标检测、3D目标检测的可解释性、YOLOv10、长尾目标检测等话题。

多想常做

1809人浏览 · 2024-10-02 11:11:19

多想常做 · 2024-10-02 11:11:19 发布

迈向灵活的 3D 感知：以对象为中心的占领完成增强长序列的 3D 目标检测

虽然 3D 对象边界框(BBox)表示在自动驾驶感知中得到了广泛的应用，但它们缺乏捕捉对象内部几何形状的复杂细节的能力。最近，占有（occupancy）已经成为 3D 场景感知的一种很有前途的替代方案。然而，由于计算的限制，构建高分辨率的占用地图对于大型场景仍然是不可行的。认识到前景对象比背景元素更重要，但只占据场景的一小部分，我们引入了以对象为中心的占用作为对象 bbox 的补充。这种表示不仅为检测到的物体提供了复杂的细节，而且在实际应用中还允许更高的体素分辨率。我们从数据和算法两个角度推进了以对象为中心的占有感的发展。

有理论保证的无监督目标检测

使用深度神经网络的无监督目标检测通常是一个困难的问题，对于学习的表示几乎没有保证。在这项工作中，我们提出了第一种无监督目标检测方法，该方法在理论上保证可以恢复到可量化的微小位移的真实目标位置。我们开发了一种无监督的目标检测体系结构，并证明了学习的变量对应于真实的目标位置，直到与编码器和解码器的接受场大小、目标大小和渲染过程中使用的高斯宽度相关的小偏移。我们对误差如何依赖于这些变量进行了详细的分析，并进行了合成实验，以验证我们的理论预测，精度高达单个像素。

MonoMAE：通过深度感知掩蔽自动编码器增强单目 3D 检测

单目三维目标检测的目的是从单视图像中精确地定位和识别目标。尽管最近取得了进展，但它在处理普遍存在的对象遮挡时经常会遇到困难，这些遮挡往往会使对象尺寸、深度和方向的预测复杂化和降级。我们设计了 MonoMAE，这是一种单目3D 探测器，灵感来自于掩蔽自动编码器，它通过掩蔽和重建特征空间中的对象来解决目标遮挡问题。 MonoMAE 由两个新颖的设计组成。

YOLOv 10：实时端到端对象检测

在过去的几年中，由于其在计算成本和检测性能之间的有效平衡， YOLO 已经成为实时目标检测领域的主导范例。研究人员探索了 YOLO 的架构设计、优化目标、数据增强策略等，取得了显著进展。然而，依赖非最大抑制(NMS)进行后处理阻碍了 YOLO 的端到端部署，并对推理延迟产生了不利影响。此外， YOLOS 中各部件的设计缺乏全面、彻底的检查，导致明显的计算冗余，限制了模型的能力。它提供了次优的效率，以及相当大的性能改进潜力。在这项工作中，我们的目标是从后处理和模型体系结构两个方面进一步推进 YOLO 的性能-效率边界。

DI-MaskDINO：联合对象检测和实例分割模型

本文研究了一个有趣的现象：在研究 MaskDINO 的初始Transformer解码层(即用于联合检测和分割的 SOTA 模型)的中间结果时，目标检测的性能落后于实例分割的性能(即性能不平衡)。这一现象启发了我们思考一个问题：Transformer起始解码层的性能不平衡是否会制约最终性能的上限？带着这个问题，我们进一步进行了定性和定量的预实验，验证了检测-分割不平衡问题对模型性能的负面影响。针对这一问题，本文提出了 DI-MaskDINO 模型，其核心思想是通过缓解检测-分割失衡来提高最终的性
能。 DI-MaskDINO 通过将我们提出的去失衡(DI)模块和平衡感知令牌优化(BATO)模块配置为 MaskDINO 来实现。

FFAM：用于解释 3D 检测器的特征因子分解激活地图

基于激光雷达的三维目标检测近年来取得了令人印象深刻的进展，但现有的大多数模型都是黑箱模型，缺乏可解释性。以前的解释方法主要集中于分析基于图像的模型，并且不容易适用于基于 LiDAR 的 3D 探测器。在本文中，我们提出了一种特征分解激活图(FFAM)来生成高质量的 3D 探测器视觉解释。

AdaptiveISP：学习用于对象检测的自适应图像信号处理器

图像信号处理器将传感器的原始信号转换为数字图像，这对图像质量和下游计算机视觉任务的性能有很大影响。设计 isp 流水线和调整 isp 参数是构建成像和视觉系统的两个关键步骤。为了找到最优的 isp 配置，最近的工作使用深度神经网络作为代理来搜索 isp 参数或 isp 管道。然而，这些方法主要是为了最大化图像质量而设计的，这些图像质量在诸如检测、识别和跟踪等高级计算机视觉任务的性能上是次优的。此外，经过训练后，学习到的网络服务提供商流水线在推理时大多是固定的，在动态场景中性能下降。为了联合优化服务提供商的结构和参数，我们提出了一种任务驱动和场景自适应的服务提供商 AdaptiveISP。

一个适用于所有：基于点云的 3D 对象检测的多域联合训练

目前计算机视觉的趋势是利用一个通用模型来处理所有不同的任务。要实现这样的通用模型，不可避免地需要整合多域数据以进行联合培训，以跨多个问题场景进行学习。然而，在基于点云的三维物体检测中，这种多域联合训练具有很高的挑战性，因为来自不同数据集的点云之间存在较大的域间隙，导致了严重的域干扰问题。在本文中，我们提出了 OneDet3D，这是一个通用的一体式模型，在相同的框架内和只有一组参数的情况下，解决了不同领域的 3D 检测问题，包括不同的室内和室外场景。

长尾对象检测预训练：动态再平衡双重建对比学习

虽然大规模预训练和下游微调是目标检测中的一种流行方法，但它在具有显著长尾分布的数据集上往往表现不佳。我们的研究发现，偏差不仅源于分类器权重规范中的极端不平衡，还源于特征表示水平上的简单性偏差。为了应对这些挑战，我们引入了一种新的预训练方法–动态再平衡双重重建对比学习(DRCL)。

获取和伪造：用于对象检测的高效数据集浓缩

数据集压缩(DC)是一种新兴的技术，能够从大型原始数据创建紧凑的合成数据集，同时保持相当高的性能。它对于加快网络培训和降低数据存储需求至关重要。然而，目前 DC 的研究主要集中在图像分类上，对目标检测的研究较少，这主要是由于两个挑战： (1)目标检测的多任务性质使压缩过程复杂化； (2)目标检测数据集具有大规模和高分辨率的特点，这是现有 DC 方法难以处理的。它分为两个阶段：FETCH 和 FORGE，首先将关键的定位和分类信息存储到模型参数中，然后通过模型反演重建合成图像。

多视图 3D 对象检测的统一领域概括和适应

基于多视角摄像机的三维目标检测方法在各种具有挑战性的视觉任务中具有实用和经济的价值。然而，由于源和目标域之间不可避免的几何错位，典型的监督学习方法面临着对不可见和未标记的目标数据集(即直接转移)的满意适应的挑战。在实践中，我们还遇到了用于训练模型和收集注解的资源的限制，从而成功地部署了三维对象检测器。本文提出了一种实用的解决方案–统一域泛化和适应(UDGA)。首先，利用多视点之间的强关联，提出了多视点重叠深度约束，并在此基础上提出了一种多视点重叠深度约束方法。然后，我们提出了一种标签高效的领域自适应方法来处理标签数量显著减少(即 1%和 5%)的陌生目标，同时保留了定义良好的源知识以提高训练效率。总体而言， UDGA 框架能够在源域和目标域中实现稳定的检测性能，有效地弥合不可避免的域差距，同时需要更少的注释。我们通过大规模基准测试：nuScenes、 Lyft 和 Waymo 证明了 UDGA 的健壮性，其中我们的框架性能优于当前最先进的方法。