0. 简介

视觉位置识别是一个非常重要也非常有趣的工作,本质上都可以归类为构建图像数据库+查询图像检索的过程。现在的主要问题是,很多识别算法都是针对特定环境进行的,换一个环境很可能直接就挂掉了。一个真正通用的位置识别算法需要做到的是:任何地点(无缝地运行在任何环境中,包括空中、地下和水下),任何时间(对场景中的时间变化,如昼夜或季节变化,或对临时物体具有鲁棒性),以及跨任何视角(对视角变化具有鲁棒性,包括完全相反的视角)。《AnyLoc: Towards Universal Visual Place Recognition》一文就实现了期望的视觉位置识别的功能。相关的开源代码已经在github上开源了。

1. 主要贡献

本文的主要贡献如下:

  1. AnyLoc作为一种新的基准VPR方法,在展示了地点、时间和视角多样性的12个数据集中普遍适用;
  2. 自监督特征(如DINOv2)和无监督聚合方法(如VLAD和GeM)对于强大的VPR性能都至关重要。将这些聚合技术应用于每个像素特征上,相较于直接使用现成模型的每个图像特征,可以获得显著的性能提升。
  3. 对聚合的局部特征进行语义属性的表征,揭示了潜在空间中的不同领域,这可以进一步用于增强VLAD词汇构建,从而提升性能。

2. VPR: 概述、趋势和限制

VPR - 问题定义:VPR通常被视为一个图像检索问题[6],包括两个阶段。在索引阶段,通过机器人的摄像头在环境中行进时,从参考地图(图像数据库)中收集数据。在检索阶段,给定一个查询图像 - 在未来行进中捕获的图像 - VPR需要在参考地图中检索与该查询图像最接近的匹配项。存在各种VPR方法和替代问题表述[3],[7] - [10];在本文中,我们专注于全局描述符,它们在准确匹配和搜索效率之间提供了最佳的权衡[6],[11],[12]。这与局部描述符方法形成对比,后者在匹配过程中计算密集,特别是在较大的数据库上。

最佳性能的现代VPR方法是由于对VPR特定数据的大规模训练。基于深度学习和Pitts-250k数据集[13]的弱监督对比学习在NetVLAD[2]中取得了显著的改进,超过了经典的手工制作特征。紧随其后,Google-Landmark V1(100万张图像)和V2数据集[14](500万张图像)使得可以对大规模图像检索进行DeLF[15]和DeLG[16]的训练。同样,Mapillary街景序列(MSLS)数据集包含160万张街景图像,通过利用城市和郊区环境中数量级更大的数据[17] - [19],大大提高了VPR的性能。最近,CosPlace [20]将基于分类的学习与包含4000万张带有GPS和航向的旧金山XL数据集相结合。目前的最先进技术MixVPR [21]提出了一种基于多层感知器的特征混合器,该混合器在GSV-Cities数据集[22]上进行训练,该数据集是一个精心策划的大规模数据集,包含全球62,000个地点的530,000张图像。

VPR训练规模扩大的趋势主要是由于室外环境中易获得的定位数据,这导致在城市环境中具有最先进的性能,但不能推广到室内和非结构化环境。如图1所示,由SOTA方法提取的描述符的PCA投影集中在特征空间的一个狭窄区域,降低了它们在训练分布之外环境中的区分能力。除了环境特异性外,先前的方法还单独解决了特定挑战,例如场景外观的极端时间变化[23],[24]和摄像机视角[25],[26]。当前VPR方法的数据和任务特异性限制了它们的开箱即用性,这可以通过任务不可知学习来缓解。因此,在这项工作中,我们使用网络规模的自监督视觉表示来分析VPR的设计空间,并开发了一种不假设任何VPR特定训练的通用解决方案。
在这里插入图片描述

图1. AnyLoc实现了在各种环境(任何地方)、时间变化(任何时候)和视角变化范围广泛(任何视角)下的通用视觉地点识别(VPR)。AnyLoc通过聚合从大规模预训练模型(基础模型)提取的每像素特征来实现这一目标,而无需进行任何训练或微调。在PCA面板(中间),请注意MixVPR的特征(一种专门用于VPR的最先进方法)如何集中在特征空间的一个小区域,失去了区分能力。另一方面,AnyLoc揭示了包含具有相似属性的数据集的不同领域,用相同的颜色标记。利用这些领域构建无监督VLAD聚合的词汇表,使AnyLoc在结构化(城市户外、室内)和非结构化(水下、空中、地下、视觉退化)环境中实现了高达4倍的Recall@1,如雷达图(右侧)中的多边形区域所示。

3. ANYLOC: 向着通用的AVP

…详情请参照古月居

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐