我们知道主动对象跟踪(AOT)对于许多基于视觉的应用程序至关重要,例如移动机器人,智能监控。但是,在复杂场景中部署主动跟踪时存在许多挑战,例如,目标经常被障碍物遮挡,这篇paper描述将单摄像机AOT扩展到多摄像机设置,其中摄像机以协作方式跟踪目标。

 

为了实现摄像机之间的有效协作,作者提出了一种新颖的PoseAssisted多摄像机协作系统,该系统可以通过共享摄像机姿势进行主动对象跟踪,使摄像机与其他摄像机进行协作。每个摄像机都配备有两个控制器和一个切换器:基于视觉的控制器根据观察到的图像跟踪目标。基于姿势的控制器根据其他摄像机的姿势移动摄像机。在每个步骤中,切换台都会根据目标的可见性来决定从两个控制器采取哪个动作。实验结果表明,我们的系统优于所有基线,并且能够推广到看不见的环境。

图1:我们的多摄像机协作系统的概述。 当目标可见时,摄像机使用其基于视觉的控制器做出动作决定。 否则,相机将选择基于姿势的控制器。 例如,摄像机1的基于视觉的控制器无法跟踪。 因此,它改为使用基于姿势的控制器的输出操作,并将无用的视觉观察标记为灰色。

 

作者信息

 

 

方法

 

 

在本文设计的多摄像机协作机制下,每个摄像机都有一个基于视觉信息的控制器、一个基于姿态信息的控制器和一个转换器。基于视觉的控制器使用图片作为输入输出摄像机代理的动作。基于姿态的控制器利用所有摄像机的姿态信息,即所有摄像机的位置、视角和变换器的两类标签作为输入,输出摄像机的动作。转换器负责在两个控制器之间切换。当摄像机的视觉信息不足以跟踪时,也就是说,基于视觉信息的控制器失败,如图1中的摄像机1所示,转换器将使用基于辅助的姿态控制器执行相机行为控制,从而确保多摄像机系统的稳定的协同跟踪。

 


图2:我们系统的网络架构。 对于每台摄像机,基于视觉的控制器都将原始图像作为输入。

 

如图2所示,基于视觉信息的控制器模块使用CNN(卷积神经网络)进行特征提取,然后访问LSTM(长短期记忆神经网络)进行历史信息处理,最后访问FC(全连接网络),LSTM输出的特征将由变换器中的FC处理以输出两类概率,摄像机执行的最终动作是相应控制器以最高概率输出的动作。基于姿态的控制器采用门递归神经网络(GRU)融合多摄像机姿态信息,然后由FC网络输出各摄像机的动作。转换器由一个FC网络组成。输入为LSTM处理后的特征,输出为二值分类概率。

 

通过这种协同机制,当视觉信息不足以支持摄像机的决策时,摄像机可以学会利用有效的姿态信息来指导行为。

 

实验

  • 环境环境

首先,作者构建了许多用于学习和测试的高保真虚拟环境。

图3:从上到下是用于培训,花园,城市和测试的3D环境随机室。 请注意,我们的模型仅在随机室中训练。

这样做而不是直接在现实环境中运行,原因有以下三个:

  1. 强化学习需要经常与环境互动,并从步入错误中学习,这在现实环境中是高成本的; 

  2. 在现实世界中,获取地面真相以计算用于训练和评估的奖励函数既困难又昂贵。 

  3. 先前的一些论文证明在虚拟环境中通过环境增强训练的跟踪器能够推广到真实场景。我们为CMC-AOT任务构建了许多新的3D环境,其中环境中有更多的摄像头和更多的障碍,旨在模仿现实世界中的多摄像机主动跟踪场景。动作空间是离散的,包含11个候选动作(向左转,向右转,向上转,向下转,左上角,右上角,左下角,右下角,放大,缩小并保持静止) 。

  • 评估指标

    我们使用摄像机方向和目标方向之间的角度误差来评估主动对象跟踪的质量。角度误差是绝对俯仰角误差和绝对偏航角误差的平均值。运转良好的相机应在俯仰角和偏航角上均能准确跟踪目标。

  • 与两阶段方法比较

    作者的方法与传统的两阶段跟踪方法进行了比较,即控制器根据视频跟踪器的目标边界框旋转摄像机。采用三个视频跟踪器来获取边界框:TLD,BACF和DaSiamRPN。

    建立了一个启发式控制器来控制相机旋转角度。该控制策略基于相机移动其角度以及检测到的边界框的位置的规则,即,当边界框位于图像的左侧时,控制器输出向左转信号。表1显示了在花园和城市环境中平均错误和成功率评估指标的具体结果。我们可以看到,传统的跟踪方法在CMC-AOT系统中表现较差。我们分析了传统的跟踪器存在两个通常会使其失败的问题.

    1)对象外观变化很大

    2)目标经常被障碍物遮挡。由于这些方法都需要用于对象特征匹配的模板,因此当对象在相机视野之外消失时,跟踪器将无法使用有效的图像信息,从而容易导致跟踪错误。

在实验中,我们发现传统的方法在字符形状变化较大、障碍物较大等情况下容易出现跟踪失败。然而,当我们的相机失去目标时,我们可以根据姿势信息的引导来跟踪它,如图4所示。结果表明,3号摄像机图像中目标信息丢失,其行为由基于视觉的控制器转变为基于姿态的控制器。姿态控制器通过与其他摄像机目标保持一致,输出动作,使其能够找到目标,保证了长期跟踪的良好性能。实验的具体定量结果(平均角误差和成功率)如表1所示。

 

图4:在Garden测试环境中工作的方法的屏幕快照序列。

 

为了验证本文设计的协同机制的有效性,我们设计了一系列的烧蚀实验,比较了每台摄像机的个体跟踪(SV)、使用Bi GRU进行多摄像机视觉信息融合(MV)、使用FC网络进行视觉信息和姿态信息融合(SV+P)的方法。其中,我们的方法获得了最低的误差结果和最高的成功率,并证明了将视觉信息和姿态信息与转换机制相结合可以获得最佳的协同跟踪效果。

 

结论

作者介绍了协作式多摄像机主动对象跟踪(CMC-AOT)问题,并提出了一种有效的姿态辅助多摄像机协作系统来进一步提高跟踪性能。通过将摄像机姿势引入多摄像机协作中,作者的方法具有处理挑战性场景的能力,并且在各种多摄像机主动对象跟踪环境上均优于传统的对象跟踪方法。在不同现实环境下的结果还表明,该方法有可能推广到更多看不见的场景。

 

论文地址:

https://arxiv.org/pdf/2001.05161.pdf

项目地址:

https://sites.google.com/view/pose-assisted-collaboration

源码地址:

https://github.com/LilJing/pose-assisted-collaboration

 

更多论文地址源码地址:关注“图像算法”微信公众号

Logo

瓜分20万奖金 获得内推名额 丰厚实物奖励 易参与易上手

更多推荐