ByteTrack翻译与解读

这里写目录标题AbstactIntroduction论文地址：https://arxiv.org/abs/2110.06864代码地址：github.com/ifzhang/ByteTrackAbstact多目标跟踪 (MOT) 旨在视频中预测目标的bounding boxes和identities。大多数的方法通过关联一些得分高于阈值的检测框来得出identities，那些得分比较低的目标（比如

WZZZ0725

1126人浏览 · 2021-11-18 21:22:26

WZZZ0725 · 2021-11-18 21:22:26 发布

这里写目录标题

Abstact
Introduction

论文地址：https://arxiv.org/abs/2110.06864
代码地址：github.com/ifzhang/ByteTrack

Abstact

多目标跟踪 (MOT) 旨在视频中预测目标的bounding boxes和identities。大多数的方法通过关联一些得分高于阈值的检测框来得出identities，那些得分比较低的目标（比如被遮挡的物体），就被简单的过滤掉了，这样的话会造成一些真正的目标的丢失以及错误的预测轨迹。为了解决这个问题我们提出一种简单、有效、通用的关联方法，跟踪通过关联每个检测框而不仅仅是高得分检测框。对于较低得分的检测框我们使用他们与轨迹的相似程度来复原真正的轨迹并且过滤掉背景检测。应用到 9 种不同的最先进的跟踪器，我们的方法在 IDF1 得分上取得从 1 到 10 分持续改进。因此便有了ByteTrack。

Introduction

Tracking-by-detection是MOT中的一个经典高效的流派，通过相似度（位置、外观、运动等信息）来关联检测框得到跟踪轨迹。由于视频中场景的复杂性，检测器无法得到完美的检测结果。为了处理true positive/false positive的trade-off，目前大部分MOT方法会选择一个阈值，只保留高于这个阈值的检测结果来做关联得到跟踪结果，低于这个阈值的检测结果直接丢弃。但是这样做合理吗？答案是否定的。黑格尔说过：“存在即合理。”低分检测框往往预示着物体的存在（例如遮挡严重的物体）。简单地把这些物体丢弃会给MOT带来不可逆转的错误，包括大量的漏检和轨迹中断，降低整体跟踪性能。
如下图所示，可以很直观的看到这个被遮挡的人的检测得分从0.8降到0.4最终降到0.1，这样的话只用高分框去匹配就会丢失目标，而关联每一个检测框的话就能跟踪上这个遮挡目标了。而且对于始终低得分的背景（0.1得分）的目标框，因为没有空余匹配上的高分轨迹，因此会被抛弃。在这里插入图片描述
匹配过程如下：
1.首先对高分目标框进行匹配，这里基于motion similarity（Simple online and realtime tracking. ）。使用卡尔曼滤波去预测目标在下一帧中的轨迹。motion similarity可以通过检测框和预测框的IOU进行计算。
2.之后进行第二轮匹配，这一轮只在未匹配到的轨迹中做匹配，即使用低分框和第一次没有匹配上高分框的跟踪轨迹（例如在当前帧受到严重遮挡导致得分下降的物体）进行匹配。这样低分被遮挡框可以匹配到正确的轨迹上而且错误识别的背景框也可以被过滤掉。
3.对于没有匹配上跟踪轨迹，得分又足够高的检测框，我们对其新建一个跟踪轨迹。对于没有匹配上检测框的跟踪轨迹，我们会保留30帧，在其再次出现时再进行匹配。