KITTI 3D目标检测的评估指标

Car AP_R40@0.70, 0.50, 0.50:bbox AP:95.5675, 92.1874, 91.3088bevAP:95.6500, 94.7010, 93.99183dAP:95.6279, 94.5680, 93.6853aosAP:95.54, 91.98, 90.94Pedestrian AP@0.50, 0.50, 0.50:bbox AP:65.0374, 61.38

THE@JOKER

19301人浏览 · 2021-03-31 19:01:41

THE@JOKER · 2021-03-31 19:01:41 发布

3D目标检测

使用RGB图像、RGB-D深度图像和激光点云，输出物体类别及在三维空间中的长宽高、旋转角等信息的检测。

多类别目标的检测问题可以转换为“某类物体检测正确、检测错误”的二分类问题，从而可以构造混淆矩阵，使用目标分类的一系列指标评估模型精度，例如：使用Precision-Recall曲线定性分析模型精度，使用average precision(AP) 平均精度定量分析模型精度；对于物体方向检测，可以采用Average Orientation Similarity (AOS) 平均方向相似度来衡量检测结果与Ground truth的方向相似程度。

Car AP_R40@0.70, 0.50, 0.50:
bbox AP:95.5675, 92.1874, 91.3088
bev  AP:95.6500, 94.7010, 93.9918
3d   AP:95.6279, 94.5680, 93.6853
aos  AP:95.54, 91.98, 90.94
Pedestrian AP@0.50, 0.50, 0.50:
bbox AP:65.0374, 61.3875, 57.8241
bev  AP:60.1475, 54.9657, 51.1748
3d   AP:54.0811, 48.5631, 45.5552
aos  AP:48.10, 45.62, 42.97
Cyclist AP@0.50, 0.25, 0.25:
bbox AP:88.2183, 74.6555, 71.1719
bev  AP:90.3781, 72.7033, 68.9535
3d   AP:90.3781, 72.7033, 68.9535
aos  AP:87.67, 73.18, 69.52

四种指标表示:

bbox：2D检测框的准确率，
bev： BEV视图下检测框的准确率，
3d： 3D检测框的准确率，
aos：检测目标旋转角度的准确率

三列表示: Easy Moderate Hard

0.70/0.50表示:最小 Overlap

上面图中给出car AP @0.7 0.7 0.7 和car AP @0.7 0.5 0.5。

表示的是不同难度情况下算法的平均精度（难度评价根据所标注包围框是否被遮挡、遮挡程度进行评价），AP表示的是平均精度、0.7表示的是最小IOU（交并比）

例如：

Car @ 0.70、0.70、0.70 表示在容易，中等，困难的情况下评估汽车性能，并使用0.7（简单），0.7（mod），0.7（困难）作为overlap阈值。

在这里插入图片描述
这里涉及到目标检测中几个重要的定义：

IoU（Intersection over union）：交并比IoU衡量的是两个区域的重叠程度，是两个区域重叠部分面积占二者总面积的比例。在目标检测中，如果模型输出的结果与真值gt的交并比 > 某个阈值（0.5或0.7）时，即认为我们的模型输出了正确的结果。

Precision ：检索出来的条目中有多大比例是我们需要的。

Recall：我们需要的条目中有多大比例被检索出来了。

AP(Average Precision)：平均精准度，对Precision-Recall曲线上的Precision值求均值。

AP_R40

在这里插入图片描述
直到最近，在KITTI官方排行榜中采用了11点IAP，RN = {0，0.1，…，1}。然而，即使切线匹配，包含0也会导致平均精度提高约9％[49]。为了避免这种表面上的性能提升，我们采用了新的40点IAP（AP | R40）来修正指标和排行榜，排除了“ 0”和四倍的密集插值预测，以实现更好的效果 Precision / Recall曲线下面积的近似值。

因此，在本文中，我们提供了与新提出的AP | R40度量的所有比较，并完全抛弃了旧的（AP | R11），以避免对各个方法的不恰当印象。请注意，几乎所有以前的作品都在AP | R11上进行了验证和测试。为了与最近的文献进行比较来适应这种变化，我们在验证集上使用AP | R40对我们建议的变体进行了基准测试，并与来自KITTI排行榜的更新后的AP进行了直接比较，以获取与测试报告中的报告不匹配的测试集。文献。

评估指标。

每个3D地面真相检测框分配给三个难度级别（简单，中等，困难）中的一个，并且在每个难度级别上分别计算使用的11点内插平均精度度量。此度量标准最初是在[35]中提出的，并在2007年至2010年间用于PAS-CAL VOC挑战[7]。通过将ρinterp（r）提供的精度值取平均值，可以近似“精度/调用曲线”的形状。
在这里插入图片描述
在当前设置下，KITTI3D精确地应用了11个等距的召回级别，即R11 = {0,0.1,0.2，…，1}。内插函数定义为

其中ρ（r）给出召回r的精度，这意味着取而代之的是取回大于或等于r的召回值的最大精度，而不是对每个点r的实际观察到的精度值求平均。召回间隔从0开始，这意味着一个正确匹配的预测（根据所应用的IoU级别）足以在最底部的召回仓中获得100％的精度。换句话说，如果为每个难度级别提供一个单一但正确的预测来进行评估，则整个数据集的AP | R11得分为1 /11≈0.0909，正如我们的实验部分所示，该得分已经超过了许多方法显然无法正确评估算法的质量。

鉴于KITTI 3D的重要性，我们提出了一个简单而有效的修复方法，该方法实质上利用了官方评估服务器和评估脚本提供的更多信息。我们从提供的41个点中对11个点进行了二次采样，而不是对11个点进行二次采样只需将R11替换为R40 = {1 / 40,2 / 40,3 / 40，…，1}，即可在40个召回位置而不是0处平均精度结果。这消除了最低召回仓中遇到的毛刺，并允许以2D和3D AP分数对当前提供的所有测试服务器结果进行后期处理。

精确召回曲线用于评估（IoU阈值为0.7）。在2019年8月之前，在Pascal VOC基准测试中提出的11点内插平均精度（AP）度量标准AP|R11是针对每个难度类别和每个对象类别分别计算的。之后，遵循[45]，使用40个基于召回位置的指标AP|R40 代替AP|R11 。在中等设置下，所有方法均由3D汽车检测的AP|R11 进行排名。

开放原子开发者工作坊

开放原子开发者工作坊旨在鼓励更多人参与开源活动，与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动，如meetup、训练营等，主打技术交流，干货满满，真诚地邀请各位开发者共同参与！

更多推荐

“源”聚天大，码动未来|开放原子校源行（天津大学站）即将启幕！

11月22日，开放原子校源行（天津大学站）将在天津大学北洋园校区隆重举办。