KITTI 3D目标检测的评估指标
Car AP_R40@0.70, 0.50, 0.50:bbox AP:95.5675, 92.1874, 91.3088bevAP:95.6500, 94.7010, 93.99183dAP:95.6279, 94.5680, 93.6853aosAP:95.54, 91.98, 90.94Pedestrian AP@0.50, 0.50, 0.50:bbox AP:65.0374, 61.38
3D目标检测
使用RGB图像、RGB-D深度图像和激光点云,输出物体类别及在三维空间中的长宽高、旋转角等信息的检测。
多类别目标的检测问题可以转换为“某类物体检测正确、检测错误”的二分类问题,从而可以构造混淆矩阵,使用目标分类的一系列指标评估模型精度,例如:使用Precision-Recall曲线
定性分析模型精度,使用average precision(AP) 平均精度
定量分析模型精度;对于物体方向检测,可以采用Average Orientation Similarity (AOS) 平均方向相似度
来衡量检测结果与Ground truth的方向相似程度。
Car AP_R40@0.70, 0.50, 0.50:
bbox AP:95.5675, 92.1874, 91.3088
bev AP:95.6500, 94.7010, 93.9918
3d AP:95.6279, 94.5680, 93.6853
aos AP:95.54, 91.98, 90.94
Pedestrian AP@0.50, 0.50, 0.50:
bbox AP:65.0374, 61.3875, 57.8241
bev AP:60.1475, 54.9657, 51.1748
3d AP:54.0811, 48.5631, 45.5552
aos AP:48.10, 45.62, 42.97
Cyclist AP@0.50, 0.25, 0.25:
bbox AP:88.2183, 74.6555, 71.1719
bev AP:90.3781, 72.7033, 68.9535
3d AP:90.3781, 72.7033, 68.9535
aos AP:87.67, 73.18, 69.52
四种指标表示:
- bbox:2D检测框的准确率,
- bev: BEV视图下检测框的准确率,
- 3d: 3D检测框的准确率,
- aos: 检测目标旋转角度的准确率
三列表示: Easy Moderate Hard
- 0.70/0.50表示:最小 Overlap
上面图中给出car AP @0.7 0.7 0.7 和car AP @0.7 0.5 0.5。
表示的是不同难度情况下算法的平均精度(难度评价根据所标注包围框是否被遮挡、遮挡程度进行评价),AP表示的是平均精度、0.7表示的是最小IOU(交并比)
例如:
Car @ 0.70、0.70、0.70 表示在容易,中等,困难的情况下评估汽车性能,并使用0.7(简单),0.7(mod),0.7(困难)作为overlap阈值。
这里涉及到目标检测中几个重要的定义:
IoU(Intersection over union)
:交并比IoU
衡量的是两个区域的重叠程度,是两个区域重叠部分面积占二者总面积的比例。在目标检测中,如果模型输出的结果与真值gt
的交并比 > 某个阈值(0.5或0.7)时,即认为我们的模型输出了正确的结果。
Precision
:检索出来的条目中有多大比例是我们需要的。
Recall
:我们需要的条目中有多大比例被检索出来了。
AP(Average Precision)
:平均精准度,对Precision-Recall曲线上的Precision值求均值。
AP_R40
直到最近,在KITTI官方排行榜中采用了11点IAP,RN = {0,0.1,…,1}。 然而,即使切线匹配,包含0也会导致平均精度提高约9%[49]。 为了避免这种表面上的性能提升,我们采用了新的40点IAP(AP | R40)来修正指标和排行榜,排除了“ 0”和四倍的密集插值预测,以实现更好的效果 Precision / Recall曲线下面积的近似值。
因此,在本文中,我们提供了与新提出的AP | R40度量的所有比较,并完全抛弃了旧的(AP | R11),以避免对各个方法的不恰当印象。 请注意,几乎所有以前的作品都在AP | R11上进行了验证和测试。 为了与最近的文献进行比较来适应这种变化,我们在验证集上使用AP | R40对我们建议的变体进行了基准测试,并与来自KITTI排行榜的更新后的AP进行了直接比较,以获取与测试报告中的报告不匹配的测试集。 文献。
评估指标。
每个3D地面真相检测框分配给三个难度级别(简单,中等,困难)中的一个,并且在每个难度级别上分别计算使用的11点内插平均精度度量。 此度量标准最初是在[35]中提出的,并在2007年至2010年间用于PAS-CAL VOC挑战[7]。通过将ρinterp(r)提供的精度值取平均值,可以近似“精度/调用曲线”的形状。
在当前设置下,KITTI3D精确地应用了11个等距的召回级别,即R11 = {0,0.1,0.2,…,1}。 内插函数定义为
其中ρ(r)给出召回r的精度,这意味着取而代之的是取回大于或等于r的召回值的最大精度,而不是对每个点r的实际观察到的精度值求平均。 召回间隔从0开始,这意味着一个正确匹配的预测(根据所应用的IoU级别)足以在最底部的召回仓中获得100%的精度。 换句话说,如果为每个难度级别提供一个单一但正确的预测来进行评估,则整个数据集的AP | R11得分为1 /11≈0.0909,正如我们的实验部分所示,该得分已经超过了许多 方法显然无法正确评估算法的质量。
鉴于KITTI 3D的重要性,我们提出了一个简单而有效的修复方法,该方法实质上利用了官方评估服务器和评估脚本提供的更多信息。我们从提供的41个点中对11个点进行了二次采样,而不是对11个点进行二次采样 只需将R11替换为R40 = {1 / 40,2 / 40,3 / 40,…,1},即可在40个召回位置而不是0处平均精度结果。这消除了最低召回仓中遇到的毛刺,并允许 以2D和3D AP分数对当前提供的所有测试服务器结果进行后期处理。
精确召回曲线用于评估(IoU阈值为0.7)。在2019年8月之前,在Pascal VOC基准测试中提出的11点内插平均精度(AP)度量标准AP|R11是针对每个难度类别和每个对象类别分别计算的。之后,遵循[45],使用40个基于召回位置的指标AP|R40 代替AP|R11
。在中等设置下,所有方法均由3D汽车检测的AP|R11 进行排名。
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)