【多模态融合】DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection
本文贡献:(1)第一个系统研究深度特征对齐对3D多模态检测器的影响(2)提出InverseAug 和LearnableAlign 来实现深度特征级对齐,从而实现准确且稳健的3D 对象检测器;(3)DeepFusions 在 Waymo 开放数据集上实现了最先进的性能
论文链接:DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection
代码链接:https://github.com/tensorflow/lingvo
作者:Yingwei Li, Adams Wei Yu, Tianjian Meng, Ben Caine, Jiquan Ngiam, Daiyi Peng, Junyang Shen, Bo Wu, Yifeng Lu, Denny Zhou, Quoc V. Le, Alan Yuille, Mingxing Tan
发表单位:Johns Hopkins University、Google
会议/期刊:CVPR2022
一、研究背景
在自动驾驶中融合激光雷达和相机数据进行3D对象检测面临挑战,大多数最先进的检测器仅依赖激光雷达数据。此项工作发现与原始点相比,将相机特征与深度激光雷达特征对齐和融合可以显著提升性能。然而,由于两种模态的增强和聚合过程不同,对齐变换特征变得具有挑战性。
过去的方法例如PointPainting仅在输入级别用相机特征来装饰激光雷达点。作者认为结合两者的特征做融合可以带来更好的效果,但融合上面临着3大挑战。
(1)特征对齐:激光雷达和相机数据在几何空间中的表达形式不同
(2)数据增强的不一致性:为了提高模型的泛化能力,通常会对输入数据应用各种数据增强技术。然而,激光雷达点云和相机图像通常需要不同的增强策略
(3)信息融合的有效性:即使成功对齐了激光雷达和相机的特征,如何有效融合这些特征以利用它们的互补信息仍然是一个开放问题
本文贡献:
(1)第一个系统研究深度特征对齐对3D多模态检测器的影响
(2)提出InverseAug 和LearnableAlign 来实现深度特征级对齐,从而实现准确且稳健的3D 对象检测器;
(3)DeepFusions 在 Waymo 开放数据集上实现了最先进的性能
DeepFusions和PointPainting方法的区别
二、整体框架
本文提出了DeepFusion方法,专注于融合激光雷达和相机数据的深度特征。与之前在输入层将激光雷达点与相机特征结合的方法不同,DeepFusion在特征层操作,避免了由不同增强技术导致的不对齐问题。DeepFusion的核心包括两种新颖技术:
(1)InverseAug:逆转与几何相关的增强,以实现准确的几何对齐;
(2)LearnableAlign:一个动态捕获图像和激光雷达特征之间相关性的交叉注意力机制。
三、核心方法
3.1 深度特征融合Pipeline
过去PointPainting方法使用训练好的2D特征提取模型来获得相机特征,然后装饰点云数据输入到3D检测框架。然而,这样的Pipeline存在2个主要问题:
(1)相机特征的处理方式不适当
(2)相机特征提取器的问题:领域差异(Domain gap)、注释工作量(Annotation efforts)、额外的计算成本(Additional computation cost)、次优的特征提取(Sub-optimal extracted features)
因此,融合深度相机和激光雷达特征,避免相机信号通过为点云专门设计的模块;
此外,使用卷积层来提取相机特征,并以端到端的方式与网络的其他组件一起训练这些卷积层。
尽管深度特征融合有效,两种模态的异构数据增强导致的不准确对齐也会为性能增益带来损害
3.2 InverseAug
InverseAug 的目标是将数据增强阶段后获得的关键点(即 (a) →(b))投影到 2D 相机坐标系。该例子是3D投影到2D,实际上真正应用的时候是2D特征到3D,图只是一个简化演示效果。
InverseAug,顾名思义是逆向增强,一种旨在改善激光雷达(LiDAR)和相机数据在融合过程中的对齐质量的技术。在自动驾驶系统中,激光雷达和相机是两种关键的感知传感器,分别提供空间深度信息和丰富的颜色、纹理信息。为了最大化利用这两种数据的互补性,需要将它们准确地对齐。然而,由于数据预处理阶段应用的增强操作(如旋转、缩放、翻转等),这两种数据之间的对齐变得更加复杂。
其核心思想是在特征融合阶段,逆转之前对数据应用的几何变换(比如旋转和缩放),从而恢复数据到它们原始的、未经变换之前的状态,使得激光雷达数据和相机数据能够更准确地对齐。
(1)数据增强保存:在数据预处理阶段,对激光雷达点云和相机图像进行了数据增强操作,比如旋转、缩放等。这些操作的参数(如旋转角度、缩放比例)被精确记录下来。
(2)逆向增强(InverseAug):在进行特征融合前,InverseAug技术使用之前保存的增强参数,以相反的操作逆转这些变换。例如,如果点云在预处理阶段被旋转了30度,那么在特征融合前,InverseAug将它旋转-30度,以消除这种影响。
点云数据是怎么点对点投影到图像上?
其实这是一个将3D点云坐标转换为2D图像像素坐标的过程。这种转换依赖于相机的内参(intrinsic parameters)和外参(extrinsic parameters)。内参涉及到相机本身的属性,如焦距、主点(图像中心)等,而外参描述了相机相对于世界坐标系(或另一个坐标系,比如激光雷达坐标系)的位置和姿态。
3.2.1 从激光雷达坐标系到相机坐标系
首先,需要使用相机的外参将点云从激光雷达坐标系转换到相机坐标系。这一步骤涉及一个刚体变换,通常用一个旋转矩阵(R)和一个平移向量(T)来表示(两者构成了相机的外参)。假设一个点在激光雷达坐标系中的坐标为 ,则该点在相机坐标系中的坐标 可以通过下式计算:
3.2.2 从相机坐标系到图像平面
接下来,需要将点从相机坐标系投影到图像平面。这一步骤需要使用相机的内参,内参矩阵通常表示为 K。相机坐标系中的点 被投影到图像平面的坐标 (u, v)可以通过下式计算:
其中,左边代表图像平面上的点的齐次坐标,K 是内参矩阵,包含了焦距和主点坐标等信息。ZZ 是点在相机坐标系中的深度值,1/Z是深度归一化处理。
应用 InverseAug 前后的相机-激光雷达对准质量比较。
如上图(a)所示,如果没有InverseAug,激光雷达点(标记为白色)在相机视图中没有与行人和柱子很好地对齐。相比之下,如(b)所示,激光雷达点与相机数据对齐更好。同时,在这个图中只添加了一小部分的数据增强。在训练中,如果没有InverseAug,错位会更严重。
3.3 LearnableAlign
为了更好进行特征对齐,作者利用交叉注意力机制来动态捕获两种模态之间的相关性。
在输入级别的装饰方法(如PointPainting和PointAugmenting)中,每个激光雷达点都可以精确地映射到相应的相机像素,形成一对一的关系。然而,在DeepFusion中,情况有所不同。这里,每个激光雷达特征代表一个体素(voxel),该体素包含一组点,因此其对应的相机像素实际上位于一个多边形内部。这就将问题转变成了一对多的对齐问题,即一个体素对应多个像素。
直观上,不是所有的相机像素对于代表特定体素的激光雷达特征都同等重要。有些像素可能包含对检测任务至关重要的信息(如目标对象),而其他像素可能包含的信息较少(如背景的道路、植被或遮挡物)。因此,简单地对所有对应于给定体素的像素求平均是不够的。
为了更好地将激光雷达特征与最相关的相机特征对齐,"LearnableAlign"引入了交叉注意力机制。这种机制可以动态地捕捉两种模态之间的相关性。
对于输入包含一个体素单元,及其所有相应的N相机特征(将体素投影到相机图像上并确定覆盖的图像区域来获得的):
(1)特征转换:LearnableAlign使用三个全连接层分别将体素转换为查询(query),将相机特征转换为键(keys)和值(values)。
(2)计算注意力权重:对于每个查询(即体素单元),通过计算查询和键之间的内积来获得注意力相似矩阵,该矩阵包含了体素与所有对应相机特征之间的相关性。
(3)权重归一化:使用softmax操作对注意力相似矩阵进行归一化,使其成为权重。
(4)聚合相机信息:利用这些权重对值(含有相机信息的部分)进行加权和聚合。
(5)输出生成:将聚合后的相机信息经过一个全连接层处理,然后与原始的激光雷达特征拼接。这个最终的输出特征被送入标准的3D检测框架中(如PointPillars或CenterPoint)进行模型训练。
四、实验结果
Waymo 测试数据集实验结果
Waymo验证集
在Waymo验证集上将DeepFusion插入到不同的单模态基准中,证明其通用性
DeepFusion显著提高对远距离目标(如超过50米)的检测性能。
消融研究,,发现InverseAug提高的比重更大。
与其他融合策略的比较
模型对输入噪声的鲁棒性
模型对分布外数据的鲁棒性。在分布内验证集(Default)和分布外验证集(Kirkland)上评估了单模态(Lidar)和多模态(Lidar + Camera)模型。
多模态融合的性能增益随着随机翻转幅度的增加而降低,这表明了精确对齐的重要性。
LearnableAlign的可视化注意力图如(a)和(b)所示,LearnableAlign通常注意行人的头部,可能是因为从相机图像来看头部是识别人类的重要部分(由于激光雷达信息很难识别头部);如(c)和(d)所示,LearnableAlign还关注目标末端(如背部),利用高分辨率相机信息来预测目标边界,以获得准确的目标大小
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)