新闻  |   论坛  |   博客  |   在线研讨会
史上最全综述:3D目标检测算法汇总!(4)
数据派THU | 2022-10-20 20:23:42    阅读:729   发布文章

6基于多模态的3D目标检测


主要介绍LiDAR-相机、雷达、地图融合等方法。主要方法及融合策略见下图及表。图片


基于LiDAR-相机融合的多模态检测


相机可以提供颜色信息,从中提取丰富的语义特征,而LiDAR传感器擅长3D定位,提供丰富的3D结构信息。很多工作已经能够将相机和激光雷达信息进行融合来提升3D目标检测精度。
由于基于LiDAR的检测方法比基于相机的检测方法性能要好得多,目前SOTA方法主要是基于激光雷达的检测方法,并尝试将图像信息融入到不同阶段的激光雷达检测流程中。
鉴于基于LiDAR和基于相机的检测系统的复杂性,将两种模式结合在一起不可避免地会带来额外的计算开销和推断时间延迟。因此,如何有效地融合多模态信息仍然是具有挑战性的。


1、前融合方法


前融合指的是在点云还没有进入基于LiDAR的检测器前,将图像的知识整合到点云中。因此,前融合框架一般采用顺序构建的方式:首先利用2D检测或分割网络从图像中提取知识,然后将图像知识传递给点云,最后将增强后的点云反馈给基于LiDAR的点云3D目标检测器。
根据融合类型的不同,前融合方法可分为区域级知识融合和点级知识融合两类,具体见下图。
图片
前融合主要是通过图像知识来增强点云,大多数方法都兼容大部分的LiDAR 3D目标检测器,并可以作为一种相当有效的预处理步骤,以提高检测性能。然而,前融合方法通常是顺序进行多模态融合和3D目标检测的,这带来了额外的推理延迟。
考虑到融合步骤通常需要复杂的2D目标检测或语义分割网络,多模态融合带来的时间成本通常很高。因此,如何在前期有效地进行多模态融合成为关键。

2、中融合方法


中融合方法试图在基于LiDAR的3D目标检测器的中间阶段,例如在骨干网络中,在proposal生成阶段,或在RoI细化阶段,融合图像和激光雷达特征。具体分类见下图。
图片
中融合方法建议对多模态表示进行更深入的融合,并产生更高质量的3D框。然而,相机和激光雷达的特征本质上是异构的,来自不同的视角,因此在融合机制和视角对齐方面还存在一些问题。
因此,如何有效地融合异构数据,以及如何处理来自多个视角的特征聚合,仍然是研究领域面临的挑战。

3、后融合方法


后融合就是将图像得到的2D结果和LiDAR得到的3D结果进行融合的方法。该方法采用相机与激光雷达并行进行目标检测,并将输出的2D和3D框进行融合,得到更精确的3D检测结果。

CLOCs[194]引入了一个包含成对的2D-3D框的稀疏张量,并从这个稀疏张量学习最终的目标置信度。[195]改进了[194],引入了一种轻量级的3D检测器提示图像检测器。下图为后融合示意图。
图片
后融合方法以实例级融合为核心,仅对不同模态的输出进行多模态融合,避免了中间特征或输入点云上复杂的交互。
因此,这些方法比其他方法更有效。然而,由于不依赖于相机和激光雷达传感器的深度特征,这些方法无法整合不同模式的丰富语义信息,限制了这类方法的潜力。


基于雷达信号的多模态检测


在自动驾驶系统中,雷达不可缺少,相比LiDAR,在实际应用中主要有四点优势:便宜、不太容易受到极端天气影响、探测距离较大、提供额外的速度测量。然而,与产生密集点云的激光雷达相比,雷达只提供稀疏和有噪声的测量。
主要的融合方式包括雷达-LiDAR融合、雷达-相机融合。


结合高精地图的多模态检测


高精地图(HD maps)包含道路形状、道路标记、交通标志、障碍物等详细的道路信息。高精地图提供了丰富的周围环境语义信息,可以作为辅助3D目标检测的有力手段。
如何将地图信息整合到3D目标检测器中呢?高精地图可以很容易地转换为鸟瞰视图,并与栅格化BEV点云或特征图融合。
融合可以通过简单地将鸟瞰图上的栅格化点云和高精地图的通道连接起来进行[313],或者将LiDAR点云和高精地图分成单独的主干,融合两种模式的输出特征图[70]。还有其他地图类型,如可见性地图[100]等。

7时序3D目标检测


基于时序的3D目标检测主要分为三种:激光雷达序列检测,流输入检测,从视频中检测。下图为主要方法。
图片图片


激光雷达序列


大多数方法专注于从单帧点云中检测,也有许多方法利用多帧点云来实现更准确的3D目标检测。它们通过各种时间建模工具融合多帧特征来解决时序检测问题,也有通过将多帧目标点合并到单一帧中来获得更完整的3D形状。
时序3D目标检测在离线3D自动打标签流程中取得了巨大的成功,但在实时应用中,这些方法仍然存在延迟问题,合并多帧不可避免地会带来额外的时间和内存成本。具体方法见下图示意。图片


利用流数据进行3D目标检测


激光雷达点云本质上是一个流式数据源,其中激光雷达数据包在扫描中顺序记录。激光雷达传感器完整扫描360度,大约需要50-100毫秒,这意味着当点云产生时,已经不能精确的反应实时的场景信息了。而自动驾驶通常需要最少的反应时间来保证驾驶安全。
利用流数据的方法通常在动态LiDAR数据中检测3D目标,而不用等完整扫描完成。与完整激光雷达扫描检测相比,基于流式的3D目标检测是一种更准确、低延迟的车辆感知解决方案。具体过程如下图所示。图片

利用视频进行3D目标检测


自动驾驶应用中很容易获取视频数据。相比基于单图像的3D目标检测,基于视频的3D检测得益于序列图像间的时间关系。大量的研究工作集中在基于单幅图像的3D目标检测,研究视频中的3D目标检测问题的较少,主要也是通过跟踪和融合相同目标来进行3D目标的检测。

8标签高效的3D目标检测



前面的一些3D目标检测方法主要默认都是全监督学习,并且是在某个特定的域内进行。实际情况则不可避免的遇到跨域和标注数据缺少的问题。针对这些问题,主要从这方面去优化:域自适应、弱监督学习、半监督学习和自监督学习。

3D目标检测中的域自适应


在数据收集过程中,某些域空白现象是普遍存在的。不同传感器的设置和安装、不同的地理位置和不同的天气将导致完全不同的数据域。在大多数情况下, 在某一域内训练的3D目标检测器在其他域表现不佳。
研究人员提出了许多技术来解决3D目标检测的域适配问题,例如利用源域和目标域的一致性,目标域的自训练等。然而,大多数方法只关注于解决一个特定的领域转移问题。设计一种能够普遍应用于3D目标检测中任何领域转移任务的域自适应方法将是一个有前途的研究方向。
域自适应包括跨数据集的、跨天气的、跨传感器的、以及仿真到现实的域适应,具体参考下图及表。
图片图片


弱监督3D目标检测


现有的3D目标检测方法依赖大量人工标记的3D目标框,但这些3D框的标注相当昂贵。弱监督学习是解决这一问题的一个很有前途的方案,其中弱监督信号,如更容易标的2D标注,被用来训练3D目标检测模型。
弱监督的3D目标检测在数据标注方面需要的人力较少,但弱监督方法与全监督方法之间仍存在不可忽视的性能差距。
弱监督3D目标检测方法利用弱监督,而不是完全的标注3D框数据训练3D目标检测器。弱监督包括图像2D框[291,199]、预训练图像检测器[218]、BEV目标中心和车辆实例[175, 176]。
这些方法通常会设计新颖的学习机制来跳过3D框的监督,学习从弱信号中挖掘有用信息来实现3D目标检测。详见下图示意。
图片


半监督3D目标检测


在现实应用中,数据标注比数据收集需要更多的人力。通常情况下,一辆数据采集车一天可以收集超过200k帧的点云,而熟练的人类每天只能标注100-200帧,大量未标注数据没有很好的利用。
半监督学习利用少量标注数据和大量无标注数据,共同训练出更强的模型,这是一个很有前途的方向。将3D目标检测与半监督学习相结合可以提高检测性能。
半监督3D目标检测主要有两类方法:伪标签和教师-学生方法。伪标签方法[17,265]首先用有标签的数据训练一个3D目标检测器,然后用这个3D检测器对未标注域的数据打上伪标签。
最后,用未标注域上的伪标签重新训练3D目标检测器。教师-学生方法[354]将Mean Teacher[255]范式应用于3D目标检测。
首先在标注域上训练教师检测器,然后教师检测器通过约束两种检测模型输出的一致性来指导学生检测器在未标记域上的训练。具体示意见下图。
图片


自监督3D目标检测


自监督预训练(Self-supervised pre-training)被广泛应用于许多计算机视觉任务中,首先以自监督的方式在大规模的无标注数据上对模型进行预训练,然后在有标注的数据集上进行微调,以获得更好的性能。
在自动驾驶场景中,用于3D目标检测的自监督预训练还没有得到广泛的探索。已有的方法试图将对比学习等自监督方法应用于3D目标检测问题,但多模态数据中丰富的语义信息没有得到很好的利用。
如何有效地处理原始点云和图像,以预训练出高性能3D目标检测器仍是一个挑战。
自监督方法通常将对比学习技术[94,41]应用到3D目标检测。具体来说,首先通过数据增强将输入点云转化为两个视图,然后使用对比学习来约束两个点云视图中相同3D位置的特征一致性,最后将这个预训练模型在有标签数据集上进行微调,得到更好性能。下图为示意图。
图片



*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。

参与讨论
登录后参与讨论
推荐文章
最近访客