迈向高精度雷达 RCBEVDet

2024-11-15

感知周围环境是智能驾驶的基转义务。为了取得高度准确和鲁棒的感知结果，现代智能驾驶系统通常驳回多模态传感器，如LiDAR、多视角摄像头和毫米波雷达，来搜集片面的环境数据。

在这些传感器中，雷达与摄像头多模态感知系统尤其遭到青眼，由于其具备杰出的传感才干和老本效益。但是，毫米波雷达与多视角摄像头传感器之间的渺小模态差异给从这两种传感器融合信息带来了清楚的应战。

为了处置这个疑问，本文提出了RGEVDet，一种雷达与摄像头3D目的检测框架。详细而言，RGEVDet基于现有的基于相机的3D目的检测模型，辅以专门设计的雷达特色提取器RadarBEVNet和雷达与摄像头交叉留意力多层融合（CAMF）模块。

首先，RadarBEVNet经常使用双流雷达 Backbone 网络和Radar Cross Section（RCS）感知的BEV编码器，将稀疏的雷达点编码为密集的俯瞰视图（BEV）特色。其次，CAMF模块应用变形留意力机制将雷达和摄像头的BEV特色对齐，并驳回通道和空间融合层来融合这些多模态特色。

为了进一步提高RGEVDet的性能，作者提出了RGEVDet++，该方法在稀疏融合的CAMF上启动改良，支持基于 Query 的多视角摄像头感知模型，并顺应于更宽泛的感知义务。

在nuScenes数据集上的少量试验标明，作者的方法与现有的基于相机的3D感知模型无缝集成，并在各种感知义务上提高它们的性能。

此外，作者的方法在3D目的检测、BEV语义宰割和3D多目的跟踪义务中成功了最先进的堆叠雷达与摄像头融合结果。值得一提的是，应用ViT-L作为图像 Backbone ，RGEVDet++在无需测试期间增强或模型集成的状况下，成功了3D目的检测的72.73 NDS和67.34 mAP。

源代码和模型将在。

智能驾驶旨在经过开发无需人工干预的系统来提高交通的安保性、效率和便利性[2, 3]。关于这些系统来说，的一个关键应战是像人类一样片面感知周围环境，这关于准确轨迹预测和静止布局至关关键。为了成功这一点，现代智能驾驶系统关键驳回三种传感器，例如多视图摄像头、毫米波雷达和激光雷达，以搜集周围环境的信息。

在这些类型的传感器中，激光雷达传感器提供详细的几何信息，清楚提高了感知环节，造成最佳性能[4]。但是，高品质激光雷达传感器的多少钱低廉，参与了制形老本。相比之下，多视图摄像头和毫米波雷达传感器为制造商和用户提供了更经济的选用。与激光雷达相比，多视图摄像头捕捉了复杂的细节，如色彩和纹理，提供了高分辨率的语义信息，而毫米波雷达在测距和速度预计方面具备长处，在多种天气和照明条件下都能牢靠上班[5] [6]。此外，4D毫米波雷达技术的提高逐渐克制了稀疏雷达点的限度，成为潜在的代替打算[8]。虽然这些具备长处，但激光雷达与摄像头或雷达基于的感知模型之间仍存在清楚的性能差距。桥接这个差距的适用且有效的战略是将毫米波雷达与多视图摄像头集成在一同，这可以相互补充，从而成功更片面和牢靠的环境感知。

为了融合雷达和图像数据，近年来[9, 10]关键驳回将多视图图像特色和雷达特色投影到俯瞰视角（BEV）的BEVFusion Pipeline [4]。但是，像BEVFusion所驳回的方便融合技术（如 ConCat 或求和）不可处置多视图图像和雷达输入之间的空间对齐疑问。此外，大少数雷达-摄像头融合方法[12, 13, 14]仍经常使用原本用于激光雷达点（如PointPillars）的编码器来提取雷达特色。虽然这些方法可以发生令人美化的结果，但它们所经常使用的特定激光雷达编码器并没有思考到雷达的共同个性，如雷达横截面（RCS），造成性能不佳。

在本文中，作者提出了一种名为RGEVDet的新框架，用于将雷达和相机的特色在BEV空间中有效地融合在一同，启动3D目的检测义务。针对雷达输入的共同个性，作者专门设计了一个名为RadarBEVNet的打算，以成功高效的雷达BEV特色提取。详细而言，RadarBEVNet首先经过双流雷达解码器将雷达输入编码为不同的点对基和Transformer基示意。此外，作者还成功了一个注入和提取模块，将这两个示意整合在一同。接上去，这些特色经过RCS感知的散射转换为BEV特色，其中RCS被用作目的大小的先验和调配点特色到BEV空间的任何位置。除了RadarBEVNet之外，RCBEVDet还集成了一个交叉留意力多层融合模块（CAMF），以在BEV空间内成功雷达和相机的特色融合。CAMF经常使用多模态交叉留意力自顺应校对两种BEV特色之间的坐标不婚配，而后运行通道和空间融合层来进一步坚固多模态特色，提高全体检测性能。

为了充沛应用RCBEVDet的性能，作者更新了CAMF模块，支持稀疏融合以支持基于 Query 的多视相机的感知模型。此外，作者还裁减了RCBEVDet的性能，包括3D目的检测、BEV语义宰割和3D多目的跟踪等更宽泛的感知义务。这个增强的框架被称为RCBEVDet++。详细而言，为了顺应基于 Query 的多视相机的感知方法，作者用与原始相机BEV特色不同的基于目的3D坐标的相机 Query 启动交流。这开发了一种新的 Query 组件在作者的多模态交叉留意力机制中。接上去，作者启动了一个投影和采样环节，其中，相机目的 Query 被投影到BEV空间，并与相应的雷达特色启动婚配，以构成雷达目的 Query 。而后，作者经常使用可变形交叉留意力对多模态 Query 启动对齐。最后，调整后的多模态 Query 被 ConCat 并送入一个方便的线性层启动有效的特色融合，从而在裁减的义务范围内提高感知性能。

本文的关键奉献如下：

三维目的检测、BEV语义宰割和三维多目的跟踪是智能驾驶的三个基本感知义务。目前，许多三维多目的跟踪方法通常驳回跟踪-经过检测框架，该框架应用三维目的检测的结果来关联物体。这些跟踪方法关注的是物体婚配，而不只仅是高效处置输入图像。此外，更准确的检测结果可以带来更高的跟踪性能。因此，在这一部分，作者将关键探讨处置多帧多视角摄像头输入的更丰盛的三维目的检测和BEV语义宰割方法。详细来说，三维目的检测旨在预测三维物体的位置和类别，而语义宰割则整合了车辆识别、语义车道地图预测和可行驶区域预计义务。但是，由于三维信息的无余，在三维空间中经常使用摄像头图像检测物体和宰割地图具备应战性。近年来，许多钻研曾经为处置这个疑问做出了很大的致力，包括从图像中推理深度[21]，应用几何解放和形似先验[22]，设计特定的损失函数[23, 24]，以及探求联结三维检测和重构优化[25]。最近，多视角传感器已成为智能驾驶车辆的盛行性能，为提供更片面的环境信息。多视角相机数据集的发生[26, 27]造成了多视角三维目的检测和BEV语义宰割方法的开展，可以大抵分为基于几何的方法和基于 Transformer 的方法两种。

基于几何的多视三维目的检测和BEV语义宰割关键应用深度预测网络来预计图像的深度散布。这使得可以将从提取的2D图像特色转换为3D相机 Frustum 特色。而后，经过 Voxel 池化等操作在 Voxel 或BEV空间构建特色。

详细而言，Lift-Splat-Shoot（LSS）[28] 初次应用轻量级深度预测网络明白预计每个图像的深度散布和高低文向量。深度和高低文向量的外积选择了沿视角射线在3D空间中每个点上的特色，从而成功了将图像特色有效转换为BEV特色。在 LSS 的基础上，FIERY[38] 引入了一个基于BEV的未来实例预测模型，能够预测灵活代理的未来实例及其静止。BEVDet[16] 将视角变换技术从 LSS 裁减到经常使用BEV特色检测3D物体。此外，BEVDepth[29] 应用 LIDAR 的显式深度信息作为监视来增强深度预计，并将摄像机的外部参数作为深度预计的先验参数。基于 BEVDet，BEVDet4D[30] 在历史帧之间对BEV特色启动空间对齐，清楚提高了检测性能。此外，SOLOFusion[39] 提出将高分辨率短期和低分辨率常年特色融合，提高具备常年期间输入的3D检测的推理速度。

基于Transformer的方法应用留意力机制将预约义的 Query 投影到多个视图图像平面上，经常使用坐标变换矩阵，并随后更新 Query 特色和多视图图像特色。详细来说，开创性上班DETR3D [31]经常使用Transformer解码器启动3D目的检测，开展了一种自顶向下框架，并应用一套一套的损失来权衡 GT 值和预测之间的差异。

相似地，CVT [35]引入了一个方便的BEV语义宰割基准，该基准经常使用交叉视图Transformer架构。在这一点之后，BEVformer [17]构建了密集的BEV Query ，并驳回了多尺度变形留意力，将多视图图像特色映射到这些密集 Query 。此外，PETR [32]经过未来自3D坐标的显式位置信息生成多视图图像特色。在PETR的基础上，PETRv2 [40]将期间融合跨多个帧集成，并裁减3D位置嵌入，具备期间感知建模。

此外，Sparse4D [41]为每个3D Anchor 点调配和投影多个4D关键点，以生成不同的视图、 aspect ratio 和期间戳特色，而后将这些特色分层融合以提高全体图像特色示意。

Sparse4Dv2 [42]裁减了Sparse4D，驳回了更高效的期间融合模块，并引入了摄像机参数编码和密集深度监视。最近，StreamPETR [34]应用稀疏目的 Query 作为两边示意来捕捉期间信息，并驳回了自顺应尺度自留意力模块和自顺应空间-期间采样模块的SparseBEV [33]，以灵活捕捉BEV和期间信息。

毫米波雷达由于其低老本、长距离感知、多普勒速度测量以及反抗顽劣天气条件的鲁棒性，在自主车辆中失掉了宽泛运行。虽然毫米波雷达数据通常包括距离、角度和速度信息，但在测量目的的俯仰角方面体现相对较差。此外，毫米波雷达数据固有的稀疏性和缺乏语义信息，对纯雷达基于的3D感知提出了应战。因此，毫米波雷达通常被用来增强多模态3D感知系统的性能，作为辅佐形式。

图1：RCEVDet的全体 Pipeline 。首先，经过图像编码器处置多视图图像并提取特色，而后经常使用视图转换模块将这些特色转换为图像BEV特色。同时，雷达点云经过提出的RadarBEVNet编码为雷达BEV特色。接上去，图像和雷达BEV特色经常使用Cross-Attention Multi-layer Fusion模块灵活对齐和聚合。最后，将融合后的多模态语义丰盛的BEV特色用于3D目的检测义务。

近年来，由于多视图摄像头和毫米波雷达传感器在3D感知方面的互补性质，其组合惹起了宽泛关注。详细来说，RadarNet [43]引入了雷达-摄像头融合的多级融合 Pipeline ，以提高远程目的检测的准确性和缩小速度误差。CenterFusion [14]应用关键点检测网络从图像生成初始的3D检测结果，并将基于柱子的雷达关联模块用于经过将雷达特色与相应的检测框链接来细化这些结果。相似地，MVFusion [44]成功了摄像头和毫米波雷达之间的语义对齐，增强了这两者之间的交互。

此外，Simple-BEV [45]考查了多传感器BEV感知系统的体系结构设计和超参数设置。CRAFT [12]提出了一种经常使用Soft-Polar-Association和Spatio-Contextual Fusion Transformer的 Proposal 级融合框架，用于高效地在摄像头和毫米波雷达之间交流信息。RADIANT [46]开发了一个网络来预计雷达回波和物体核心之间的位置偏移，并应用雷达深度信息来增强摄像头的特色。近年来，CRN [13]为多视图转换生成雷达增强图像特色并驳回雷达深度信息，并应用交叉留意机制处置雷达和摄像头传感器之间的空间不对齐和信息不婚配疑问。

RCFusion [9]应用雷达PillarNet [47]生成雷达伪图像，并提出了一种加权融合模块有效地将雷达和摄像头的BEV特色启动融合。

BEVGuide 基于CVT 框架并提出了一种基于BEV的传感器有关的关注模块，有助于BEV示意学习和了解。BEVCar [37]引入了一种翻新的雷达-摄像头融合方法，用于BEV图和目的宰割，并驳回基于留意的图像优化战略。

先前雷达-摄像头融合方法通经常常使用设计用于激光雷达点云的雷达编码器，如PointPillars 。相比之下，作者引入了RadarBEVNet，专为高效雷达BEV特色提取而设计。RadarBEVNet经过双流雷达 Backbone 网络和RCS感知的BEV编码器将稀疏雷达点编码为密集的BEV特色，其中RCS感知的BEV编码器应用RCS作为一个物体大小的先验，将单个雷达点的特色扩散到BEV空间中的多个像素中。

双流式雷达 Backbone 结构蕴含两部分：基于点的 Backbone 结构和基于 Transformer 的 Backbone 结构。

基于点的 Backbone 结构专一于学习部分雷达特色，而基于 Transformer 的 Backbone 结构捕捉全局信息。

关于点型的 Backbone 结构，作者驳回相似于PointNet[49]的架构。如图2a所示，点型的 Backbone 结构由S个块组成，每个块中蕴含一个多层感知机（MLP）和一次性池化操作。详细而言，输入雷达点特色f首先经过MLP参与其特色维数。而后，将高维雷达特色送入MaxPool层，并经常使用残差衔接。整个环节可以方式化为以下公式：

至于基于 Transformer 的 Backbone 结构，它由S个规范 Transformer 块[50, 51]组成，其中蕴含留意力机制、前馈网络和归一化层，如图2b所示。由于自主驾驶场景的宽泛范围，间接经常使用规范自留意力优化模型可以具备应战性。为了应答这个疑问，作者提出了一种距离调制自留意力机制（DMSA），经过在早期训练迭代阶段聚合相邻信息来促成模型收敛。详细而言，给定N个雷达点的坐标，作者首先计算一切点之间的对距离D∈R^{N×N}。

实践上，高斯样权重图G赋予点左近的位置高权重，远离点的位置低权重。作者可以经常使用生成的权重G调制留意力机制，如下公式所示：

这里d示意输入特色维数。

在双流雷达 Backbone 结构中，作者还引入了密集衔接的多尺度特色金字塔以捕捉不同空间范围的信息，并将点型的 Backbone 结构与基于 Transformer 的 Backbone 结构相结合：

作者在多个数据集（包括PASCAL VOC 2007数据集和其余几个数据集）上对提出的方法启动了验证。试验结果标明，与基于单流的信息融合方式相比，双流雷达 Backbone 结构可以更好地提取部分雷达特色并应用全局信息。

为了增强来自两种不同后置的雷达个性的交互，作者引入了注入和提取模块，该模块基于交叉留意力，如图3所示。此模块运行于两种后置的每个块。

的雷达BERV编码器通常将点特色散射到BERV空间，基于点的3D坐标。但是，这将造成一个稀疏的BERV特色图，其中大少数像素都蕴含零值。这种稀疏性使得一些像素有效地聚合特色变得艰巨，或者会影响检测性能。一个处置打算是参与BERV编码器层数，但这也或者造成背景特色将小目的特色平滑掉。为了处置这个疑问，作者提出了一种称为RC-aware的BERV编码器。雷达横截面积（RCS）是经过雷达测量目的的可检测性。例如，较大的物体通常会发生更强的雷达波反射，造成更大的RCS测量。因此，RCS可以提供一个物体的尺寸的毛糙预计。

RC-aware BERV编码器的关键设计是RC-aware散射操作，它应用RCS作为目的的尺寸的先验预计。应用这个先验，作者提出的散射操作准许单个雷达点上的特色被散射到BERV空间中的多个像素，而不是局限于一个像素，如图4所示。

在本节开局引见交叉留意力多层融合模块

图6说明了，为了充沛开掘RcbeVDet的后劲，作者将CAMF模块裁减以支持稀疏融合与基于 Query 的多视点相机感知模型，这种方法比基于BEV的方法取得了更高的准确度。此外，作者将RcbeVDet运行到了更多的感知义务，包括3D目的检测，BEV语义宰割和3D多目的跟踪。为了区分这个更新的RcbeVDet版本与原始版本，作者特地将其命名为RcbeVDet++。

图7所示，作者驳回CAMF的稀疏融合方法将密集雷达BEV特色和图像稀疏特色启动融合。详细而言，作者首先用图像稀疏特色交流原始图像BEV特色。而后，作者口头一个投影和抽样环节，经常使用3D相对位置将每个图像稀疏特色与雷达特色关联。更详细地说，作者将3D相对位置转换为BEV，并用双linear插值采样相应的雷达特色，以取得稀疏雷达特色。接上去，作者应用MLP组成的位置编码网络将3D相对位置转换为3D位置嵌入，并将其参与到多模态 Query 中。而后，为了对齐多模态不婚配，作者驳回可变形交叉留意力针对稀疏图像特色和密集雷达BEV特色，以及针对稀疏雷达特色和稀疏图像特色驳回方便的交叉留意力。

作者的RCBEVDet++可以生成高品质的多模态特色，这些特色可以用于各种3D感知义务，包括3D目的检测，3D多目的跟踪和BEV语义宰割。为了预测3D目的的边框，作者驳回 Query 疏导的Transformer解码器[33]，并在每个Transformer解码器层中运行CAMF模块启动稀疏融合。

而后，作者驳回跟踪检测框架来启动3D多目的跟踪义务。详细而言，作者口头基于速度的贪心距离婚配，即对每个目的在多个帧中计算核心距离，经常使用预测的减速度补救，并以贪心方式为具备最小核心距离的目的调配相反的ID。

关于BEV语义宰割，作者将多模态特色转换为密集BEV特色，由于这将须要具备类别密度的密集BEV映射。作者遵照CVT[35]解码器架构来有效地解码密集BEV特色到具备语义示意的不同图。此外，作者驳回多个头来口头不同类型的BEV语义宰割义务，每个头处置一个义务，例如车辆宰割。最后，作者经常使用焦损失[54]并驳回Sigmoid层作为训练的监视。

在本节中，作者经过少量试验评价 RCBEVDet 和 RCBEVDet++。在第 5.1 节中，作者详细引见了试验设置。在第 5.2 节中，作者将作者的方法与最先进的州界方法在三个义务中启动了比拟，这些义务区分是三维目的检测、BEV语义宰割和 3D 多目的跟踪。在第 5.3 节中，作者启动了一项宽泛的 Ablation 钻研，以考查 RCBEVDet 和 RCBEVDet++ 中的单个组件。在第 5.4 节中，作者探讨了 RCBEVDet++ 在 BEV 语义宰割中的义务权衡。在第 5.5 节中，作者展现了 RCBEVDet 的鲁棒性。在第 5.6 节中，作者展现了作者方法的可建模性。

5.1.1>作者在一项盛行的智能驾驶大规模评价规范（nuScenes[26]）上启动了试验，该规范包括美国波士顿和新加坡的1000个驾驶场景。该规范蕴含850个场景用于训练和验证，以及150个场景用于测试。作者在验证和测试集上报告结果，并与最先进的算法启动比拟，同时在验证集上评价了消融结果。
关于3D目的检测，nuScenes提供了一组评价目的，包括平均精度（mAP）和五个真阳性（TP）目的：ATE，ASE，AOE，AVE和AAE，区分权衡了转换、缩放、方向、速度和属性失误。总体性能由nuScenes检测得分（NDS）权衡，该得分整合了一切失误类型：

关于BEV语义宰割，作者经常使用一切宰割类别之间的平均交点（mIoU）作为目的，遵照LSS[28]的设置。

关于3D多目的跟踪，作者遵照nuScenes的官网目的，经常使用了各种召回阈值下的平均多目的跟踪精度（AMOTP）敌对均多目的跟踪准确率（AMOTA）。详细来说，AMOTA定义如下：

本文驳回BEVDepth [29]、BEVPoolv2 [55]、SparseBEV [33]作为RCBEVDet和RCBEVDet++的摄像机流。关于BEVDepth，作者遵照BEVDet4D [30]来累积多帧的两边BEV特色，并参与一个额外的BEV编码器来聚合这些多帧的BEV特色。关于雷达，作者累积多扫雷达点，并以RCS和多普勒速度作为输入特色，与GRIFNet [56]和CRN [13]相反的方式。作者将双流雷达骨架中 stages（阶段）的数量设置为3。

关于三维目的检测 Head ，作者经常使用CenterPoint [57]中的核心 Head 启动RCBEVDet，并经常使用SparseBEV [33]中的稀疏 Head 启动RCBEVDet++。在BEV语义宰割 Head ，作者为每个义务驳回独自的宰割 Head 。关于三维多目的跟踪，作者遵照CenterPoint，以贪心方式跟踪多帧中的目的核心。

作者的模型分为两阶段训练。第一阶段，作者依据规范成功 [29, 33]训练基于摄像机的模型。第二阶段，作者训练雷达-摄像机融合模型。摄像机流的权重从第一阶段承袭，并在第二阶段中解冻摄像机流的参数。一切模型经常使用AdamW [58]优化器训练12个周期。为了防止过拟合，作者从图像旋转、裁剪、缩放和翻转以及雷达水平翻转、水平旋转和坐标缩放等方面运行了各种数据增强。

作者将作者的方法与最先进的基于摄像头的和雷达-摄像头多模态方法启动了比拟，运行于三个义务：3D目的检测，BEV语义宰割，和3D多目的跟踪。

作者在表格I和II中区分提供了在val集和测试集上的3D目的检测结果。

如表1所示，RCBEVDet在各种backbone上逾越了之前的雷达-摄像头多模态3D目的检测方法。此外，基于SparseBEV，RCBEVDet++比CRN提高了4.4 NDS，展现了作者融合方法的有效性。另外，与之前的最佳方法相比，RCBEVDet和RCBEVDet++将速度误差降低了14.6%，证实了作者在应用雷达信息方面的方法效率。

在测试集上，经常使用V2-99 Backbone 时，RCBEVDet++将SparseBEV Baseline 提高了5.1 NDS和7.0 mAP，并逾越了其离线版本（经常使用未来帧）。值得一提的是，经常使用较小V2-99 Backbone 的RCBEVDet++与StreamPETR和Far3D经常使用较大 Backbone Vit-L的性能相当。此外，经常使用较大Vit-L Backbone 的RCBEVDet++在无测试时数据增强的状况下成功了72.7 NDS和67.3 mAP，为nuScenes上的雷达-摄像头3D目的检测设立了新的最先进结果。

在Table III的val集上，作者将作者的方法与最先进的BEV语义宰割方法启动比拟。驳回ResNet-101 Backbone 网，RCBEVDet++在"Drivable Area"类别的性能上比CRN有0.6的IoU长处，同时也比BEVGuide在"Lane"类别的性能上有了6.3的IoU长处。在一切义务的综合评价中，RCBEVDet++到达了惊人的62.8 mIoU，比之前的最佳结果提高了1.8 mIoU。这些结果标明了作者在处置BEV语义宰割义务时的方法的有效性。

state-of-the-art的性能，mIoU到达62.8，比之前的最佳结果提高了1.8 mIoU。这些结果展现了作者的方法在处置BEV语义宰割义务上的有效性。

在表4中，作者总结了在nuScenes测试集上的3D多目的跟踪结果。由于作者方法在预计物体位置和速度方面的高精度，RGEVDet++同时成功了最佳的AMOTA和AMOTP，与最先进的方法相比。

作者对所提出的方法的各个设计选用启动了评价。为了简便起见，作者对3D检测义务启动了评价。一切结果都在nuScenes验证集上失掉，经常使用了ResNet-50 Backbone 网络，图像输入大小为256X704，BEV大小为128X128，除非另有说明。

在本钻研中，作者对第三节中的关键组成部分启动试验，以便评价它们的有效性，包括RadarBEVNet和CAMF。详细来说，如表5所示，作者逐渐向baseline BEVDepth参与组件以创立RGEVDet。首先，基于仅经常使用相机的模型，作者应用CRN [13]中驳回PointPillar作为雷达背骨的单雷达和相机的3D目的检测 Baseline 。该 Baseline 雷达-相机检测器 achieve 53.6 NDS和42.3 mAP，相较于仅经常使用相机的检测器提高了1.7 NDS和1.8 mAP。接上去，将PointPillar交流为提出的RadarBEVNet，发生了2.1 NDS和3.0 mAP的改良，证实Radar-BEVNet的雷达特色示意才干很强。此外，整合CAMF将3D检测性能从55.7 NDS提高到56.4 NDS。此外，作者遵照Hop [66]的方法，引入额外的多帧损失，称为Temporal Supersonic，从而成功0.4 NDS的改良和0.3 mAP的降低。

总的来说，作者观察到每个组成部分都继续地优化了3D目的检测性能。同时，结果标明多模块融合可以清楚优化检测性能。

表6中展现了与RadarBEVNet设计关系的试验结果，包括双流雷达 Backbone 网络和了解目的散射截面(RCS)的BEV编码器。详细而言，经常使用PointPillar作为雷达 Backbone 的基础模型成功了54.3 NDS和42.6 mAP。将了解目的散射截面的BEV编码器集成到模型中，使其在3D目的检测方面的性能提高了1.4 NDS和1.9 mAP，证实了所提出的了解目的散射截面的BEV特色重建的有效性。此外，作者发现间接将基于Transformer的 Backbone 与BEV Backbone 相结合，其性能仅略有提高。这可以归因于基于点和小Transformer Backbone 区分对雷达点启动独自处置，它们各自共同的雷达特色示意缺乏有效的交互。为了处置这个疑问，作者引入了注入和提取模块，从而提高了0.6 NDS和0.8 mAP的性能。

此外，作者在不同的输入形式下，将所提出的RadarBEVNet与PointPillar启动了比拟。如表7所示：

在本钻研中，作者对CAMF模块启动了消融试验，该模块包括用于对多模态特色启动对齐的可变形交叉留意力机制以及用于BEV特色融合的通道和空间融合模块，如表8所示。详细而言，经常使用来自BEVfusion[4]的融合模块的基准模型在融合模块上取得了55.7 NDS和45.3 mAP。当引入可变形交叉留意力机制启动多模态BEV特色对齐时，3D检测性能从55.7 NDS和45.3 mAP提高到56.1 NDS和45.5 mAP。这突显了交叉留意力机制在跨模态特色对齐的有效性。此外，作者留意到，在BEVfusion[4]的单层融合之外引入了通道和空间融合模块启动BEV特色融合，性能提高了0.3 NDS和0.1 mAP。这标明，通道和空间多层融合提供了更好的多模态BEV特色。

九表展现了作者经常使用CAMF的稀疏融合的消融结果。九表的第一行指的是稀疏BEV Baseline 。仅驳回变形留意机制将雷达BEV特色与图像稀疏特色对齐，失掉的性能优化为1.2 NDS和2.3 mAP。在参与雷达 Query 样本启动多模态特色对齐后，进一步优化了检测性能2.4 NDS和4.2 mAP。此外，作者观察到，用非参数编码（即正弦位置编码）代替可学习的位编码，可以优化结果1.9 NDS和1.9 mAP。最后，与RCBEVDet中的CAMF相比，九表中的线性融合在MLP的层叠融合上超越了多层融合。这是由于BEV特色是二维密集特色，须要空间和通道的融合；而稀疏 Query 特色是一维特色，因此，线性融合层是足够的。

在nuScenes中，BEV语义宰割须要成功三个义务，包括车辆、可行驶区域和车道 segmentation。为了在这三个义务之间成功最佳平衡，作者调整了三个义务的损失权重，并将其结果显示在表10中。作者发现，为每个义务调配相等的损失权重失掉57.7 mIoU。随着车辆和车道的损失权重逐渐参与，同时降低可行驶区域的损失权重，宰割性能首先从57.7 mIoU参与到59.5 mIoU，到达峰值，而后降低到58.9 mIoU。在车辆、可行驶区域和车道区分驳回、80和200的损失权重时，最佳义务权衡成功。进一步参与车辆和车道的损失权重或者会侵害三个义务的一切宰割性能。

为了剖析传感器缺点场景下的鲁棒性，作者随机删除图像或雷达输入启动评价。在本试验中，作者驳回dropout训练战略作为数据增强，用于训练RCBEVDet，并报告CRN [13]中的_Car_类mAP。详细来说，RCBEVDet在一切传感器缺点状况下都优于CRN和BEVFusion，_Car_类的mAP更高。值得留意的是，CRN在三种雷达传感器缺点案例中的mAP区分降低了4.5、11.8和25.0，而RCBEVDet仅发生0.9、6.4和10.4 mAP的降低。

这些结果强调了所提出的交叉留意力模块经过灵活对齐增强了BEV特色的鲁棒性。

为了进一步展现CAMF与雷达校对的成果，作者以随机扰动的方式对雷达输入的x轴和y轴坐标启动操作。详细而言，作者将x轴和y轴坐标每个雷达点的噪声平均地从-1到1中采样。如表12所示，RCBEVDet在噪声雷达输入下仅降低1.3 NDS和1.5 mAP，而CRN降低2.3 NDS和5.1 mAP。此外，作者经过图8可视化了CAMF如何处置雷达偏移的疑问。如图8所示，许多雷达特色与 GT 框之间的位置存在偏向。应用CAMF，这些雷达特色得以在实在框内从新对齐，从而有效地校对了雷达的偏移疑问。

CRN [13] 也应用可变形交叉留意力来处置雷达-相机的婚配疑问。表11 和表12 的结果标明，作者的 CAMF 比 CRN 中提出的多模态可变形交叉留意力模块（MDCA）更鲁棒。为了进一步区分作者的方法，作者提出：

RCBEVDet驳回双分支架构将雷达和多视角相机融合，并将多视角相机基础方法集成到该模型中，从而提高特色示意。为了证实RCBEVDet模型的泛化才干，作者在3D目的检测框架中区分经常使用了不同的 Backbone 网络和检测器设计启动试验。

为了证实RCBEVDet在backbone架构上的模型泛化才干，作者在BEVDepth上启动了试验，包括经常使用基于CNN和Transformer的多种backbone架构。如表13所示，作者的方法在不同backbone上的 Baseline 性能可提高3.8~4.9 NDS和4.8~10.2 mAP。此外，关于大小不同的相反类型的backbone结构（例如，ResNet-18和ResNet-50），RCBEVDet可以成功分歧的性能优化4.9 NDS。

作者经过将作者的方法集成到各种干流的多视图摄像头基的3D目的检测器中，包括基于LSS的方法（例如，BEVDet和BEVDepth）和基于 Transformer 的方法（例如，StreamPETR和SparseBEV），来评价检测器的架构通用性。这些方法代表了各种检测器设计。如表14所示，经过将雷达特色启动融合，作者的方法提高了一切盛行的多视图摄像头基3D目的检测器的性能。详细而言，关于基于LSS的方法，RCBEVDet对BEVDet的5.6 NDS和4.9 NDS启动了改良。

表9：带噪声雷达输入的雷达-摄像头多模态对齐。BEVDepth，区分。关于基于 Transformer 的方法，RCBEVDet++在NDS方面取得相似的性能改良，即区分提高了StreamPETR和SparseBEV的5.6 NDS和5.9 NDS。值得留意的是，与基于LSS的方法相比，基于 Transformer 的方法失掉的mAP改良更多。要素是基于LSS的方法通经常常使用LiDAR点提供的深度监视启动更准确的3D位置预测，而基于 Transformer 的方法可以隐式地学习3D位置。因此，基于 Transformer 的方法可以从雷达特色中取得更多的深度信息。总体而言，这些结果标明作者的方法在各种3D目的检测器上的检测器架构通用性。

在本文中，作者首先引见了RCBEVDet，这是一个雷达-摄像头融合3D检测器。

它包括一个现有的基于摄像头的3D检测模型，一个专门设计的雷达特色提取器，以及CAMF模块，用于对齐和融合雷达-摄像多模态特色。RCBEVDet在多个backbone上改善了各种基于摄像头的3D目的检测器性能，并在nuScenes数据集上展现了反抗传感器缺点状况的弱小鲁棒性才干。

为了施展RCBEVDet的后劲，作者提出了RCBEVDet++，它将CAMF模块裁减到支持基于 Query 的多视相机感知模型，成功稀疏融合，并顺应更多的感知义务，包括3D目的检测、BEV语义宰割和3D多目的跟踪。

在nuScenes数据集上的少量试验标明，RCBEVDet++进一步提高了基于相机的感知模型性能，并在这三个感知义务上成功了新的最先进的雷达-摄像头多模态结果。

值得留意的是，无需经常使用测试时增强或模型集成，RCBEVDet++取得了ViT-L图像backbone的3D目的检测72.73 NDS和67.34 mAP。

智能驾驶雷达 3D

<<2024年十款低劣物联网开发板

SHS 十个低劣开源智能家居系统>>

迈向高精度雷达 RCBEVDet

您可能还会对下面的文章感兴趣：

随便看看