地图先验的花式玩法暴跌3个点！元戎启行提出PriorMapNet

2024-11-15

写在前面 & 笔者的团体了解

北理工和元戎启行的上班PriorMapNet！在线高精地图构建关于智能驾驶中的后续预测和布局义务至关关键。遵照MapTR范式，最近的上班取得了不错的结果。但是在干流方法中，参考点是随机初始化的，造成预测和GT之间的婚配不稳固。为了处置这个疑问，咱们引入PriorMapNet来增强在线高精地图的构建。详细来说提出了PPS解码器，它为参考点提供了位置和结构先验。依据数据集中的地图元素启动拟合，先验参考点降落了学习难度，成功了稳固的婚配。此外，咱们提出了PF编码器，应用BEV特色先验来增强图像到BEV的转换。此外，咱们提出了DMD交叉留意，它区分沿多尺度和多样本解耦交叉留意力，以提高效率。咱们提出的PriorMapNet在nuScenes和Argoverse2数据集上的在线矢量化高精地图构建义务中成功了最先进的性能。

总结来说，本文的关键奉献如下：

与传统的离线高精地图构建方法不同，最近的钻研经常使用车载传感器构建在线高精地图。早期的方法将地图构建作为宰割义务，预测BEV空间中的光栅化地图。HDMapNet经事先处置将这些光栅化地图进一步转换为矢量化地图。

VectorMapNet引入了第一个端到端的矢量化地图模型，经常使用DETR解码器检测地图元素，并经常使用自回归变换器优化结果。因此，MapTR和MapTRv2设计了一种具备实例点级分层查问嵌入打算的单阶段地图构建范式。起初提出的干流方法遵照了这一流程，改良的重点是增强查问和外部配置的交互。InsMapper和HIMap进一步探求了实例和点之间的关系性，并改良了查问中的交互。MapQR在实例级查问中隐式编码点级查问，并嵌入查问位置，如Conditional DETR。虽然有上述开展，但这些方法随机初始化参考点，造成婚配不稳固。为了处置这个疑问，咱们的PriorMapNet引入了先验来增强婚配稳固性。

先验为地图构建提供了有效的初始化，降落了模型学习的难度。咱们将先验分为两类：语义先验和位置和结构先验。关于先验语义，MGMap提出了Mask Active Instance（MAI），它学习地图实例宰割结果，并为实例查问提供语义先验。Bi-Mapper设计了一个双流模型，经常使用全局和部分视角的先验来增强语义图学习。关于先验位置和结构，Topo2D（Li等人，2024a）经常使用2D车道检测结果作为先验来初始化查问。SMERF和P-MapNet引入了规范地图（SDMap）作为地图构建的位置和结构先验。但是，上述方法依赖于额外的模块，参与了计算复杂度。相比之下，PriorMapNet经常使用离线聚类地图元素作为位置和结构先验，在不参与额外计算消耗的状况下提高了性能。

地图构建通常依赖于BEV特色，该特色由编码器从图像中转换而来。编码器有两种类型：自下而上和自上而下。自下而上的编码器将图像优化到3D，并经常使用voxel pooling生成BEV特色。自顶向下编码器生成蕴含3D消息的BEV查问，并经常使用变压器提取图像特色以启动BEV查问。但是，因为查问是随机初始化的，单层编码器的精度较低，多层编码器带来了更高的计算复杂度。为了克制这些局限性，咱们经常使用先验特色增强了BEV查问。

PriorMapNet网络结构如图3所示。关键蕴含四个部分Backbone、PF-Encoder、PPS-Decoder和Prediction Output。

PPS-Decoder如图4c所示。结合随机初始化参考点的MapTRv2和仅提供语义先验而不提供位置消息的MGMap，PPS-Decoder经过位置和结构先验增强参考点，提供“good anchor”来提高准确性和婚配稳固性。

PPS-Decoder蕴含多个级联的解码器层，用于迭代地优化分层查问和参考点。分层查问由实例级查问和点级查问组成，它们经过broadcasting组合在一同：

参考点用先前的位置和结构启动初始化。为了拟合数据集中地图元素的散布，咱们经常使用K-Means对地图元素启动聚类，并提取第一个Npri元素的位置消息，如图2所示。聚类和形象是由离线成功的，确保在推理环节中没有额外的计算累赘。在训练和推理环节中，一些参考点取得了拟合的位置和结构先验（称为先验参考点，而其他的参考点依然来自可学习的参数（称为可学习参考点，参考点的组合集示意为R）。

为了嵌入查问位置，参考点在DAB-DETR之后用正弦位置启动编码。查问位置嵌入成功如下：

线性层的参数不在解码器层之间共享。PE（·）在坐标上独自计算，位置嵌入沿着特色通道衔接：

参考点和位置嵌入在PPS解码器层之间启动更新。在每一层中，自我关注和交叉关注机制经常使用以下输入启动QKV和参考点：

先验参考点适宜数据集中地图元素的位置和结构散布，这有助于查问专一于学习与参考点的偏移。此外，咱们保养了可学习参考点，以捕捉和示意与典型位置和结构形式不同的地图元素。自留意力使先前参考点和可学习参考点之间能够相互作用，缩小冗余检测，提高全体检测精度。

PF编码器经过BEV特色先验增强了图像到BEV的转换。PF编码器建设在自上而下编码器（如BEVFormer和GKT）的基础上，应用BEV特色作为查问，经过交叉留意力提取关系图像特色。

咱们首先经常使用LSS将图像特色转换为初始化的BEV特色，而后将其用作BEV查问先验，在单层BEVFormer编码器中启动优化。在MGMap之后，BEV特色经过EML Neck下采样到多尺度。

为了更好地聚合来自同一映射元素的特色，有必要排汇同一实例的嵌入并区分不同实例的嵌入。因此，咱们引入了地图元素的判断损失，以使相反的立场更凑近，并进一步分别不同的实例：

在PPS解码器的交叉留意力层，查问加权样本BEV特色。PF编码器使查问能够有效地聚合与同一地图元素关系的特色，同时区分不同的地图实例，提洼地图构建的准确性。

为了处置多尺度可变形交叉留意力（MSDA）的计算复杂性，咱们提出了DMD交叉留意机制，以沿多尺度和多样本解耦交叉留意力，如图5b所示。

在vanilla MSDA中，每个查问都与M尺度BEV特色交互，并在每个尺度上采样N个点，其计算复杂度为O（M×N）：

为了提高效率，DMD交叉留意力机制将香草MSDA环节分为两个阶段：

多尺度阶段在M个尺度上启动交叉留意力，每个尺度采样一个点。多采样阶段经常使用多尺度阶段的输入，并专一于最大尺度特色来采样N个点。DMD交叉留意将计算复杂度降落到O（M，N），并成功了比个别MSDA更高的性能。

为了验证咱们提出的方法PriorMapNet的有效性，咱们在宽泛经常使用的nuScenes数据集和Argoverse 2数据集上对其启动了评价，并将其与SOTA方法启动了比拟。

nuScenes数据集是在线矢量化高精地图构建的规范基准，蕴含由六个多视图相机和激光雷达捕捉的1000个驾驶场景，其中2D矢量化地图元素作为低空实况。Argoverse 2专为智能驾驶的感知和预测钻研而设计，蕴含1000个场景，每个场景15秒。由七个多视图相机捕捉的3D矢量化地图元素作为GT提供。

依据之前的钻研，咱们评价了三类地图元素的性能：车道分隔带、人行横道和路线边界。PriorMapNet的性能经常使用平均精度（AP）目的启动评价，假设预测与其GT之间的腔室距离在0.5、1.0和1.5米的阈值范围内，则预测被视为TP。

nuScenes上的结果 。咱们在表1中报告了nuScenes春季集的定量结果。在相机形式下，PriorMapNet逾越了之前的SOTA方法，与咱们的基线MapTRv2相比，mAP提高了6.2%。在一个RTX 4090 GPU上，PriorMapNet的推断速度为每秒13.9帧（FPS）。此外，在相机和激光雷达融合形式下，PriorMapNet到达72.9%的mAP和7.5 FPS，展现出弱小的泛化才干。定性结果如图6所示，进一步说明PriorMapNet取得了改良的结果。补充资料中显示了更多定性结果。

Argoverse 2上的结果 。咱们在表2中报告了Argoverse 2 val集的定量结果。Argoverse 2提供3D地图注释，准许对2D和3D地图元素启动预测。PriorMapNet在两个维度上都逾越了之前的SOTA方法，2D地图元素的mAP为72.0%，3D地图元素的mAP为69.9%，推理速度为12.6 FPS。试验结果证实了咱们方法的可推行性。

扩展BEV范围的结果 。咱们在nuScenes验证集上对扩展的BEV范围启动模型训练和评价，如表3所示。BEV网格的尺寸坚持在[0.3m，0.3m]。为了验证咱们方法的鲁棒性，咱们相应地参与了地图元素的先验聚类和位置范围。其他设置与原始模型坚持分歧。试验结果标明，PriorMapNet在扩展BEV范围方面坚持了长处。值得留意的是，在100×50m的范围内，咱们的方法构成了SOTA方法SQD MapNet，该方法集成了stream战略。

本文引入PriorMapNet，应用先验常识增强在线矢量化高精地图构建。为了处置不稳固婚配的疑问，咱们提出了PPS解码器，该解码器提供了从数据集中预先聚类的位置和结构参考点。为了有效地嵌入边界元特色，咱们提出了PF编码器，该编码器应用边界元特色先验增强图像到边界元的转换，并应用判断损失来改善映射元素嵌入的聚合。为了降落计算复杂度，咱们提出了DMD交叉留意，它区分沿多尺度和多样本执行交叉留意力。咱们提出的PriorMapNet在nuScenes和Argoverse2数据集上成功了最先进的性能。局限性和未来的上班。虽然咱们开发了在线矢量化高精地图构建，但在未来的上班中须要处置几个局限性。首先，咱们的地图元素先验只蕴含位置消息，不足语义消息，这限度了查问的交互和优化。其次，咱们的方法仅依赖于单帧传感器输入，构建期间和空间延续地图元素的示意。

智能驾驶地图

<<透明的互联网为什么物联网应该成为

入行智能驾驶数据闭环往年必读的十三篇最前沿论文>>

地图先验的花式玩法 暴跌3个点！ 元戎启行提出PriorMapNet

写在前面 & 笔者的团体了解

您可能还会对下面的文章感兴趣：

随便看看

地图先验的花式玩法暴跌3个点！元戎启行提出PriorMapNet