地图先验的花式玩法 暴跌3个点! 元戎启行提出PriorMapNet
写在前面 & 笔者的团体了解
北理工和元戎启行的上班PriorMapNet! 在线高精地图构建关于智能驾驶中的后续预测和布局义务至关关键。遵照MapTR范式,最近的上班取得了不错的结果。但是在干流方法中,参考点是随机初始化的,造成预测和GT之间的婚配不稳固。为了处置这个疑问,咱们引入PriorMapNet来增强在线高精地图的构建。详细来说提出了PPS解码器,它为参考点提供了位置和结构先验。依据数据集中的地图元素启动拟合,先验参考点降落了学习难度,成功了稳固的婚配。此外,咱们提出了PF编码器,应用BEV特色先验来增强图像到BEV的转换。此外,咱们提出了DMD交叉留意,它区分沿多尺度和多样本解耦交叉留意力,以提高效率。咱们提出的PriorMapNet在nuScenes和Argoverse2数据集上的在线矢量化高精地图构建义务中成功了最先进的性能。
总结来说,本文的关键奉献如下:
与传统的离线高精地图构建方法不同,最近的钻研经常使用车载传感器构建在线高精地图。早期的方法将地图构建作为宰割义务,预测BEV空间中的光栅化地图。HDMapNet经事先处置将这些光栅化地图进一步转换为矢量化地图。
VectorMapNet引入了第一个端到端的矢量化地图模型,经常使用DETR解码器检测地图元素,并经常使用自回归变换器优化结果。因此,MapTR和MapTRv2设计了一种具备实例点级分层查问嵌入打算的单阶段地图构建范式。起初提出的干流方法遵照了这一流程,改良的重点是增强查问和外部配置的交互。InsMapper和HIMap进一步探求了实例和点之间的关系性,并改良了查问中的交互。MapQR在实例级查问中隐式编码点级查问,并嵌入查问位置,如Conditional DETR。虽然有上述开展,但这些方法随机初始化参考点,造成婚配不稳固。为了处置这个疑问,咱们的PriorMapNet引入了先验来增强婚配稳固性。
先验为地图构建提供了有效的初始化,降落了模型学习的难度。咱们将先验分为两类:语义先验和位置和结构先验。关于先验语义,MGMap提出了Mask Active Instance(MAI),它学习地图实例宰割结果,并为实例查问提供语义先验。Bi-Mapper设计了一个双流模型,经常使用全局和部分视角的先验来增强语义图学习。关于先验位置和结构,Topo2D(Li等人,2024a)经常使用2D车道检测结果作为先验来初始化查问。SMERF和P-MapNet引入了规范地图(SDMap)作为地图构建的位置和结构先验。但是,上述方法依赖于额外的模块,参与了计算复杂度。相比之下,PriorMapNet经常使用离线聚类地图元素作为位置和结构先验,在不参与额外计算消耗的状况下提高了性能。
地图构建通常依赖于BEV特色,该特色由编码器从图像中转换而来。编码器有两种类型:自下而上和自上而下。自下而上的编码器将图像优化到3D,并经常使用voxel pooling生成BEV特色。自顶向下编码器生成蕴含3D消息的BEV查问,并经常使用变压器提取图像特色以启动BEV查问。但是,因为查问是随机初始化的,单层编码器的精度较低,多层编码器带来了更高的计算复杂度。为了克制这些局限性,咱们经常使用先验特色增强了BEV查问。
PriorMapNet网络结构如图3所示。关键蕴含四个部分Backbone、PF-Encoder、PPS-Decoder和Prediction Output。
PPS-Decoder如图4c所示。结合随机初始化参考点的MapTRv2和仅提供语义先验而不提供位置消息的MGMap,PPS-Decoder经过位置和结构先验增强参考点,提供“good anchor”来提高准确性和婚配稳固性。
PPS-Decoder蕴含多个级联的解码器层,用于迭代地优化分层查问和参考点。分层查问由实例级查问和点级查问组成,它们经过broadcasting组合在一同:
参考点用先前的位置和结构启动初始化。为了拟合数据集中地图元素的散布,咱们经常使用K-Means对地图元素启动聚类,并提取第一个Npri元素的位置消息,如图2所示。聚类和形象是由离线成功的,确保在推理环节中没有额外的计算累赘。在训练和推理环节中,一些参考点取得了拟合的位置和结构先验(称为先验参考点,而其他的参考点依然来自可学习的参数(称为可学习参考点,参考点的组合集示意为R)。
为了嵌入查问位置,参考点在DAB-DETR之后用正弦位置启动编码。查问位置嵌入成功如下:
线性层的参数不在解码器层之间共享。PE(·)在坐标上独自计算,位置嵌入沿着特色通道衔接:
参考点和位置嵌入在PPS解码器层之间启动更新。在每一层中,自我关注和交叉关注机制经常使用以下输入启动QKV和参考点:
先验参考点适宜数据集中地图元素的位置和结构散布,这有助于查问专一于学习与参考点的偏移。此外,咱们保养了可学习参考点,以捕捉和示意与典型位置和结构形式不同的地图元素。自留意力使先前参考点和可学习参考点之间能够相互作用,缩小冗余检测,提高全体检测精度。
PF编码器经过BEV特色先验增强了图像到BEV的转换。PF编码器建设在自上而下编码器(如BEVFormer和GKT)的基础上,应用BEV特色作为查问,经过交叉留意力提取关系图像特色。
咱们首先经常使用LSS将图像特色转换为初始化的BEV特色,而后将其用作BEV查问先验,在单层BEVFormer编码器中启动优化。在MGMap之后,BEV特色经过EML Neck下采样到多尺度。
为了更好地聚合来自同一映射元素的特色,有必要排汇同一实例的嵌入并区分不同实例的嵌入。因此,咱们引入了地图元素的判断损失,以使相反的立场更凑近,并进一步分别不同的实例:
在PPS解码器的交叉留意力层,查问加权样本BEV特色。PF编码器使查问能够有效地聚合与同一地图元素关系的特色,同时区分不同的地图实例,提洼地图构建的准确性。
为了处置多尺度可变形交叉留意力(MSDA)的计算复杂性,咱们提出了DMD交叉留意机制,以沿多尺度和多样本解耦交叉留意力,如图5b所示。
在vanilla MSDA中,每个查问都与M尺度BEV特色交互,并在每个尺度上采样N个点,其计算复杂度为O(M×N):
为了提高效率,DMD交叉留意力机制将香草MSDA环节分为两个阶段:
多尺度阶段在M个尺度上启动交叉留意力,每个尺度采样一个点。多采样阶段经常使用多尺度阶段的输入,并专一于最大尺度特色来采样N个点。DMD交叉留意将计算复杂度降落到O(M,N),并成功了比个别MSDA更高的性能。
为了验证咱们提出的方法PriorMapNet的有效性,咱们在宽泛经常使用的nuScenes数据集和Argoverse 2数据集上对其启动了评价,并将其与SOTA方法启动了比拟。
nuScenes数据集是在线矢量化高精地图构建的规范基准,蕴含由六个多视图相机和激光雷达捕捉的1000个驾驶场景,其中2D矢量化地图元素作为低空实况。Argoverse 2专为智能驾驶的感知和预测钻研而设计,蕴含1000个场景,每个场景15秒。由七个多视图相机捕捉的3D矢量化地图元素作为GT提供。
依据之前的钻研,咱们评价了三类地图元素的性能:车道分隔带、人行横道和路线边界。PriorMapNet的性能经常使用平均精度(AP)目的启动评价,假设预测与其GT之间的腔室距离在0.5、1.0和1.5米的阈值范围内,则预测被视为TP。
nuScenes上的结果 。咱们在表1中报告了nuScenes春季集的定量结果。在相机形式下,PriorMapNet逾越了之前的SOTA方法,与咱们的基线MapTRv2相比,mAP提高了6.2%。在一个RTX 4090 GPU上,PriorMapNet的推断速度为每秒13.9帧(FPS)。此外,在相机和激光雷达融合形式下,PriorMapNet到达72.9%的mAP和7.5 FPS,展现出弱小的泛化才干。定性结果如图6所示,进一步说明PriorMapNet取得了改良的结果。补充资料中显示了更多定性结果。
Argoverse 2上的结果 。咱们在表2中报告了Argoverse 2 val集的定量结果。Argoverse 2提供3D地图注释,准许对2D和3D地图元素启动预测。PriorMapNet在两个维度上都逾越了之前的SOTA方法,2D地图元素的mAP为72.0%,3D地图元素的mAP为69.9%,推理速度为12.6 FPS。试验结果证实了咱们方法的可推行性。
扩展BEV范围的结果 。咱们在nuScenes验证集上对扩展的BEV范围启动模型训练和评价,如表3所示。BEV网格的尺寸坚持在[0.3m,0.3m]。为了验证咱们方法的鲁棒性,咱们相应地参与了地图元素的先验聚类和位置范围。其他设置与原始模型坚持分歧。试验结果标明,PriorMapNet在扩展BEV范围方面坚持了长处。值得留意的是,在100×50m的范围内,咱们的方法构成了SOTA方法SQD MapNet,该方法集成了stream战略。
本文引入PriorMapNet,应用先验常识增强在线矢量化高精地图构建。为了处置不稳固婚配的疑问,咱们提出了PPS解码器,该解码器提供了从数据集中预先聚类的位置和结构参考点。为了有效地嵌入边界元特色,咱们提出了PF编码器,该编码器应用边界元特色先验增强图像到边界元的转换,并应用判断损失来改善映射元素嵌入的聚合。为了降落计算复杂度,咱们提出了DMD交叉留意,它区分沿多尺度和多样本执行交叉留意力。咱们提出的PriorMapNet在nuScenes和Argoverse2数据集上成功了最先进的性能。局限性和未来的上班。虽然咱们开发了在线矢量化高精地图构建,但在未来的上班中须要处置几个局限性。首先,咱们的地图元素先验只蕴含位置消息,不足语义消息,这限度了查问的交互和优化。其次,咱们的方法仅依赖于单帧传感器输入,构建期间和空间延续地图元素的示意。