近10个点~ 宰割依旧发光!Mask2Map 爆拉MapTRv2

高精地图(HD Map)不时以来被以为是是保障智能驾驶车辆安保有效导航的关键要素。它们经过提供地图实例的具体位置和语义信息,促成准确的布局和阻碍物避让。传统上,应用基于SLAM的方法离线构建的高精地图,触及复杂的环节,须要少量的休息力和经济老本。而且,这种方法在照应路线条件变动并提供及时更新方面存在局限性。所以,最近越来越多的论文开局钻研如何基于学习来在线结构高精地图构建,专一于生成自车周围的部分地图。

论文地址:

早期的上班将地图构建视为一种语义宰割义务,基于从各种传感器取得的BEV特色。它们预测了栅格格局中每个像素的类别标签,防止了生成准确矢量轮廓的复杂性。只管这种方法提供了语义地图信息,但在捕捉不同类别的地图组件的准确关键位置及其结构相关方面存在无余。因此,其输入并不适宜间接运行于下游义务,如静止预测和布局。为了处置这个疑问,越来越多的钻研者将 HD map 矢量化,能够间接生成矢量化的地图实体。经常出现的方法如下图1所示。

之前的上班关键分为三种思绪:

在这篇论文中,作者引见了一种新的端到端高精地图构建框架,称为Mask2Map。如图1(d)所示,Mask2Map经过应用宰割掩码来区分BEV畛域中不同类别的实例。所提出的Mask2Map架构包括两个网络:实例级掩码预测网络(Instance Level Mask Prediction Network,IMPNet)和掩码驱动地图预测网络(Mask-Driven Map Prediction Network,MMPNet)。最后,IMPNet从传感器数据构建多尺度BEV特色,并生成掩码感知查问,从全局角度捕捉实例的语义特色。遵照实例宰割模型Mask2Former的框架,作者设计了掩码感知查问,能够生成与BEV范围中不同类别的实例相关联的BEV宰割掩码。随后,基于IMPNet提供的掩码感知查问,MMPNet灵活地从BEV范围的部分角度预测地图实例的有序点集。

BEV宰割义务指的是应用传感器数据搜集有关车辆周围静态环境信息的义务。该类宰割方法通常从传感器数据中提取BEV特色,并经常使用静态场景的栅格化图像作为GT,在BEV畛域口头语义宰割。例如,Lift-Splat-Shoot (LSS) 将从多视图相机提取的特色转换为3D特色,经常使用预测的深度信息,而后经过聚合这些特色生成BEV示意。CVT 经常使用交叉视图留意力从透视图到BEV畛域学习几何变换,经常使用相机感知的位置编码。BEVFormer 经过与空间和期间信息交互,经过预约义的网格状BEV查问一致BEV示意。BEVSegFormer 经过经常使用可变形交叉留意力模块,从不依赖于相机内参和外参的多视图相机特色中生成密集的语义查问,口头BEV语义宰割。

矢量化高精地图构建方法

在线高精地图构建方法因其后劲而遭到宽泛关注,有或者取代智能驾驶中的高精地图,并为布局和定位提供有用信息。这些方法经常使用传感器数据实时预测自车周围的具体地图实例。例如,HDMapNet 经常使用带有BEV特色的语义宰割模型和后处置方法来生成矢量化高精地图。但是,这种方法须要少量的计算期间。为了提高处置效率,引入了基于查问的方法,应用Transformer留意力解码场景并间接预测地图实例的有序点序列。VectorMapNet 引入了一个两阶段框架,首先检测地图实例的边界框,而后经常使用自回归解码器依次预测每个实例的点。MapTR 应用DETR的架构将地图实例示意为有序点集,并经常使用档次化查问对Transformer解码器启动编码。MapTRv2 进一步裁减了其才干,经常使用深度监视学习3D几何信息,并在透视视图和BEV上启动语义宰割。MapVR 为每个地图实例生成矢量化地图,而后经常使用可微分光栅化器将其转换为光栅化地图,提供实例级宰割监视。PivotNet 经过生成关键点的有序列表预测地图实例,这些关键点关于捕捉地图组件的全体外形至关关键。

基于DETR架构的感知模型曾经驳回了基于Transformer架构的查问预测,经过二分婚配将GT标签调配给预测,以确保适当的监视。但是,这种调配有时会造成跨期间或层之间的婚配不分歧。例如,不同的GT标签或者在不同的期间调配给相反的查问,从而造成收敛速度变慢和性能降低。为了处置这个应战,DN-DETR 引入了去噪训练战略。该战略将从喧闹的GT边界框派生的查问集成到DETR解码器的现有查问中,将预测这些GT边界框的义务调配给这些GT查问。这种方法已被证实在稳固跨训练期间的二分婚配中是有效的。MP-Former 处置了延续解码器层之间不分歧的掩码预测疑问。MP-Former 驳回了掩码疏导训练方法,经常使用故意参与噪声的GT查问和GT掩码,以减轻不准确掩码预测的负面影响。Mask DINO 引入了一个一致的去噪训练框架,增强了多义务学习在目的检测和宰割义务中的稳固性。

作者引入了几种翻新方法来提高预测高精地图的准确性:

Mask2Map的全体架构如下图2所示。Mask2Map架构包括两个网络:IMPNet和MMPNet。首先,IMPNet生成从全局视角捕捉片面语义信息的掩码感知查问。随后,MMPNet应用经过PQG和GFE取得的几何信息,从部分视角构建更具体的矢量化地图。

IMPNet由 BEV编码器 掩码感知查问生成器 组成。BEV编码器从传感器数据中提取多尺度BEV特色,掩码感知查问生成器发生掩码感知查问,随后用于生成BEV宰割掩码。

BEV编码器: IMPNet经过处置多视图相机图像、激光雷达点云或两者的融合,生成BEV特色。多视图相机图像经过LSS操作转换为BEV示意。激光雷达点云经过体素编码转换为BEV示意。当集成相机和激光雷达传感器启动融合时,从两种模态提取的BEV特色被衔接并经过额外的卷积层。

掩码驱动地图预测网络(MMPNet)

MMPNet包括三个关键组成部分: 位置查问生成器 (Positional Query Generator)、 几何特色提取器 (Geometric Feature Extractor)和 掩码疏导地图解码器 (Mask-Guided Map Decoder)。位置查问生成器注上天位信息以增强掩码感知查问,而几何特色提取器处置BEV宰割掩码以从BEV特色中提取几何特色。最后,掩码疏导地图解码器经常使用位置查问生成器和几何特色提取器提供的特色,预测地图实例的类别和有序点集的坐标。

Mask2Map经过IMPNet传递掩码感知查问给MMPNet,以启动实例特色的档次化细化。为了确保有效的训练,作者为IMPNet调配了实例宰割损失,为MMPNet调配了地图构建损失。IMPNet和MMPNet经常使用的查问应该经过二分婚配与它们各自的GT启动婚配。但是,当IMPNet和MMPNet的查问与不同实例的GT相关联时,婚配环节中或者会发生不分歧性。作者观察到这种网络间的不分歧性往往会引发收敛速度变慢和性能降低。

为了处置这个疑问,作者驳回了去噪训练战略。关键思维是将从每个GT实例派生的喧闹GT查问,兼并到IMPNet内的可学习查问中(见图2)。作者的模型被训练以去噪这些查问,经过间接将它们与相应的GT婚配。这与经过二分婚配将可学习查问与GT婚配的模式构成对比。因此,这种战略被称为网络间去噪训练。这个环节疏导模型在IMPNet和MMPNet经常使用的查问之间建设对应相关,有效减轻了网络间的不分歧性。此外,除了GT查问,作者还生成了扰动的GT宰割掩码,以代替IMPNet的BEV宰割掩码。

作者经过为每个实例的GT类别调配一切类别嵌入向量之一来生成GT查问。作者经过以概率λ随机交流类嵌入向量与其余类别之一来参与翻转噪声。同时,作者还经过将地图噪声参与到每个实例的有序点序列中,并将其光栅化,生成扰动的GT宰割掩码,如图3(c)所示。

喧闹GT查问和可学习查问的组合被称为可学习实例查问。与经常使用BEV宰割掩码不同,作者专门经常使用扰动的GT宰割掩码启动喧闹GT查问。喧闹GT查问经过IMPNet和MMPNet传递,其预测结果与相应的GT婚配,而不启动二分婚配。

用于训练Mask2Map的总损失L由下式给出:

数据集。 作者在nuScenes 和 Argoverse2 两个地下数据集上做了测试。

评价目的。 作者定义了感知范围为横向方向 [-15.0m, 15.0m] 和纵向方向 [-30.0m, 30.0m]。作者将地图实例分为三类用于高精地图构建:人行横道、车道分隔线和路线边界。作者驳回两种评价目的:基于 Chamfer 距离提出的平均精度 (AP) 和基于光栅化的 AP 。作者关键经常使用 Chamfer 距离度量,经常使用 0.5、1.0 和 1.5 米的阈值计算平均精度 (mAP)。关于基于光栅化的平均精度 (mAP†),作者测量每个地图实例的交并比,阈值设置为 {0.50, 0.55, ..., 0.75} 用于人行横道和 {0.25, 0.30, ..., 0.50} 用于线形元素。为了进一步评价网络间婚配分歧性比率,作者经常使用了查问应用率 (Query Utilization, Util) 目的,该目的计算 MMPNet 的第一解码器层与 IMPNet 的最后一层婚配的分歧性比率。

nuScenes 上的结果。 表1展现了 Mask2Map 在 nuScenes 验证集上的片面性能剖析,经常使用 Chamfer 距离度量。Mask2Map 建设了新的最先进性能,清楚优于现有方法。当仅经常使用相机输入时,Mask2Map 在 24 个周期内取得了 71.6% mAP 的清楚结果,在 110 个周期内取得了 74.6% mAP,区分比之前的最先进模型 MapTRv2 高出 10.1% mAP 和 5.9% mAP。当经常使用相机-激光雷达融合时,Mask2Map 比 MapTRv2 提高了 9.4% mAP 的性能。表2基于光栅化度量评价了 Mask2Map 的性能。值得留意的是,作者的 Mask2Map 方法比 MapTRv2 提高了 18.0 mAP 的清楚性能。

Argoverse2 上的结果。 表3展现了几种高精地图构建方法在 Argoverse2 验证集上的性能评价。所提出的 Mask2Map 与现有模型相比显示出清楚的性能优化。Mask2Map 超越了上游的方法 MapTRv2,提高了 4.1% mAP,标明作者的模型在不同场景中成功了分歧的性能。

作者启动了消融钻研,以评价 Mask2Map 外围现实的奉献。在这些试验中,经常使用了仅相机输入和 ResNet50 主干网络。训练在 nuScenes 训练数据集的 1/4 上启动了 24 个周期。评价在完整验证集上口头。

关键组件的奉献: 表4展现了 Mask2Map 每个组件的影响。作者经过一一参与每个组件来评价性能。第一行代表一个基线模型,经常使用基于 LSS 的 BEV 编码器提取 BEV 特色,并经常使用可变形留意力预测矢量化地图实例。将 IMPNet 参与到基线模型时,作者留意到 mAP 清楚参与了 5.9%,标明蕴含掩码感知查问(能够生成实例宰割结果)清楚优化了高精地图构建的性能。此外,参与 MMPNet 使 mAP 进一步提高了 3.8%,强调了经过 BEV 宰割掩码注上天图实例的位置和几何信息的关键性。最后,作者的网络间去噪训练提供了额外的 6.5% mAP 参与,强调了其在优化性能中的有效性。

MMPNet 子模块的奉献: 作者在表5中具体钻研了 PQG 和 GFE 的奉献。仅 GFE 就比基线奉献了清楚的 3.1% mAP 参与,而仅 PQG 则发生了 3.4% mAP 的改良。PQG 和 GFE 的组合经过 4.8% mAP 进一步提高了性能,展现了它们的互补效应。

网络间去噪训练对婚配分歧性的影响: 作者进一步钻研了网络间去噪训练的影响。如表6所示,网络间去噪训练将婚配比率 Util 从 24.7% 清楚提高到 74.7%,这转化为全体 mAP 性能的 6.5% 清楚参与。这标明作者的网络间去噪训练有效地减轻了 IMPNet 和 MMPNet 之间查问到 GT 婚配的不分歧性。

网络间去噪训练中噪声的影响: 在表7中,作者探求了在网络间去噪训练中经常使用的地图噪声的影响。作者将方法与不经常使用地图噪声的 GT 宰割掩码的基线启动了比拟。结果标明,在 GT 中加上天图噪声比基线提高了 0.8% mAP。

定性结果。 图4展现了所提出的 Mask2Map 发生的定性结果。作者与的最先进方法 MapTRv2 启动了比拟。留意,Mask2Map 发生了比 MapTRv2 更好的地图构建结果。

作者引见了一种名为Mask2Map的端到端在线高精地图构建方法。Mask2Map应用IMPNet生成掩码感知查问和BEV宰割掩码,从全局视角捕捉语义场景高低文。随后,MMPNet经过PQG和GFE增强掩码感知查问,整合语义和几何信息。最后,掩码疏导地图解码器预测地图实例的类别和有序点集。此外,作者提出了网络间去噪训练,以减轻IMPNet和MMPNet之间因为不同的二分婚配结果造成的网络间不分歧性。作者在nuScenes和Argoverse2基准测试上的评价标明,所提出的想法比基线带来了清楚的性能优化,以相当大的长处逾越了现有的高精地图构建方法。

您可能还会对下面的文章感兴趣: