LVLM赋能端到端!地平线& 华科联手打造更强智能驾驶系统Senna!
写在前面&笔者的团体了解
近年来,智能驾驶技术开展迅速,在驾驶感知、静止预测、布局等畛域取得了严重停顿,为成功更准确、更安保的驾驶决策奠定了松软的基础。其中,端到端智能驾驶技术取得了严重打破,端到端方法以大规模数据为基础,展现出出色的布局才干。此外,大型视觉言语模型曾经体现出越来越弱小的图像了解和推理才干。经过应用其知识和逻辑,LVLM 可以剖析驾驶环境并在复杂场景中做出安保的决策。应用少量驾驶数据来提高 LVLM 在智能驾驶中的性能并衔接 LVLM 和端到端模型,关于成功安保、持重和可推行的智能驾驶至关关键。
端到端智能驾驶的经常出现做法是间接预测未来轨迹或控制信号,而无需决策步骤。但是,这种方法或者会使模型学习愈加艰巨,同时不足可解释性。相比之下,当人脑做出详细决策时,由分层初级决策和低级口头组成的系统起着至关关键的作用。此外,端到端模型通常不足知识,在便捷场景中或者会出错。例如,它们或者会将载有交通锥的卡车误以为是路障,从而触发不用要的刹车。这些限度阻碍了端到端模型的布局性能。因此,本文针对以下触及到的三个疑问启动探求。
针对上述关系疑问的探讨,本文提出了一种将 LVLM 与端到端模型相结合的智能驾驶系统,成功了从初级决策到低级轨迹预测的结构化布局。该算法称之为Senna。并且在nuScenes数据集和DriveX大规模数据集上的少量试验也证实了Senna的SOTA布局性能。
论文链接:
网络结构&技术细节梳理
在详细引见本文提出的算法模型的网络架构细节之前,下图展现了咱们提出的Senna算法模型的全体网络结构图。
全体而言,输入的场景消息包括多视角图像序列、用户指令和导航命令。用户指令作为揭示输入到Senna-VLM中,其余指令则同时发送给Senna-VLM和Senna-E2E。Senna-VLM将图像和文本消息区分编码为图像和文本标志,而后由LLM启动处置。LLM生成初级决策,这些决策经过元举措编码器编码为高维特色。Senna-E2E依据场景消息和Senna-VLM生成的元举措特色预测最终的布局轨迹。咱们设计了一系列面向布局的QA来训练Senna-VLM,这些QA不须要人工注释,并且可以齐全经过智能标志流程大规模生成。
了解驾驶场景中的关键要素关于安保准确地启动布局至关关键。咱们设计了一系列面向布局的 QA,以增强 Senna-VLM 对驾驶场景的了解。每种类型的 QA 的细节如下图所示。用于生成这些 QA 的原始数据(例如 3D 物体检测框和物体跟踪轨迹)可以经过智能注释系统取得。此外,形容性 QA 可以由 GPT-4o 等 LVLM 生成。
Senna-VLM 由四个组件组成。视觉编码器以多视角图像序列作为输入并提取图像特色,而后由Driving Vision Adapter进一步编码和紧缩,发生图像标志。文本编码器将用户指令和导航命令编码为文本标志。图像和文本标志均输入到 LLM 中,后者预测初级决策。在通常中,咱们经常使用 Vicuna-v1.5-7b作为咱们的 LLM。最后,元举措编码器对决策启动编码并输入元举措特色。
咱们经常使用 CLIP 的 ViT-L/14 作为视觉编码器,由于多幅图像输入,造成图像 token 数量过多,不只减慢了 VLM 的训练和推理速度,还会造成模型解体和解码失败。因此,咱们引入了 Driving Vision Adapter 模块。该模块不只将图像特色映射到LLM特色空间,而且还对图像特色启动额外的编码和紧缩,以缩小图像标志的数量。详细来说,咱们驳回一组图像查问来对图像特色启动编码并输入图像标志:
其中,MHSA代表的是多头自留意力机制。
为了让 Senna-VLM 能够区分不同视图中的图像特色并建设空间了解,咱们为驾驶场景设计了一个便捷而有效的环顾揭示。以侧面视图为例,相应的揭示是:FRONT VIEW: \n image \n,其中 image 是 LLM 的不凡标志,在生成环节中将被图像标志交流。下图说明了咱们提出的多视图揭示和图像编码方法的设计。
最后,咱们提出了元举措编码器,将LLM输入的初级决策转换为元举措特色。元举措编码器经常使用一组可学习的嵌入成功从元举措到元举措特色的一对一映射,上方的公式说明了生成元举措特色的环节
随后,元举措特色将被输入到 SennaE2E 中以预测布局轨迹。
Senna-E2E 裁减了 VADv2。详细来说,Senna-E2E 的输入包括多视角图像序列、导航命令和元举措特色。它由三个模块组成:感知模块,用于检测灵活物体并生成部分地图;静止预测模块,用于预测灵活物体的未来轨迹;布局模块,经常使用一组经过留意力机制与场景特色交互的布局标志来预测布局轨迹。咱们将元举措特色集成为 Senna-E2E 的附加交互标志。由于元举措特色驳回嵌入向量的方式,因此 Senna-VLM 可以轻松与其余端到端模型结合。Senna-E2E的轨迹布局环节可以表述如下
咱们为 Senna-VLM 提出了一种三阶段训练战略。第一阶段是混合预训练,咱们经常使用单图像数据训练Driving Vision Adapter,同时坚持 Senna-VLM 中其余模块的参数不变。这样可以将图像特色映射到 LLM 特色空间。混合是支经常使用来自多个来源的数据,包括 LLaVA中经常使用的指令跟踪数据和咱们提出的驾驶场景形容数据。第二阶段是驾驶微调,咱们依据之前提出的面向布局的 QA 对 Senna-VLM 启动微调,不包括元举措布局 QA。在此阶段,经常使用环顾多图像输入而不是单图像输入。第三阶段是布局微调,咱们仅经常使用元举措布局 QA 进一步微调 Senna-VLM。
下图的试验结果展现了 Senna 在初级布局和场景形容方面的体现,并与最先进的开源 LVLM(包括 QwenVL、LLaVA 和 VILA)启动了比拟。前三行的结果是经过间接评价原始模型取得的。可以看出,经常使用预训练权重的模型在驾驶义务上体现不佳,由于它们的训练目的是面向普通了解和对话,而不是专门针对驾驶关系义务而量身定制的。
为了进一步验证 Senna 的长处,咱们还经常使用相反的训练流程在 DriveX 数据集上对这些模型启动了微调。Senna 在初级布局和场景形容方面均优于其余方法。与其余方法的最佳结果相比,Senna 将布局准确率提高了 10.44%。此外,在减速等最关键的驾驶安保决策中,F1 得分从 52.68 优化至 61.99,优化幅度达 17.67%,凸显了Senna在驾驶场景剖析和空间了解方面的出色才干。
此外,咱们在下表中展现了 Senna 在 nuScenes 数据集上的轨迹布局性能。为了启动偏心比拟,咱们用 VAD 交流 VADv2 作为端到端模型。与之前将 LVLM 与端到端模型相结合的 SOTA 方法相比,Senna 有效地将平均布局位移误差降落了 29.03%,碰撞率降落了 20.00%。为了防止与经常使用自车形态特色关系的潜在疑问,咱们还报告了未经常使用自车形态特色的结果。经过经常使用来自 DriveX 数据集的预训练权重初始化模型并在 nuScenes 数据集上启动微调,Senna 成功了最先进的布局性能。与 VAD 相比,平均布局位移误差显着降落了 40.28%,平均碰撞率降落了 45.45%。经过在 DriveX 数据集上启动预训练,而后在 nuScenes 数据集上启动微调,Senna 的性能失掉清楚增强,展现了其弱小的泛化和可转移性。
下表展现了DriveX 数据集上的轨迹布局结果。除了端到端模型 VADv2 之外,咱们还引入了两个额外的比拟模型。第一个模型将真值布局元举措作为额外的输入特色,旨在验证咱们提出的结构化布局战略的性能下限。第二个模型是咱们复现的 DriveVLM,它预测低频轨迹而不是元举措,充任 LVLM 和端到端模型之间的衔接器。
经过试验结果可以看出,应用真值布局元举措的 VADv2 成功了最低的布局误差,验证了咱们提出的结构化布局战略的有效性。预测低频轨迹作为衔接器的 DriveVLM仅比 VADv2 显示出庞大的改良。相比之下,咱们提出的 Senna 在一切方法中提供了最佳的布局性能,将平均布局位移误差大大降落了 14.27%。
在本文中,咱们提出了LVLM 与端到端模型相结合,用于结构化布局,从初级决策到低级轨迹布局的智能驾驶系统Senna,少量的试验结果证实了咱们提出的Senna算法模型的出色性能,凸显了经过基于言语的布局将 LVLM 与端到端模型相结合的后劲。