间接干到未来！浙大&amp 华为Drive

2024-11-15

写在前面 & 笔者的团体了解

环球模型基于各种自车行为预测潜在的未来形态。它们嵌入了关于驾驶环境的宽泛常识，促成了安保和可裁减的智能驾驶。大少数现有方法关键关注数据生成或环球模型的预训练范式。与上述先前的上班不同，咱们提出了Drive-OccWorld，它将以视觉为核心的4D预测环球模型运行于智能驾驶的端到端规划。详细来说，咱们首先在内存模块中引入语义和静止条件规范化，该模块从历史BEV嵌入中积攒语义和灵活消息。而后将这些BEV特色传输到环球解码器，以启动未来时辰的OCC和flow预测，同时思考几何和时空建模。此外咱们谢环球模型中注入灵敏的举措条件，如速度、转向角、轨迹和命令，以成功可控发电，并促成更宽泛的下游运行。此外，咱们探求将4D环球模型的生成才干与端到端规划相结合，从而能够经常使用基于职业的老本函数对未来形态启动延续预测并选用最佳轨迹。对nuScenes数据集的宽泛实验标明，Drive-OccWorld可以生成正当可控的4D占用，为推进环球生成和端到端规划开拓了新路径。

总结来说，本文的关键奉献如下：

基于未来形态的生成形式，现有的智能驾驶环球模型关键可分为基于2D图像的模型和基于3D体积的模型。 2D Image-based Models ：旨在经常使用参考图像和其余条件（例如举措、HDMaps、3D框和文本提醒）预测未来的驾驶视频。GAIA-1经常使用自回归Transformer作为环球模型，依据过去的图像、文本和举措标志预测未来的图像标志。其余方法，如DriveDreamer、ADriver-I、DrivengDiffusion，GenAD、Vista、Delphi和Drive-WM，经常使用潜在分散模型（LDMs）生成图像到输入视频。这些方法并重于设计模块，将举措、BEV规划和其余先验元素归入去噪环节，从而发生更连接、更正当的未来视频代。

3D Volume-based Models ：以点云或霸占的方式预测未来的形态。Copilot4D经常使用VQVAE对LiDAR观测启动标志，并经过团圆分散预测未来的点云。ViDAR成功了视觉点云预测义务，以预训练视觉编码器。UnO依据激光雷达数据预测了一个具备自我监视性能的继续霸占区。OccWorld和OccSora经常使用场景标志器紧缩职业输入，并经常使用生成变换器预测未来的职业。UniWorld和DriveWorld提出经过4D职业重建启动4D预训练。

在这项上班中经过输入举措条件来成功举措可控生成，并将这种生成才干与端到端的安保驾驶规划者相结合，从而钻研了环球模型的潜在运行。

端到端的智能驾驶模型旨在间接基于传感器输入和自我行为来控制车辆（即规划轨迹）。从方式上讲，给定历史传感器观测值和h个期间戳上的自我轨迹，端到端模型A预测了未来f个期间戳的理想自车轨迹：

驾驶环球模型W可以被视为一种生成模型，它将先前的观察和自车行为作为输入，生成环境的正当未来形态：

鉴于环球模型预测未来形态的才干，咱们倡导将其与规划器集成，以充沛应用环球模型在端到端规划中的才干。详细来说引入了一个名为Drive-OccWorld的自回归框架，该框架由一个用于预测未来职业和流动形态的生成环球模型W和一个基于职业的规划器P组成，该规划器P经常使用老本函数来基于评价未来预测来选用最佳轨迹。从方式上讲，咱们将Drive OccWorld公式化如下，它智能回归预测下一个期间戳的未来形态和轨迹：

在接上去的局部中，咱们将详细引见环球模型的结构，为W装备举措可控生成，并将其与P集成以启动端到端规划。

如图2所示，Drive-OccWorld包含三个组件：（1）历史编码器WE，它将历史相机图像作为输入，提取多视图几何特色，并将其转换为BEV嵌入。依据之前的上班，咱们经常使用视觉BEV编码器作为咱们的历史编码器。（2）具备语义和静止条件归一化的记忆队列WM，它在潜在空间中驳回便捷而高效的归一化操作来聚合语义消息并补救灵活静止，从而积攒更具代表性的BEV特色。（3）环球解码器WD，其经过具备历史特色的期间建模来提取环球常识，以预测未来的语义职业和流动。灵敏的举措条件可以注入WD，以成功可控生成。集成了基于occ的规划器P，用于延续预测和规划。

Semantic- and Motion-Conditional Normalization 旨在经过结合语义和灵活消息来增强历史BEV嵌入。

如图3所示，咱们成功了一个轻量级的预测头来生成体素语义概率：

在静止条件归一化中，咱们补救自车和其余代理在不同期间戳上的静止。详细来说，自车姿态变换矩阵（思考了自我载体从期间戳-t到+t的移动）被展平并编码到MLP处置的嵌入中，以生成仿射变换参数。

详细来说，WD将可学习的BEV查问作为输入，并执行可变形的自留意、与历史嵌入的期间交叉留意、与举措条件的条件交叉留意力以及前馈网络来生成未来的BEV嵌入。条件层在BEV查问和举措嵌入之间执行交叉留意力，这将在下一节中说明，将举措可控消息注入预测环节。在取得下一个BEV嵌入后，预测头应用通道到高度操作来预测语义占用和3D backward centripetal flow。

因为事实环球的固有复杂性，自我载体的静止形态关于环球模型了解主体如何与其环境交互至关关键。因此，为了片面涵盖环境，咱们倡导应用各种执行条件，使Drive OccWorld具备可控生成的才干。

Unified Conditioning Interface 旨在将异质举措条件整合到连接的嵌入中。咱们首先将所需的举措编码到傅里叶嵌入中（，经过额外的学习投影将其衔接和融合，以与WD中条件交叉留意力层的维度对齐。该方法有效地将灵敏的条件集成到可控的生成中。

现有的环球模型关键关注数据生成或智能驾驶的关系范式。虽然最近的一项开创性上班Drive WM提出将生成的驾驶视频与基于图像的鼓励函数相结合来规划轨迹，但环境的几何3D特色并没有齐全用于静止规划。如图2所示，鉴于咱们的环球模型提供的未来occ预测才干，咱们引入了一个基于occ的规划器，对代理和可驾驶区域的占用网格启动采样，以确定安保解放。此外，未来的BEV嵌入用于学习思考细粒度3D结构的老本量，为安保规划提供更片面的环境消息。

基于占用的老本函数旨在确保自驾车的安保驾驶。它由多个老本起因组成：（1）代理安保老本限度了自车与其余代理（如行人和车辆）的碰撞。它处罚与其余路线经常使用者占用的网格堆叠的轨迹候选者。此外，在横向或纵向距离方面与其余主体太近的轨迹也遭到限度，以防止潜在的碰撞。（2）路线安保老本确保车辆在路线上传驶。它从占用预测中提取路线规划，处罚超出可驾驶区域的轨迹。（3）学习量老本受ST-P3的启示。它经常使用基于F bev+t的可学习头部来生成老本量，从而对复杂的环球启动更片面的评价。

规划损失Lplan由三个局部组成：引入的max-margin损失，用于解放轨迹候选的安保性；用于模拟学习的l2损失；以及确保规划轨迹避开阻碍物占用的网格的碰撞损失。

Inflated Occupancy and Flow Forecasting 。表1展现了nuScenes数据集上Inflated的占用率和流量预测的比拟。虽然Drive OccWorld在时辰的结果mIoUc上体现稍差，但它在mIoUf上的体现比Cam4DOcc高出2.0%，标明其预测未来形态的才干更强。

Fine-grained Occupancy Forecasting ：表2展现了nuScenes占用率的细粒度占用预测比拟。结果标明，与一切其余方法相比，Drive OccWorld成功了最佳性能。值得留意的是，关于和未来期间戳的普通可移动对象，Drive OccWorldP在mIoU上区分比Cam4DOcc高出1.6%和1.1%，这标明它能够准确定位可移动对象以启动安保规划。图4提供了跨框架的职业预测和流量预测的定性结果。

可控性。在表3中，咱们调查了各种作用条件下的可控性。与基线变量相比，注入任何举措条件都会发生收益。值得留意的是，低水平条件，即轨迹和速度，为未来的预测提供了更大的改良。相比之下，最初级别的命令条件改善了期间戳的mIoUc结果，但对未来的预测提供了有限的增强。可以这么了解，结合更多的低级条件，如轨迹，可以为自车提供更详细的执行，以了解其与环球的相互作用，从而有效地增强未来的预测。

幽默的是，如表4所示，与经常使用预测轨迹相比，经常使用低空实在轨迹作为执行条件可以取得更好的规划结果。相反，在入住率和流量预测品质方面观察到相反的趋向。表3中第2行和第7行的比拟标明，经常使用预测轨迹而不是低空实在轨迹可以稍微提高预测品质。表1和表2中的结果进一步允许了这一观察结果，其中Drive OccWorldP的体现优于Drive OccWorldA。咱们以为，在经常使用预测轨迹时，对BEV特色施加的轨迹解放或许会造成占用率和流量品质的性能提高。这一发现标明，运行轨迹预测也可以提高感知性能，这与UniAD的结果分歧。

此外，在图5中，咱们展现了Drive OccWorld基于特定自我静止模拟各种未来职业的才干，展现了Drive OccWorld作为神经仿真为智能驾驶生成正当职业的后劲。

表5展现了与现有端到端方法相比，L2失误和抵触率方面的规划性能。咱们提供ST-P3和UniAD不同评价打算设置下的结果。详细来说，NoAvg示意相应期间戳的结果，而TemAvg则经过0.5秒到相应期间戳之间的平均性能来计算目的。

如表5所示，与现有方法相比，Drive OccWorldP成功了更优的规划性能。例如，Drive OccWorldP†在以下方面区分取得了33%、22%和9.7%的相对改善L2@1s、L2@2s和L2@3s与UniAD相比†。咱们将这一改良归因于环球模型积攒环球常识和展望未来形态的才干。它有效地增强了未来期间戳的规划结果，并提高了端到端规划的安保性和鲁棒性。

最近的钻研调查了将自车形态归入规划模块的影响。依据这项钻研，咱们还对咱们的自我形态模型和之前的上班启动了偏心的比拟。咱们的钻研结果标明，Drive OccWorld在悠远的未来期间戳依然到达了最高的性能，证实了继续预测和规划的有效性。

消融实验结果如下：

其余可视化结果：

本文提出了Drive OccWorld，这是一个用于智能驾驶的4D Occ预测和规划环球模型。灵敏的举措条件可以注入到举措可控发电的环球模型中，促成更宽泛的下游运行。基于职业的规划器与静止规划的环球模型相结合，思考了安保性和环境的3D结构。实验标明，咱们的方法在职业和流量预测方面体现出了清楚的性能。经过应用环球模型积攒环球常识和展望未来形态的才干来提高规划结果，从而增强端到端规划的安保性和持重性。

模型端到端

<<深化讨论边缘计算存在的必要性

但为什么这么强呢 Transformer的外围思解起来也不难>>

间接干到未来！浙大&amp 华为Drive

写在前面 & 笔者的团体了解

您可能还会对下面的文章感兴趣：

随便看看