协同驾驶超退化!CoDrivingLLM 大言语模型如何驱动决策框架
随着智能驾驶技术的不时提高,咱们或许正在进入一个衔接智能驾驶车辆(Connected Autonomous Vehicles, 简称CAVs)和人工驾驶车辆(Human-Driven Vehicles, 简称HDVs)共存的时代。虽然CAVs在提高交通安保和效率方面具有渺小后劲,但它们在放开路线上的体现还远未到达令人满意的水平。依据加利福尼亚州机动车控制局的报告,51%的车辆解绑是由于CAVs的决策失败形成的。此外,北京智能驾驶车辆路线测试报告提醒,高达91%的解绑事情出当初与其余车辆交互时,这标明目前的智能驾驶技术还无余以应答复杂的交互场景。为了改善这个疑问,应用CAVs的协同驾驶才干是一个较为有宿愿的方法。
针对不同场景下的协同驾驶疑问,目前盛行的方法大抵可以分为以下几种:
另一方面,近年来Transformer模型和大型言语模型(LLMs)的极速开展为成功协同决策提供了新的或许性。这些模型曾经在人造言语处置和智能体决策制订等畛域展现了渺小的后劲。在这种背景下,作者提出了一个交互式和可学习的LLM驱动的协同驾驶框架,用于全场景和全Cooperative Driving Automation(简称CDA)。
目前,CAVs在放开路线上的体现依然不是很理想。在某些场景下,CAV的意外率甚至是人类驾驶员的5.25倍,这显然不能满足人们对智能驾驶技术的希冀。而CAVs的通讯才干使其能够成功互联互通和相互协助。因此,应用协同驾驶才干是提高CAVs性能是作者以为十分有出路的方式。
CoDrivingLLM关键包括三个模块:环境模块、推理模块和记忆模块。
图2展现了CoDrivingLLM中的关键模块及其逻辑相关,包括三个关键模块:环境模块、推理模块和记忆模块。 环境模块 依据上一个时期步的CAV和HDV的举措降级场景消息,包括一切车辆的形态,如位置、速度等。接上去,作者设计了一个集中-散布式联合的LLM 推理模块 。基于SAE J3216规范定义的CDA的四个级别,作者将这个推理模块整合了四个子性能:形态共享、用意共享、协商和决策。经过联合思想链(Chain-of-Thought, COT)方法,作者将推理环节中的每个子性能顺序衔接起来,以增强决策的安保性和牢靠性。在这个环节中,每个CAV经常使用LLMs启动散布式的初级逻辑推理,成功不同级别的协同驾驶,并应用框架内的抵触协调器启动集中抵触处置,进一步提高安保性。最后,推理环节中的场景形容、抵触形容和最终决策以向量化方式存储在 记忆数据库 中。在随后的推理中,CAV可以参考最相似的过去记忆作为阅历,使设计的CAV能够在驾驶环节中不时学习和提高其才干。
环境模块包括两个子模块:
环境灵活模拟子模块 :实在环球的反应关于训练一个稳固和牢靠的协同决策模型至关关键。为了确保模拟的实在性和牢靠性,作者在环境灵活模块中思索了一个混合人智能驾驶环境,引入不受控制的人工驾驶车辆,为协同驾驶框架发明愈加事实的背景交通流。这些不受控制的车辆不介入协同驾驶义务,象征着它们不共享它们的用意,并仅基于它们自己的决策逻辑运转。鉴于IDM(Intelligent Driver Model)和MOBIL(Minimizing Overall Braking Induced by Lane changes)的联合被宽泛用于表征人类驾驶行为,并且在交叉口、环形交叉口和兼并区域等各种场景中都显示出良好的结果,作者区分应用IDM和MOBIL来代表HDV的纵向和横向行为。HDV的减速度由IDM给出,如下所示:
基于模型的控制执行子模块 :虽然LLMs具有弱小的推理才干,但它们在准确的数学计算和低级车辆静止控制方面体现不佳。为了处置这个疑问,作者设计了一个基于模型的控制执行子模块。在这个模型中,作者经常使用基于模型的方法将推理模块的语义输入转换为减速度和前轮角度,而后用于降级车辆在下一个时期步的位置、速度和其余消息。详细来说,减速度和前轮角度都由相对便捷的比例控制器控制,计算公式如下:
作者构建了一个集成的推理模块,从形态共享到用意共享、协商,最终决策。该模块以思想链的方式运作,首先从环境中提取周围车辆的消息以创立场景形容。而后,它将车辆的形态组织成抵触对,构成抵触形容。为了确保在抵触时期车辆决策的分歧性并防止碰撞,作者开发了一个基于LLM的抵触协调器。该协调器将的抵触形容与交通规定联合起来,确定每个抵触组的优先级顺序。最后,每个CAV依据抵触协调器的倡导和自己的情境形容做出决策。
State-perception :形态感知性能担任失掉和处置应前环境的消息,包括灵活数据,如车道消息和车辆消息。CAV被准许与他人替换消息,因此为后续更初级别的CDA铺平了路线。形态感知性能可以构建一个完整准确的驾驶环境识别,为后续推理提供牢靠的基础。
Intent-sharing :用意共享性能,传播车辆驾驶用意给其余CAV,是协同驾驶的一个关键长处。从微观到微观,驾驶用意关键包括共享预期车道和预期速度。经过用意共享,其余车辆可以更好地理解自我车辆的用意,使它们能够在防止抵触的同时做出决策。
Negotiation :作者设计了一个抵触协调器来处置抵触,并成功寻求共识的协作。抵触协调器识别环境中一切潜在的抵触,并依据所触及两辆车的形态评价每个抵触的严重水平。为了量化抵触的严重水平,以时期差作为代替目的定义为:
抵触协调器依据抵触的严重水平确定每对抵触车辆的通行顺序。在此环节中,交通规定和驾驶环节中的社交规范同时被抵触协调器思索。例如,如图1所示,依据交通规定,转弯车辆应该让直行车辆后行。因此,在协商后,抵触协调器确定CAV2应该在这组抵触中让行。协商结果和要素被发送到决策性能以做出最终决策。但是,须要留意的是,协商结果是倡导性的,最终决策还取决于自我车辆周围环境的其余要素。
日常生存中,新司机经过继续的驾驶通常积攒阅历,评价不同行为的效果,并从中学习以提高驾驶技艺。自创这一机制,作者引入记忆模块,使CAV能够从过去的阅历中学习,并应用这些知识启动未来的互动。这一环节也被称为检索增强生成(RAG)。RAG赋予LLMs访问特定畛域或组织内的知识数据库的才干。这种才干准许在不须要模型从新训练的状况下,经济高效地改良LLM输入,确保在处置特定畛域疑问时的相关性、准确性和适用性。详细来说,设计的记忆模块蕴含两个关键性能:记忆增强和记忆检索。
记忆增强 :记忆增强性能评价CAV在前一个场景中的行为影响,以确定这些行为能否加剧了抵触。假设CAV的行为造成风险参与,系统会发生负面反应,例如:“你的行为加剧了抵触;应防止采取相似执行。”这种反应机制在场景、行为和结果之间建设了咨询,将这些映射存储在记忆数据库中以供未来参考。在每次调用LLM启动推理之前,从记忆数据库中检索与场景最相关的记忆以增强提醒,从而防止重复过去的失误。
记忆检索 :随着互动数量的参与,记忆数据库将累积泛滥过去的阅历。将一切记忆作为提醒输入会造成冗余,使得CAV在推理环节中难以提取关键消息。为了处置这个疑问,驳回记忆检索性能,在应用记忆指点推理之前,从数据库中提取与场景最相关的记忆。详细来说,场景形容和抵触形容被转换为向量方式,并经常使用余弦相似度依据它们与场景的相关性对库中的记忆启动排名。排名靠前的记忆随后被选为CAV推理的提醒的一局部。这些相似的记忆,被称为大批体验,被注入到CAV的推理模块中,使CAV能够从过去的失误中学习。记忆模块的引入不只提高了CAV在复杂环境中的决策才干,而且赋予了相似人类的继续学习才干。经过不时从过去的阅历中学习,CAV能够更好地顺应灵活环境,提高驾驶安保性,缩小交通意外,提高其在事实环球运行中的牢靠性和适用性。
仿真环境 作者基于highway-env开发了环境模块。设计了三种场景来启动试验,如图4所示,包括四车道高速公路场景、兼并场景和单车道无信号交叉口。高低文交通流和HDV的设置遵照作者框架的环境模块的说明。
试验细节 作者经常使用GPT-4o mini作为基础LLM模型,启动上档次的逻辑思索和判别。每个模拟环境中控制四个CAV。此外,一切不同设置的场景都重复20次,经常使用不同的随机种子以取得最终结果。成功率被用作评价一切方法性能的目的。在一个案例中,假设一切CAV都能安保地成功驾驶义务并抵达目的地,则该案例成功。成功率示意成功案例数与总案例数的比率。
经过共享形态和用意,协作驾驶可以提供额外的消息,协助抵触方协调他们的决策。为了成功这一点,作者在推理环节中引入了一个协商模块。经过建设一个LLM驱动的抵触协调器,将交通规定和场景形容整合在一同,以发生倡导的交迟滞序来协助最终决策,从而提高交互才干。为了验证抵触协调器在提高交互才干方面的有效性,作者启动了消融试验,比拟了CoDrivingLLM在各种场景下有无协商模块的成功率。此外,作者还选取了一个案例来剖析协商性能如何提高安保性。
如图5所示,在高速公路场景中,有无协商模块并不影响协作驾驶的性能,由于作者的方法一直成功了100%的成功率。作者将其归因于高速公路场景中缺乏严重的交互抵触,协商模块没无时机有效干预。但是,在兼并和交叉口场景中,协商模块清楚提高了决策的成功率。在这两种类型的场景中,车辆之间无法防止地会出现抵触,只要他们的决策分歧,才干防止碰撞。详细来说,在兼并场景中,CAV决策的成功率从33%提高到75%,在交叉口场景中,成功率从15%回升到78%。协商模块在交叉口场景中影响最大,由于交互的复杂性和交通抵触的密度远高于其余两种场景。这标明作者的协商模块有效地处置了复杂的交通抵触和交互场景,是全体协作驾驶框架的关键组成局部。
记忆模块旨在使CAV能够从过去的阅历中学习,防止重复过去的失误。作者也做了记忆模块的消融试验。他们比拟了在0次、2次和5次阅历(shots)下,CoDrivingLLM在不同场景中的性能。这里的"shots"指的是在推理前向模型注入最相似过去阅历的次数。在高速公路场景中,由于车辆抵触和交互应战较少,即使不经常使用记忆模块,CoDrivingLLM也能到达100%的成功率,且2次和5次阅历的参与对成功率没有影响。在兼并和交叉口场景中,从0次阅历参与到2次阅历时,决策成功率清楚提高,兼并场景从78%增至90%,交叉口场景从75%增至85%。但是,当阅历从2次参与到5次时,性能略有降低。这标明过多的记忆或许并不总是增强LLM的决策才干,适量的重复或高价值记忆或许会占用LLM的高低文窗口,降低其关注其余相关感知消息的才干,从而或许发生负面影响。所以作者以为,记忆模块为CoDrivingLLM提供了学习成效,经过继续从阅历中学习,CAV能更好地顺应灵活环境,提高驾驶安保性,缩小交通意外,参与事实运行的牢靠性和适用性。
作者选用在无信号交叉口场景下做对比试验,对比包括基于优化的方法(iDFST)、基于规定的方法(Cooperative game)和基于学习的方法(MADQN)。
全体性能 作者总结了每种方法的成功率。依据表I中的数据,CoDrivingLLM的体现优于其余方法,到达了90%的成功率。iDFST和Cooperative Game方法略逊一筹,都到达了85%的成功率。
安保评价 作者对各种方法启动了片面的安保性剖析,经常使用了交通工程中公认的安保性参数PostEncroachment Time (PET)。这一目的有效地量化了车辆在复杂交通场景中的安保性和交互强度。依据图9和表I中的结果,iDFST方法和CoDrivingLLM体现都很杰出,平均PET值区分为15.1秒和10.3秒。同样,MADQN和Cooperative方法的PET值区分为5.7秒和3.7秒,标明在交通环境中的决策交互中存在更高的风险。此外,PET值较低象征着存在更高的安保风险。通常,PET值小于1.5秒示意应防止的严重抵触。依据图9,所提出的CoDrivingLLM的PET散布关键集中在1.5秒以上。虽然MADQN的PET散布也没有低于1.5秒的值,但思索到其成功率仅为20%,存在少量的碰撞。因此,CoDrivingLLM在安保性方面体现最佳。
效率评价 作者还经常使用游览速度评价了一切方法的效率。如表I所示,MADQN在测试时期到达了最高的平均速度6.1 m/s。但是,这种效率是以就义安保性和全体性能为代价的。iDFST方法在安保性和成功率方面体现良好,但驾驶效率低下,适度低速行驶造成平均速度仅为4.1 m/s。虽然基于规定的方法在安保性方面体现良好,但其低效率不时是普遍存在的疑问。相比之下,CoDrivingLLM在安保性和效率之间取得了平衡,坚持了5.7 m/s的高平均速度,同时确保了安保性。总之,CoDrivingLLM有效地平衡了安保性和效率,成功了最佳的全体性能,清楚展现了其优越性。