大型言语模型与自动机器人集成的调查钻研

2024-11-15

摘要 :近年来，大型言语模型（LLMs）的集成曾经彻底扭转了机器人学畛域，使机器人能够以相似人类的熟练水平启动交换、了解和推理。本文讨论了LLMs对机器人学多方面的影响，处置了应用这些模型在各个畛域的关键应战和机会。经过将LLM运行归类并剖析在机器人学的外围要素——通讯、感知、布局和控制中，咱们旨在为寻求将LLM集成到他们的机器人系统中的钻研者提供可行的见地。咱们的钻研重点放在GPT-3.5之后开发的LLMs上，关键在基于文本的模态中，同时也思考了用于感知和控制的多模态方法。咱们为提醒工程提供片面的指点方针和示例，以促成初学者接触基于LLM的机器人处置方案。经过教程级别的示例和结构化的提醒构建，咱们展现了如何将LLM疏导的增强性能无缝集成到机器人运行中。本调查作为钻研人员导航LLM驱动的机器人学始终开展的畛域的路途图，提供了一个片面的概述和适用指南，以应用言语模型在机器人学开发中的力气。

1 引言

在过去的十年中，咱们在运行言语模型（LMs）的机器人学畛域见证了清楚的提高。这一停顿不只包括相似人类的交换，还包括机器人的了解和推理才干，从而清楚提高了它们在各种义务中的有效性，从家务到工业操作[52, 105]。在上班的早期阶段，成功源于统计模型剖析和预测言语表白中的词汇。这些模型使机器人能够解释人类命令[110, 121]，了解高低文[2, 4]，代表环球[50]，以及与人类互动[134]，虽然了解的深度有限。而后，驳回具有自留意力机制的Transformer架构[140]，特意是像BERT这样的预训练LMs[26]，提高了捕捉复杂形式的才干，同时为特定义务微调模型。但是，这些模型的性能经常取决于有限的数据集，限度了它们对更深档次高低文了解的掌握和在多样化场景中的泛化才干。

随着大型言语模型（LLMs）的提高，基于言语的机器人学在各个畛域引入了翻新性的变动，如消息检索、推理义务、顺应环境、继续学习和改良等[61, 64]。这些LLMs的特点是它们庞大的参数规模和在互联网规模数据集上的训练，为下游义务提供了零样本和少样本学习的才干，而无需额外的参数降级。

这些清楚的提高来自于文献[147]中定义的“在小模型中不存在但在大模型中出现的”新兴才干。这些才干清楚提高了机器人经过应用宽泛的知识知识[8]来了解、推断和照应开明式指令的性能。此外，称为提醒工程的提醒创立技术，使LLMs能够经过自在方式的言语形容或交互式对话归入更丰盛的高低文消息，促成了泛化推理[148]。引入的高低文学习才干[8]使LLMs能够基于提醒中提供的指令或演示生成预期格局的输入，如JSON、YAML或PDDL，甚至代码[42, 87]。最近的LLMs，如GPT-4，经过与外部机器人工具（如布局器或翻译器）[90]集成，进一步扩展了才干。

虽然LLMs具有多样化的才干，它们的经常使用面临着几个应战[69]。首先，LLMs经常生成不准确或异常的照应。由于机器人执行的安保性是最关键的部署起因，基于LLM的机器人运行须要过滤和纠正机制以确保安保。其次，像高低文学习这样的新兴才干尚未可预测和分歧[19]。即使是输入文本的庞大变动也或许造成照应的无法预测变动。第三，精心设计的提醒使机器人能够有效地应用LLMs的才干，但不足支持机器人系统关键组件的系统指点方针，阻碍了无缝集成[35, 54, 164]。因此，咱们须要对机器人学中LLM的介入启动一一组件的调查，以了解限度和安保性。

目前，各种调查曾经开局探求大型言语模型（LLMs）和机器人学的交叉点[141, 164]，关键关注基于LLM的机器人学的运行或交互维度。但是，在提供片面审查和将LLMs集成到机器人系统的关键要素——包括通讯、感知、布局和控制——的可行见中央面，依然存在差距。此外，钻研人员探求了宽泛的预训练大容量模型畛域，这些模型被称为基础模型，寻求在多模态基于Transformer的模型中的泛化才干[35, 54]。但是，这个宽泛的畛域涵盖了机器人学的宽泛范围和多样化的方法论，使得新兴钻研人员错过了深化的审查和指点方针。

在本文中，如图1所示，咱们的目的是分类并剖析LLMs如何增强机器人系统的外围要素，以及咱们如何指点新兴钻研人员在每个畛域内集成LLMs，包括通讯、感知、布局和控制，以开展自动机器人。咱们依据三个关键疑问构建本文：

• Q1: LLMs在每个机器人学畛域如何被应用？

• Q2: 钻研人员如何克制LLMs集成的局限性？

• Q3: 发生每个畛域中最小性能所需的基本提醒结构是什么？

为了回答这些疑问，咱们专一于GPT-3.5引入后开发的LLMs[106]。咱们关键思考基于文本的模态，但也回忆了感知和控制畛域的多模态性。但是，为了启动深化审查，咱们将调查限度在LLMs上，而不是基础模型。

此外，咱们为提醒工程提供了片面的指点方针和示例，旨在使初学者能够接触基于LLM的机器人处置方案。咱们的教程级示例说明了如何经过引入四种类型的示例提醒来增强或代替机器人组件的基本色能：对话提醒用于交互性基础，指令提醒用于场景图生成，布局提醒用于少样本布局，以及代码生成提醒用于处罚生成。经过提供提醒构建的规则和技巧，咱们概述了生成设计良好的提醒以发生所需格局的输入的环节。这些准则确保了在机器人运行中有效的LLM疏导增强，而无需参数调整。

本文的其他局部组织如下。第2节概述了机器人学中LMs和LLMs的历史背景。第3节回忆了LLMs如何经过言语了解和生成使机器人能够启动通讯。第4节调查了LLMs如何感知各种传感器模态并推动感知行为。第5节和第6节区分组织了基于LLM的布局和控制钻研。在第7节，咱们为提醒工程提供了片面的指点方针，作为LLM集成到机器人学的终点。最后，第8节总结了这项调查。

2 初步

咱们简明回忆言语模型，分为两个局部：LLM出现前后。与以往文献[164]中的概述不同，咱们将LM（言语模型）的时期——即LLM（大型言语模型）出现之前，限定在神经言语模型开局被经常使用的时期段，这一时期从循环神经网络(RNNs)[33]的引入开局，直至诸如GPT-2[115]这样驳回Transformer架构的模型问世。同时，咱们也对LLMs启动了简明说明，并触及到相关的术语和技术。

2.1 机器人学中的言语模型

基于LM的机器人学钻研关键探求了神经言语模型，用于序列数据处置。在早期阶段，基于RNN的LM[23, 46]应用RNN的序列到序列建模才干，将言语命令转换为一系列举措[6, 100]或方式言语[40]。经常使用RNN作为言语编码器，LMs还将文本输入转换为言语特色，而后可以将其映射到视觉特色以启动指代表白对象识别[121, 125]。但是，RNN中的常年依赖疑问限度了它们的运行范围。随后，Transformer架构[140]的引入克制了这些限度，使其能够运行于须要常年了解的义务，例如视觉-言语导航[14, 16]。先前的方法严重依赖训练数据集，降落了泛化才干。但是，基于Transformer的模型的可扩展性和自监视学习技术，如掩蔽言语建模，造成了互联网规模预训练模型的开展，如BERT[26]或GPT-2[115]。这些预训练模型展现了通用的言语了解才干。这一提高准许对这些模型启动特定义务的微调[74, 75, 124]。此外，经常使用预训练的多模态言语模型，如CLIP[116]，有助于应用跨模态对齐的特色，如视觉和言语，丰盛了在机器人钻研中的运行[76, 126]。

2.2 机器人学中的大型言语模型

最近在LLMs方面的停顿，如GPT-3[8]、GPT-4[107]、LLaMA[136]、Llama 2[137]和Gemini[39]，无了解、高低文感知、泛化才干和知识丰盛性方面取得了清楚提高，逾越了早期的言语模型。这些提高来自于它们在数十亿规模参数的庞大数据集上的训练，使它们能够捕捉到复杂的数据形式。此外，还开发了先进的学习战略，如从人类反应中启动强化学习，以使LLMs的行为与人类价值观或偏好坚持分歧[108]。

另一方面，提醒工程，应用高低文学习（ICL）[8]，代表了另一个严重停顿，准许LLMs在没有额外训练的状况下直接从提醒中学习。提醒工程的有效性取决于提醒的设计和品质，包括详细的义务形容、少样本示例或更多模型可消化的格局（例如，###作为中止符号[167]）。此外，思想链（CoT）提醒方法[148]出现了，将两边推理步骤归入提醒中，造成复杂推理义务的清楚增强。正在启动的钻研致力进一步提高LLMs的推理才干，如思想树[160]或思想图[5]的开展。

另一方面，各种基于LLM的机器人学钻研曾经尝试直接训练LLMs[7, 170]。但是，完整的微调，即在特定义务数据上训练整个模型，不只计算老本高昂，而且由于它们的大规模参数，取得足够的数据也很低廉。为了处置这些疑问，钻研人员开发了参数高效的微调方法，如适配器——拔出到LLM的每层中的小型、可训练网络，用于特定义务的调整[49]，和LoRA[51]，它对每层中降级的矩阵施加低秩解放。LLMs在这些方面的开展清楚影响着机器人学，为在机器人系统内更深化地探求LLM运行奠定了基础。

3 通讯

咱们钻研了LLMs的经常使用，以促成机器人学中相似人类的通讯，使机器人能够有效地与人类和其他机器人代理启动交互[98]。咱们将通讯才干分为两个关键畛域：（1）言语了解；（2）言语生成，如图1所示，该图显示了详细的分类以及相关钻研，用绿色单元格援用。

图1：本调研中综合了LLMs的自动机器人学钻研概览结构。最右侧的单元格展现了每个类别中代表性的称号（例如，方法、模型或作者名）。

3.1 言语了解

咱们回忆了言语了解才干，讨论了LLMs如何经过解释和基础化处置言语输入的变同性和歧义性。

解释触及将人造言语输入转换为机器人可操作的语义示意，范围从方式言语，如线性时序逻辑（LTL）[94, 159]和布局畛域定义言语（PDDL）[18, 42, 90, 154]，到编程言语，如Python[56, 76]。为了协助解释自在方式的句子，钻研人员应用LLMs的高低文学习（ICL）才干，在提醒中提供指点和示例[56, 76, 90, 122]。虽然做出了致力，LLMs在将输入转换为方式言语时经常无法满足语法或捕捉准确的语义。处置方案包括简化词汇或经常使用畛域无法知数据微调LLMs[94, 159]。翻译系统，如Lang2LTL[92]，展现了LLMs如何将导航命令中的地标援用表白式翻译成LTL符号。进一步的改良通常触及经常使用人类反应和语法审核器来纠正生成的方式言语翻译[18, 42]。例如，Guan等人[42]提出了一个循环中的人类翻译框架，人类畛域专家重复审查PDDL形容并用人造言语提供反应。

（注释：假定你有一个机器人助手，它能够了解人类的言语并执行义务。但是，为了让机器人能够了解并执行复杂的义务，你须要将人类说的话转换成机器人能够了解的“言语”。这种“言语”可以是一些特意的方式言语，比如线性时序逻辑（LTL）或许布局畛域定义言语（PDDL），也可以是编程言语，比如Python。

为了让机器人助手更好地理解咱们说的话，钻研人员应用了一种叫做大型言语模型（LLMs）的技术。这些模型能够依据高低文来学习并了解言语，就像咱们学习新词汇一样。钻研人员会在提醒中参与一些指点和例子，协助这些模型更好地理解咱们的话。

但是，即使有了这些协助，机器人助手在把咱们的话转换成它们能了解的方式言语时，有时刻还是会出错，比如语法不对或许意思了解得不够准确。为了处置这个疑问，钻研人员想出了一些方法，比如简化咱们经常使用的词汇，或许用一些不凡的数据来调整模型，让它更好地顺应特定的畛域。

还有一些专门的系统，比如Lang2LTL，它们能够把咱们说的话中的一些特定表白转换成LTL符号，这样机器人就能更好地理解咱们的导航命令。

为了让机器人助手更准确地理解咱们的话，钻研人员还会用到人类的反应。比如，他们会请一些畛域内的专家来审核机器人助手生成的代码，而后用人造言语提供反应，协助改良模型。

举个例子，Guan等人提出了一个系统，在这个系统中，人类专家会重复审核PDDL的形容，并用人造言语提供反应，这样机器人助手就能始终学习和改良，更好地理解咱们的话。）

基础化是将言语表白映射到机器人可识别的参照物，如行为或对象。早期钻研经过最大化LLM输入的词嵌入与理想环球参照物之间的余弦相似度来找到映射[58, 76, 94, 117]。随后的钻研联合了LLMs的知识知识，为物体的言语标签基础化提供高低文支持[41, 118]。例如，Guan等人[41]展现了LLMs如何依据咱们知道的大小和重量假定，将“用作纸镇的东西”基础化到一个陶瓷花瓶上。但是，基础化的准确性取决于环球模型的细节和准确性。为了处置这个疑问，钻研人员经过多模态才干增强LLMs，直接将言语输入与感官感知相关联[31, 47, 114, 158]，或使LLMs能够与环境[157, 168]或人类[61, 109, 120]启动交互以更好地搜集高低文。例如，3D视觉基础化方法，LLM-Grounder[157]，经常使用视觉工具，如LERF[72]和OpenScene[111]，踊跃搜集环境消息。

（注释：基础化就是教机器人了解咱们说的话，并将这些话与它能够识别的事物或举措咨询起来。比如，当咱们说“拿起杯子”，机器人须要知道“杯子”是什么，以及“拿起”这个举措象征着什么。

在早期钻研中，钻研人员尝试经过比拟机器人外部的词汇（词嵌入）与实在环球中的事物之间的相似度来教机器人了解言语。他们用一个叫做“余弦相似度”的方法来权衡这种相似性，就像咱们用尺子量东西一样，看看机器人的了解和理想环球有多凑近。

起初，钻研人员发现，除了比拟相似度，还可以应用机器人的**知识知识**来协助了解言语。比如，咱们知道纸镇通常不会太重，所以当咱们说“用作纸镇的东西”，机器人可以推断出这或许是一个轻的、可以用来压纸的东西，比如一个陶瓷花瓶。

但是，机器人了解言语的准确性还取决于它对环球的了解有多深化。为了提高这种准确性，钻研人员开局给机器人参与更多的才干，比如让它能够处置多种类型的消息（多模态才干），或许让它能够直接经过感官（比如视觉、听觉）来了解咱们的话。

还有一些方法让机器人能够更好地与环境互动，或许与人类交换，从而搜集更多的高低文消息，协助它更好地理解咱们的言语。

例如，有一个叫做LLM-Grounder的方法，它经常使用视觉工具来协助机器人了解咱们的话。这些工具可以像照相机一样捕捉周围环境的消息，协助机器人更准确地理解咱们提到的物体。）

3.2 言语生成

言语生成指的是发生反映交换用意的相似人类书面或行动言语[38]。咱们依据它们的交换用意，将言语生成分类为义务依赖型和义务非依赖型，这与传统的人造言语生成（NLG）类别（文本到文本和数据到文本）[30]不同，由于咱们关注的是钻研的交换目的。

义务依赖型言语生成专一于发生具有特定性能目的的言语，无论是陈说性的还是命令性的。为了生成开明式的陈说性语句，钻研人员经常向LLMs提供高低文消息[20, 62, 97]。但是，LLMs经常发生重复和理想不分歧的输入，受限于依赖先前的对话和知识知识[20, 84]。因此，钻研人员经过辅佐知识源增强LLMs，以扩展可用消息的范围[3, 21, 156]。例如，Axelsson和Skantze[3]经过知识图谱增强了一个机器人博物馆向导。此外，钻研人员指点LLMs经过生成恳求人类协助的命令性指令来廓清歧义[25, 61]。为了改良推理步骤，引入了概率模型来评价状况的不确定性[109, 120]。例如，KnowNo[120]和CLARA[109]交互系统区分评价置信度和语义差异，仅当这些目的标明清楚的不确定性时才触出现成。

（注释： 义务依赖型言语生成 就是让机器人或许计算机系统能够依据特定的目的来说出有用的话。这可以是便捷的陈说，比如说出一些理想，也可以是收回命令，通知他人要做什么。

钻研人员为了让机器人能够生成开明式的陈说性语句，比如形容一个场景或许讲述一个故事，通常会给机器人一些背景消息，协助它更好地理解和生成言语。

但是，机器人在生成言语的时刻或许会遇到一些疑问，比如它会重复说雷同的话，或许说出一些与理想不符的内容。这关键是由于机器人生成言语的时刻，往往依赖于它之前听到或许“记住”的对话，以及它所具有的一些知识。

钻研人员还会教机器人在遇到不确定的状况时，向人类求助。比如，假设机器人不确定某个消息能否正确，它可以恳求人类来协助确认。

此外，为了提高机器人的推理才干，钻研人员还会经常使用一些概率模型来评价状况的不确定性。这就像是给机器人一个“信念计”，协助它判别自己生成的言语有多牢靠。

例如，有两个交互系统叫做KnowNo和CLARA，它们可以经过评价置信度和语义差异来判别机器人生成的言语能否足够牢靠。假设这些目的显示不确定性很大，那么机器人就会选用不生成言语，或许再次恳求人类的协助。）

义务非依赖型言语生成触及制造具有社交情感目的的表白[11]，经过在提醒中嵌入非言语线索（例如，非言语声响、手势和面部表情）来增强介入度和同理心[73, 81]。例如，Khoo等人[73]开发了一个会话机器人，经常使用转录的音频和视觉线索生成同理心照应。但是，与LLMs的对话依然外表化，由于知识和对话历史有限[65]。为了克制这一点，钻研人员将记忆模块集成到LLMs中，使它们能够以结构化格局从对话中提取和存储消息[22, 63, 65, 162]。例如，Irfan等人[65]设计的一个伴侣机器人，依据与用户的互动始终降级机器人的记忆，以生成共性化的对话。

（注释：义务非依赖型言语生成是一种让机器人或计算机系统生成言语的技术，这种言语不是用来成功特定义务的，而是用来启动社交和表白情感的。就像咱们和好友聊天时那样，不是为了成功某项上班，而是为了增进彼此的感情和了解。

为了让机器人在对话中愈加人造和有人情趣，钻研人员尝试在机器人的提醒中参与一些非言语的线索，比如声响的语调变动、手势或许面部表情。这样做可以让机器人的交换愈加活泼，更有同理心，就像人类在交换时那样。

举个例子，Khoo等人开发了一个会话机器人，它可以经过听人谈话的声响和看人的面部表情来做出更有同理心的回应。

但是，机器人和人的对话往往还是显得比拟浮浅，由于机器人的知识有限，而且它记得的对话内容也不多。为了处置这个疑问，钻研人员开局在机器人的言语模型中参与记忆模块。这些记忆模块可以协助机器人从对话中提敞开息，并且像记笔记一样把它们存起来。

举个例子，Irfan等人设计了一个伴侣机器人，它会依据和用户的互动始终地降级自己的记忆，而后用这些记忆来生成愈加共性化的对话，让对话更有深度，更贴近用户的实在感触。

总的来说，这段话讲的是如何让机器人在社交和情感表白方面做得更好，经过参与非言语线索和记忆模块，让机器人的对话愈加人造和有人情趣。）

4 感知

感知在使机器人能够做出决策、布局执行和导航实在环球中起着至关关键的作用[113]。在基于LLM的机器人感知畛域，钻研关键集中在两个方面： 感知模态和行为 。在本节中，咱们引见了基于LLM的机器人如何将言语与感知模态集成，以及代理如何经过主动和主动感知行为失掉环境消息。图1展现了详细的分类以及相关钻研，用粉色单元格援用。

4.1 感知模态

钻研人员经过集成多模态言语模型清楚提高了机器人的了解和泛化才干。咱们将关键的感知模态分类为视觉、听觉和触觉模态，回忆了应用多模态LLMs启动感知义务的最新钻研。

视觉感知义务触及对图像或点云等视觉消息的解释。预训练的视觉-言语模型（VLMs），如CLIP[116]和InstructBLIP[83]，准许基于LLM的机器人直接应用图像源。例如，最近的基于LLM的操作系统，如TidyBot[151]和RoCo[97]，经常使用从CLIP和OWL-ViT[101]生成的图像推断对象标签或场景形容。此外，钻研人员经过在下游义务上运行VLMs，如图像字幕[41]和视觉问答（VQA）[36, 79, 104]，扩展了推理才干。这些下游义务使LLMs能够随后恳求VLMs推断对象属性（例如，资料、易碎性）[36]或为抓取接地对象局部[104]。但是，图像通常难以失掉空间几何消息。

（注释：钻研人员正在让机器人变得更痴呆，他们用“多模态言语模型”的技术来协助机器人更好地理解和处置不同类型的消息。这些消息包括咱们能看到的（视觉消息）、能听到的（听觉消息）和能触摸到的（触觉消息）。

视觉感知义务就是让机器人经过看东西来了解周围环球。比如，机器人可以经过看一张图片来知道图片里有什么，或许出现了什么。

钻研人员用了一些特意训练的模型，比如CLIP和InstructBLIP，这些模型就像是机器人的“眼睛”，协助它们了解图像。有了这些模型，机器人可以直接经常使用图像消息来做义务。

比如TidyBot和RoCo，它们可以用CLIP和另一个叫做OWL-ViT的模型来了解图像，而后通知机器人图片里有哪些东西，或许形容图片里的场景。

钻研人员还用这些视觉模型来做更复杂的义务，比如给图片配上文字（图像字幕），或许回答关于图片的疑问（视觉问答，VQA）。这些义务让机器人能够更深化地理解图片，比如猜想一个物体是什么资料做的，或许判别它能否容易碎。

但是，这些模型也有局限性，比如它们很难从图片中失掉物体的准确形态和空间位置消息，这就是所谓的“空间几何消息”。）

另外，Huang等人[56]未来自VLM（即，LSeg[82]）的视觉-言语特色与三维（3D）点云关联起来，用于3D地图重建。进一步地，Jatavallabhula等人[66]经过引入来自VLMs的细粒度和像素对齐特色，改良了与RGB-D图像的关联机制。但是，与3D消息的关联往往是内存密集型的，限度了大型场景的可扩展性[56, 66, 157]。作为代替处置方案，钻研人员经常将几何和语义特色与3D场景图关联起来[41]。

听觉感知触及声响的解释。基于LLM的钻研经常应用预训练的音频-言语模型（ALMs），如AudioCLIP[43]和Wav2CLIP[150]，将它们与视觉数据集成以增强环境或高低文了解[55, 95, 123, 163]。例如，AVLMaps[55]，一个具有交叉模态消息的3D空间地图结构器，将音频、视觉和言语信号集成到3D地图中，使代理能够经常使用多模态目的启动导航，例如“在冰箱的图像和冲破玻璃的声响之间移动”。此外，REFLECT[95]，一个用于总结机器人缺点的框架，将多感官观察结果（如RGB-D图像、音频剪辑和机器人形态）转换为文本形容，以增强基于LLM的缺点推理。

触觉感知触及接触消息的解释。钻研人员引入了多模态感知模块，这些模块交互式地联合了从预约义的初级形容[168]或基于CLIP的触觉图像特色[48]取得的触觉特色。例如，MultiPLY[48]，一个多感官LLM，将触觉传感器读数转换为由CLIP编码的热图。而后，经过引入一个线性层的触觉投影器，该模型将热图消息映射到LLMs的特色空间。

4.2 感知行为

依据感知行为的类型，咱们将本节合成为主动和主动感知。主动感知是指在不踊跃寻觅的状况下搜集感官消息的环节。虽然其有限，主动感知已在基于LLM的机器人钻研中宽泛用于各种义务：对象识别[36, 53, 151]、姿态预计[104, 155]、场景重建[41, 59, 122, 122]和对象接地[66, 143, 157]。例如，TidyBot[151]从仰视图中检测最近的物体，而后经常使用机器人相机捕捉的更近的视图识别其对象类别。但是，感知的主动性质限度了在消息未观察或无法用时执行义务的才干（例如，看不见的区域、重量）。

另一方面，主动感知指的是经过采取额外的执行无看法地搜集感官消息的环节。经过感官观察或恳求用户反应[79, 129]失掉新消息，主动消息搜集增强了对环境的了解。例如，LLM-Planner[129]生成寻觅举措，如“翻开冰箱”以定位无法见的物体。最近的钻研还专一于搜集感官数据，以更好地理解物体的物理属性[48, 168]。但是，LLMs经常生成不准确或虚拟的消息，称为幻觉。为了处置这个疑问，Dai等人[25]引入了一个共性化的会话代理，旨在征询用户不确定的消息。

5 布局

布局触及组织执行以处置给定疑问，通常经过生成一系列初级符号操作符（即义务布局）而后经常使用低级电机控制器执行它们[37, 85]。本节调查了基于LLM的布局钻研如何经过将它们归类为三个关键钻研畛域来处置布局畛域的局限性：（1）义务布局，（2）静止布局，和（3）义务和静止布局（TAMP）。图1展现了详细的分类以及相关的布局钻研，用紫色单元格援用。

5.1 义务布局

基于LLM的义务布局器能够在没有严厉符号定义的状况下生成方案[58]，而传统的义务布局器须要预先定义操作符，这些操作符具有关于可用执行和解放的畛域知识[34, 99]。在这一畛域，大少数布局器驳回静态布局战略，它驳回不随环境变动而顺应的固定形容[163]。但是，自顺应布局的代替方法准许将环境反应归入输入提醒中，依据观察到的条件调整执行。本节依据这两种战略：静态布局和自顺应布局，审查基于LLM的布局器。

静态布局： 静态布局方法是普通的零次或少次预测方法，其中零次方法仅基于输入命令生成方案，而少次方法应用从有限的相似示例中学习[9, 27, 70, 163]。但是，由于推理才干有限，LLMs在常年义务布局中的体现往往不佳[90, 139]。为了处置这一局限性，Huang等人[58]引入了一个布局器，该布局器迭代选用LLMs生成的可执行操作中最或许的执行。另外，基于LLM的代码生成器，如Code as Policies[87]或ProgPrompt[128]，发生造成顺应性执行的代码，以照应观察结果[56, 57]。Singh等人[128]证实，代码生成优于LLMs的基转义务布局，由于输入方案与执行环境严密对齐。虽然它们有长处，但这些方法不足验证和从新布局环节。

为了验证方案，钻研人员经常将LLMs与逻辑程序相联合，要么（1）审核结果方案能否违犯逻辑解放，要么（2）经常使用外部逻辑布局器生成方案。例如，SayPlan[118]，一个基于GPT4的布局器，经过场景图模拟器3DSG[1]验证形象级别执行，而LLM+P[90]运行从LLMs翻译的PDDL疑问到经典义务布局器，Fast Downward[45]。此外，Silver等人[127]证实，具有来自LLMs的初始方案的基于搜查的布局器经过探求较少的节点体现得更好。这些钻研强调了将LLMs与逻辑程序集成以参与生成可行方案的成功率或性能的有效性。

自顺应布局： 自顺应布局准许机器人依据反应修正它们的方案或执行，要么依据环境观察生成新方案[20, 141, 151, 168, 169]，要么经过检测失败并相应调整[61]。Chen等人[12]和Huang等人[60]引入了依据观察反应生成新方案的顺应战略，使机器人能够照应更宽泛的场景。另一种顺应战略是将失败检测作为反应。例如，Inner Monologue[61]重试初始方案，直到成功。此外，其他钻研提供有关过去失败的文本解释，以协助防止重复出现的疑问[88, 95, 117, 146]。LLM-Planner[129]和COWP[28]经过寻觅应用观察高低文和LLMs知识知识的代替方案，提高了从新布局才干。这些顺应新消息的灵敏性增强了机器人在灵活设置中的自主性。

5.2 义务和静止布局

咱们概述了基于LLM的低级布局，将方法分类为静止布局和TAMP畛域。

静止布局指的是在机器人的性能空间或义务空间内生成具有数值航点的目的轨迹。但是，直接的数值序列化是具有应战性的，由于言语模型经过生成与延续空间有关的标志来学习。虽然如此，基于LLM的静止布局器直接为无人机编舞生成位置序列[68]，由于它们的义务足够便捷，可以展现LLMs的空间推理才干。关于更复杂的场景，驳回直接方法，Huang等人[59]将LLMs与基于搜查的布局器相联合。在他们的框架中，VoxPoser，一个LLM，经常使用VLM生成潜在场的代码，而后基于搜查的布局器在生成的场内启动静止布局。

TAMP指的是将初级义务布局与低级静止布局相联合。各种上班经常使用LLMs自身作为TAMP布局器，应用它们的逻辑和物理推理才干[80, 97, 152]。钻研人员指点LLMs生成初级子目的，而后经常使用它们启动低级轨迹生成[80, 97]。但是，它们的粗略示意限度了它们的方法到便捷的义务，如取放。相反，Xia等人[152]经常使用静止学感知提醒增强LLMs的静止学知识，用于复杂的操作，如关节对象操作。此外，各种钻研增强了LLMs以补充它们的推理才干。钻研人员经常集成一个逻辑增强的TAMP布局器，以审核义务方案的逻辑可行性[29]。同时，其他人经常使用物理增强的TAMP布局器来评价物理可行性[18, 44, 89]。例如，Text2Motion[89]准许一个LLM生成物理上可行的初级执行，并将它们与学习到的技艺联合起来启动低级执行。

6 控制

早期钻研关键集中在建设便捷的言语命令和已知静止原语之间的映射上。随着深度学习的出现，钻研人员在控制方面探求了两种关键方法：基于言语指令的控制值的直接建模[7, 119]和经过LLMs直接解释复杂指令以生成执行[153]。咱们将这个畛域的上班分为两组：（1）直接方法，象征着基于言语指令直接生成控制命令；（2）直接方法，代表经过言语指点直接指定控制命令。图1展现了详细的分类以及相关论文，用橙色单元格援用。

6.1 直接方法

直接方法触及经常使用LLM来解释并发生可执行命令，要么经过选用静止原语[133]，要么生成控制信号[145, 170]。早期上班生成执行标志以经过训练Transformer架构[140]发生控制战略，经常使用特定义务的专家演示数据[7, 119, 131]。钻研人员将这些标志线性映射到团圆化的末端执行器速度[119]或位移[7, 131]以启动延续静止。虽然这些方法在未见义务（如新对象或理想指令）上展现了必定水平的泛化，但它们通常须要少量的数据搜集和训练时期。

为了缩小搜集上班，钻研人员经常应用现有的网络规模视觉和言语数据集启动微调[142, 170]。例如，Zitkovich等人共同微调VLMs，如PaLI-X[17]和PaLM-E[31]，目的是视觉言语义务和机器人控制义务。他们经常使用为VLMs设计的原始数据集以及机器人控制演示，在微调时期坚持普通知识，如在RT-2[170]中演示的那样。此外，为了缩小训练累赘，Hu等人[51]经常使用低秩顺应（LoRA）方法对LLM启动微调，用于控制义务[15]，而不是微调整个模型。

LLMs经常难以生成延续的执行级命令，如关节位置和扭矩值，由于LLMs通常生成称为标志的原子元素[133]。因此，钻研人员反而经常使用LLMs生成义务级输入[10, 102, 133]。例如，SayTap，一个基于LLM的步行控制器，经常使用LLM生成脚和低空之间的接触形式，而不是直接发生关节位置，以成功步行静止。其他钻研经过将其框架为成功末端执行器姿态序列[102]或生成Python代码[10]，相似于人造言语生成义务，来处置控制疑问。最近，钻研人员提醒LLM经过提供归一化和团圆化的控制值历史来产活泼作空间输入，以坚持控制的延续性[145]，或经过提供机器人静止学消息来确定所需姿态的正当关节值[86]。

6.2 直接方法

LLMs也适用于基于人造言语指令生成控制命令的直接示意（例如，子目的或处罚函数）。钻研人员应用目的形容，用人造言语解释所需的行为，以指点学习环节[32, 67, 78]。例如，ELLM[32]，一个基于LLM的RL框架，经常使用LLM生成子目的形容作为RL战略的条件，并进一步经常使用观察结果和文本嵌入空间中的子目的形容之间的相似性来计算处罚。此外，Kumar等人[78]逐渐经常使用LLM基于以前的人类指令生成目的形容。但是，由于LLM的输入是人造言语形容，这些方法须要一个额外的步骤来基础化或解释形容。

应用代码生成才干，钻研人员生成代码级处罚函数。Yu等人[161]将人造言语目的转换为初级静止形容，而后生成相应的处罚函数。但是，这种生成须要固定的处罚函数格局。相反，最近的上班提醒LLM从人类设计的例子中推断处罚函数格局[71, 144]。虽然如此，生成的处罚函数或许并不总是足够准确或最优，以直接用于训练[130]。

为了提高准确性，钻研人员参与了一个细化循环来验证生成的处罚函数的语法[112]和语义[96, 130, 153, 165]。例如，Song等人[130]经常使用LLM依据训练环节的收敛和结果机器人静止从新设计处罚函数。此外，钻研人员经常使用LLM评价机器人静止，直接生成处罚[24]。此外，最近的上班演示了LLM在经过依据失误形态调整控制参数[132]或从人类反应当选用适合的静止目的[91]来完善静止中的经常使用。

7 提醒指南

本章为进入机器人学钻研畛域的钻研者提供关于如何设计提醒的指南。提醒是一种消息，旨在疏导LLMs依照咱们的指示处置并输入，似乎预训练言语模型[93, 149]的操作一样。精心设计的提醒应：

- 蕴含明晰、繁复且不含行业术语的详细陈说，

- 引入能够让模型预期处置流程的示例，

- 指定宿愿输入出现的格局，

- 蕴含解放执行的指令。

这些提醒使得模型能够在不降级参数的状况下，依照希冀的格局和解放生成内容。咱们为以下四个机器人学畛域提供指南：(1) 交互式定位、(2) 场景图生成、(3) 少样本布局、以及 (4) 处罚函数生成。

7.1 对话提醒：交互式定位

咱们详细说明了一种对话提醒设计，应用LLM作为定位代理，廓清如“给我拿点吃的”这样的命令，并经过逻辑推断解析“一些东西”之类的含糊目的。表1展现了设计细节，其中提醒由三个关键组成局部造成：义务形容、义务流程和义务背景。咱们接上去逐一详述。

表1：用于交互式接地的对话提醒。经过提醒中的“义务”，咱们要求LLM经过对团体喜好的互动征询，将义务中提及的未详细说明的对象“某个东西”定位为“饼干”。该提醒由义务形容、义务流程和义务情境三局部组成，指点LLM的行为及其对高低文的了解。粗体字示意与LLM照应（以蓝色高亮显示）启动交互的主题。

义务形容概述了LLM希冀的行为和照应格局。在此例中，咱们特意强调其作为对话代理的角色，经过“你应该”之类的指令疏导与用户的灵活互动。此外，“坚持”所蕴含的命令性语句提供了义务解放或需求。咱们还在末尾搁置行为解放以克制LLM的冗余输入。

义务流程随后定义了LLM遵照以达成义务目的的一系列推理步骤。此形容驳回编号步骤指点LLM一步步执执行作。经过逻辑示意，咱们也强迫举措按逻辑顺序执行；经常使用“迭代地”示意“while循环”，以及“假设”或“当”示意条件。

义务背景形容了LLM启动定位所依据的高低文输入，如“环球模型”。义务形容和义务流程中术语的分歧性对LLM操作至关关键。例如，“义务”和“环球模型”之类的通用表白使LLM能在提供的同一高低文中上班。此外，经过为环球模型中的对象经常使用明白的称号，咱们使LLM能够对命名实体运行知识。请留意，虽然咱们经常使用对象列表作为环球模型，但LLM接受多种方式的环球模型输入：文本形容、对象列表和场景图。

经过这些结构化的组件，提醒触发了一个交互式的定位对话，以准确识别对象，如表1所示。此提醒经常使用了ChatGPT 3.5 [106]。

7.2 指令提醒：场景图生成

本节引见应用多模态LLM（特意是GPT-4 [107]）从场景图像构建场景图的指令提醒设计。场景图由作为节点的对象及其作为边的相关组成。虽然多模态LLM取得了停顿，但它们从二维图像中推断三维相关的才干仍有限度[13]。为了缩小这一限度，咱们将义务合成为两个步骤：应用多模态输入创立节点和应用文本消息创立边。咱们在表2中提供了每个步骤的详细示例。

表2：生成场景图的指令提醒。该表蕴含两个提醒：节点创立和边创立。在给定场景中的图像条件下，多模态LLM感知物体并应用几何消息推断相关相关。粗体字示意LLM照应的输入主题（以蓝色高亮显示）。可视化内容既不是LLM的输入也不是输入。

节点创立的提醒包括两局部：(1) 义务形容和(2) 义务背景。义务形容相似于7.1节，包括LLM的预期行为（即角色）和照应格局。例如，LLM的义务是在给定图像中识别作为节点的对象。而后，咱们将输入格局指定为‘ObjectName(ID)’以确保分歧性和繁复性。接着，义务背景展现了一系列共同的对象标识符及其对应的以对象为中心的图像。咱们经过SAM [77]，一个长于在遮挡状况下识别物体的基础视觉模型，从场景中裁剪失掉这些对象中心图像。

边的创立包括：(1) 义务形容、(2) 示例和(3) 义务背景。义务形容不只指定了预期行为和输入格局，还阐释了如何应用示例来识别节点间的相关。咱们特意解释了LLM如何经常使用三维对象坐标和单位测量值，从预约义汇合（如‘左’、‘右’等）中推断空间相关。与节点创立不同，这准许生成额外的输入解释，以顺应区分空间相关的复杂性。

为了增强对输入格局及相应输入的了解，咱们蕴含了展现边生成的示例。咱们选用了一个在对象及其空间相互相翻开与目的场景相似的示例，从而为边的识别提供更丰盛的消息。

最后，义务背景提供了源节点和目的节点消息作为输入，并留下空白输入以从LLM失掉照应。咱们没有提供一切节点的全陈列，而是指定一切节点组合的思考，假定咱们可以识别反向边作为相反的空间相关（例如，‘左’与‘右’相对）。

7.3 布局提醒：大批样本布局

本节提出了一种布局提醒设计，旨在预测成功既定目的所需的后续执行，同时融入高低文要素，如可执执行作和环境设置。该设计特意专一于大批样本布局，经过实例增强性能。设计蕴含四个组成局部：(1) 义务形容、(2) 示例、(3) 目的情境和(4) 额外互动，详细细节见表3。

表3：用于大指示例布局的布局指令提醒。经过应用输入-输入示例对，LLM提高了生成成功义务目的方案的性能。该提醒包括义务形容、示例以及义务高低文。粗体字示意与LLM交互的主体局部，LLM的照应以蓝色高亮显示。

义务形容包括义务目的、预期行为和照应格局，与传统提醒相似。但是，与先前不同的是，此提醒明白了机器人的解放条件，包括初始形态和举措限度——这是之前未被详述的解放。例如，表3中的“CANNOT”一词强调机器人每次执行只能操作一个物体的限度。此外，这些解放还扩展到规则“成功”举措的规则，标志着义务的成功。示例展现了疏导LLM生成希冀执行的输入输入对。示例将准许举措中的泛化“对象”参数（例如，“封锁(对象)”）调整为特定的物体称号，如“抽屉”或“纸张”，从而增强了在义务形容中写明的义务解放。例如，第二个示例在达成义务目的后前往“成功”信号，而非继续布局。

目的情境提供了场景，包括义务、准许的举措、可见物体、已执行方案以及下一个方案，与示例相反。咱们准许LLM填充“下一个方案:”后的空白，直接提出下一步执行，不参与不用要的元素如换行符，以确保输入的准确性。

此外，当经过额外提醒降级已执行方案时，LLM会基于这一降级后的高低文生成新方案，而无需重复整个目的情境，使布局环节灵活且迭代，能顺应变动并坚持高效。

7.4 代码生成提醒：处罚函数设计

咱们引入了一种代码生成提醒设计，用于从Gymnasium库中的MuJoCo基础Reacher义务[135]生成处罚函数。Reacher义务的目的是从恣意起始性能移动机械臂的末端执行器凑近指定的目的位置。该提醒旨在将此义务目的转化为指定处罚的代码。表4展现了设计细节，蕴含四个关键元素：(1) 义务形容、(2) 可用API、(3) 目的与解放、以及(4) 生成规则。

表4：用于处罚函数生成的指令示例。该提醒包括义务形容、可用API、目的与解放条件以及生成规则。LLM依据这些消息生成用于强化学习（RL）训练的Python代码方式的处罚函数。

义务形容为LLM定义了希冀的机器人行为和义务条件，包括机器人的控制战略及具有两个关节的机械臂的举措空间。咱们特意指定了经常使用Gymnasium库API的延续“Box”空间作为举措空间，假定LLM相熟出名库函数的上班方式。而后，此形容疏导LLM了解所定义举措的全体强化学习目的。

可用API列出了设计处罚函数所需的API，包括每个API的称号及输入输入规范。经过提供Python函数注解，咱们让LLM能够推断输入输入类型，前提是它了解相似浮点数变量类型及API的上班原理。

目的与解放提供了指点处罚内容的义务目的和限度。咱们明白界定了初始设定、目的调配和目的条件，旨在扫除不用要的处罚成分，例如为了平滑静止而处罚高速度。须要留意的是，虽然言语学意义上相似，咱们介绍经常使用繁复分歧的词汇，如义务形容中经常使用的“扭矩”而非“能源”。

最后，生成规则为生成可直接执行的代码建设了指南，以应答LLM发生不用要的或失误的变量或函数的趋向。这些规则限度了此类申明，正如表4中生成规则第二局部所述，激励经常使用出名的Python库来提高编程品质。此外，思考到处罚函数的线性组合元素，咱们引入了规则来调整处罚成分的尺度以坚持平衡。

8 论断

在本调查中，咱们从触及自动机器人组件，包括通讯、感知、布局和控制的大型言语模型在机器人学钻研中的运前启动了调查。这种分组件的调查提醒了钻研人员如何整合LLMs以克制在预LLM方法中存在的各种义务固有应战，从而片面了解LLMs在该畛域的影响。

在每个组件畛域内，咱们扫视了为最大化应用LLMs才干并增强其照应完整性而提出的改良方法论。此外，咱们的调查为每个组件畛域提供了提醒工程的指点准则，并辅以关键提醒组件示例，为进入该畛域的钻研者提供通常洞察。本文的外围奉献在于突显了LLMs在机器人学中的改革性影响，使得在有限资源下开发多性能且自动的机器人成为或许。

Kim Y, Kim D, Choi J, et al. A Survey on Integration of Large LanguageModels with Intelligent Robots[J]. arXiv preprint arXiv:2404.09228,2024.

AIRoobt ，作者：AIRoobt

原文链接:

<<100万高低文关闭用谷歌最弱小模型收费开明了！长音频了解配置唯一份

Speculative Best 高效 Rejection>>