具身智能成败之关键！干货长文初次片面回忆具身智能畛域中的视觉

2024-11-15

文章链接：

亮点直击 本综述是关于具身智能畛域中新兴的视觉-言语-举措模型的初次片面回忆。

深度学习在许多畛域中展现出了清楚的成功，包括计算机视觉、人造言语处置和强化学习。这些畛域的代表性人工神经网络涵盖了卷积神经网络、Transformer模型以及深度Q-networks。基于繁多模态神经网络，许多多模态模型被引入以处置一系列义务，如视觉问答、图像字幕生成和语音识别。随着指令追随机器人战略在具身智能中的兴起，一种被称为视觉-言语-举措模型（VLAs）的新型多模态模型类别应运而生。这些模型的多模态才干已成为机器人学习的基础要素。为了增强模型的多性能性、灵敏性和泛化才干，提出了各种方法。有些模型专一于经过预训练来优化特定组件，另一些则旨在开发能够预测低级别举措的控制战略。某些VLAs作为上档次义务布局器，可以将久远义务分解为可执行的子义务。在过去几年中，泛滥VLAs应运而生，反映了具身智能的极速开展。因此，有必要经过片面的综述来掌握这一始终演化的畛域。

I. 引言

视觉-言语-举措模型（VLAs）是一类旨在处置多模态输入的模型，结合了来自视觉、言语和举措模态的消息。该术语最近由RT-2提出。VLAs的开发目的是为具身智能（embodied AI）处置指令追随义务。与其他人工智能方式如以ChatGPT为代表的对话式人工智能不同，具身智能须要控制物理实体并与环境交互。机器人技术是具身智能最突出的畛域。在基于言语的机器人义务中，战略必定具有了解言语指令、视觉感知环境并生成适当举措的才干，这就须要VLAs的多模态才干。与早期的深度强化学习方法相比，基于VLA的战略在复杂环境中表现出更强的多性能性、灵敏性和泛化才干。这使得VLAs不只实用于工厂等受控环境，还实用于日常义务，如烹饪和房间清洁。

早期的深度学习开展关键由繁多模态模型组成。在计算机视觉（CV）畛域，像AlexNet这样的模型展现了人工神经网络（ANNs）的后劲。循环神经网络（RNNs）为泛滥人造言语处置（NLP）模型奠定了基础，但近年来逐渐被Transformer模型所取代。深度Q-network（Deep Q-network）展现了人工神经网络可以成功应答强化学习疑问。借助繁多模态模型在各个机器学习畛域的提高，多模态模型演化得足够弱小，可以应答各种义务，如视觉问答、图像字幕生成、语音识别等。

传统基于强化学习的机器人战略大多专一于有限的一组义务，理论在工厂和试验室等受控环境中启动。例如，文献 [68] 训练了一个专门用于抓取物体的战略。但是，关于更具多性能性的多义务战略的需求日益参与，相似于最近在大型言语模型（LLMs）和视觉-言语模型（VLMs）中的停顿。开发多义务战略更具应战性，由于它须要学习更宽泛的技艺并顺应灵活和不确定的环境。此外，义务规范也参与了另一层复杂性。一些方法经常使用单热向量来选用义务，但这些方法受限于训练集中义务的数量。

基于预训练视觉基础模型、大型言语模型和视觉-言语模型的成功，视觉-言语-举措模型（VLAs）已展现出应答这些应战的才干。来自最先进的视觉编码器的预训练视觉示意协助VLAs感知复杂环境，提供更准确的预计，例如对象类别、对象姿态和对象几何形态。随着言语模型才干的增强，基于言语指令的义务规范成为一种可行的选用。基础VLMs探求了多种将视觉模型与言语模型结合的方式，包括BLIP-2、Flamingo等。来自不同畛域的这些翻新使VLAs能够应答具身智能的应战。

不同的视觉-言语-举措模型（VLAs）各自并重不同的方面，如下图1中的分类所示。部分VLAs经过驳回专门为机器人义务设计的预训练义务，力图增强其预训练的视觉示意，重点在于失掉改良的视觉编码器。同时，还有少量钻研专一于机器人控制战略。在这一类别中，言语指令输入控制战略，控制战略依据环境生成举措，而后将这些举措转发给静止布局器以执行。相比之下，另一类VLAs作为上档次义务布局器运作，它们形象了低档次的控制，专一于将久远的机器人义务分解为子义务。这些子义务可以由控制战略逐个成功，最终成功全体义务。

相关上班。 虽然目前缺乏关于VLAs的综述，但相关畛域的现有综述为VLA钻研提供了有价值的见地。在计算机视觉畛域，综述涵盖了从卷积神经网络到Transformer的宽泛视觉模型。人造言语处置模型在综述 [75], [76] 中失掉了片面总结。强化学习的深化评论可在综述 [77]–[79] 中找到。图神经网络的综述也可供参考 [80]。此外，现有的视觉-言语模型比拟综述为VLA提供了启示 [67], [81]–[83]。另外，还有一篇关于早期具身智能的综述 [84]。

论文结构。 § II-A 概述了单模态模型的代表性开展和里程碑。由于视觉-言语模型与视觉-言语-举措模型亲密相关，§ II-B 对近期视觉-言语模型的停顿启动了比拟。§ III 讨论了各种类型的视觉-言语-举措模型。§ IV 总结了最近的数据集、环境和具身智能的基准测试。应战和未来方向在§ V 中讨论。

II. 背景

A. 单模态模型

视觉-言语-举措模型（VLAs）整合了三种模态，理论依赖于现有的单模态模型来处置不同模态的输入。在计算机视觉畛域，从卷积神经网络向视觉Transformer的转变推进了更通用视觉模型的开展。在人造言语处置畛域，从循环神经网络向Transformer的演化最后引领了“预训练-微调”范式，随后是由大型言语模型驱动的提醒调优的成功。强化学习畛域也出现了经常使用Transformer将马尔可夫决策环节（MDP）建模为自回归序列数据的趋向。

近期单模态模型的停顿在促成多模态模型（包括VLA模型）的成功方面施展了关键作用。近期单模态模型成功的一个关键要素是其参数规模的始终扩展。关于各模态中近期里程碑式开展的更片面概述，请参阅附录中的详细总结。

B. 视觉-言语模型

视觉-言语义务，包括图像字幕生成、视觉问答、视觉定位，须要融算计算机视觉和人造言语处置技术。早期的尝试，如Show and Tell，应用了早期卷积神经网络（CNNs）和循环神经网络（RNNs）的成功。随着BERT 和GPT等初级言语模型的引入，基于Transformer的视觉-言语模型（VLMs）开启了一个新时代。随着Transformer模型的始终扩展，大型言语模型成为了许多VLMs的新主干。视觉Transformer的集成在增强VLMs的视觉才干方面起到了关键作用。VLMs与VLAs相关亲密，由于VLMs的多模态架构可以很容易地被VLAs驳回。例如，将举措解码器附加到VLMs上可以将其转化为用于低档次控制的VLAs。假设VLMs具有足够的推理才干，它们也可以作为上档次义务布局器。

VLMs的开展阅历了三个关键阶段：自监视预训练、对比预训练和大型多模态模型。VLMs的一个开创性自监视预训练方法是ViLBERT，它应用了多流Transformer架构来处置多模态输入。受ViLBERT启示，后续的上班探求了单流架构。在自监视预训练之后，引入了多模态对比预训练方法。CLIP率先应用对比学习对齐不同模态，引领了一系列相关钻研。其他方法探求了其他门路，包括扩展预训练数据集或驳回专门的多模态架构，如 [102]、BEiT-3 等上班中所见。随着大型言语模型的兴起，开收回了大型多模态模型（LMMs），其中预训练的大规模视觉和言语模型相结合，在多模态指令追随义务中到达了最先进的性能。代表性的LMMs包括Flamingo、BLIP-2、LLaVA。关于VLMs近期开展的详细引见，请参阅附录II-B。

C. 具身智能与机器人学习

具身智能是一种共同的人工智能方式，能够被动与物理环境启动交互。这使其与其他AI模型不同，如关键处置文本对话的对话AI（如ChatGPT），或专一于生成义务的生成式AI模型（如文本转视频生成的Sora）。具身智能涵盖了宽泛的实体方式，包括智能家电、智能眼镜、智能驾驶汽车等。其中，机器人是最突出的具身方式之一。

III. 视觉-言语-举措模型

视觉-言语-举措模型（VLAs）是处置视觉和言语多模态输入并输入机器人举措以成功具身义务的模型。它们是具身智能畛域中指令追随机器人战略的基石。这些模型依赖于弱小的视觉编码器、言语编码器和举措解码器。为了优化在各种机器人义务中的表现，一些VLA模型并重于失掉优越的预训练视觉示意（见第III-A节）；另一些则集中于完善低档次控制战略，长于接纳短期义务指令并生成可经过机器人静止布局执行的举措（见第III-B节）；此外，某些VLA模型将低档次控制形象化，专一于将常年义务分解为可由低档次控制战略执行的子义务（见第III-C节）。因此，低档次控制战略与上档次义务布局器的结合可以被视为一种分层战略，如下图3所示。本节内容围绕这些关键方面开展。

A. 预训练

VLA模型理论由处置多种模态的独立组件组成。其中，视觉编码器尤为关键，由于它须要编码环境形态并提供关于环境的短缺消息。几项钻研努力于经过预训练视觉编码器来取得高品质的预训练视觉示意（PVRs）（见III-A1）。其他钻研尝试经过正向或逆向能源学预训练模型，以学习环境的灵活个性（见III-A2）。在能源学学习方面的进一步停顿是学习一个环球模型（见III-A3），这准许模型从形态启动形态推演，并为战略提供更丰盛的环球知识。

1）预训练视觉示意

视觉编码器的有效性间接影响战略的表现，由于它提供了关于对象类别、位置和环境性能的关键消息。因此，许多方法努力于经过预训练视觉编码器来提高PVRs的品质。其技术细节在表I中启动了比拟。

虽然对比言语-图像预训练（CLIP）最后并不是为强化学习或机器人义务设计的，但它已宽泛运行于机器人模型中的视觉编码器。CLIP的关键目的是在给定批次中从一切或者的组合中识别正确的文本-图像对。经过训练来增强视觉编码器与言语编码器之间的对齐，CLIP在提供文本指令作为输入的义务中表现尤为杰出。CLIP在WebImageText（WIT）数据集上启动训练，该自定义数据集蕴含4亿个图文对。大规模的训练使得CLIP能够对视觉和文本消息之间的相关构成丰盛的了解。值得留意的是，CLIP对各种视觉编码器启动了片面的比拟，探求了ResNet和ViT的不同性能。这种剖析为准确性和效率之间的权衡提供了贵重的见地。

用于机器人操作的可重用示意（R3M） 提出了两个关键的预训练目的：期间对比学习和视频-言语对齐。期间对比学习的目的是最小化期间上凑近的视频帧之间的距离，同时参与期间上相距较远的帧之间的分别度。该目的旨在创立能够捕捉视频序列中期间相关的PVRs。另一方面，视频-言语对齐的目的是学习一个视频能否与某个言语指令对应。该目的丰盛了PVRs中嵌入的语义相关性。

Masked Visual Pre-training (MVP) 驳回了计算机视觉畛域的遮罩自编码器（MAE）方法。MAE 的上班原理是对输入到 ViT 模型的一部分图像块启动遮罩处置，而后训练模型重建这些被破坏的图像块。这种方法与 BERT中经常使用的遮罩言语模型技术十分相似，属于自监视训练的范围。MVP 将这种 MAE 目的扩展到各种机器人数据集上，证实预训练的视觉编码器在后续操控义务中的表现清楚优化。

Value-Implicit Pre-training (VIP)

Visual Cortex (VC-1) 对先前的预训练视觉示意（PVRs）启动了深化钻研，并经过在不同数据集中系统地探求最佳 ViT 性能，推出了一种改良的 PVR 模型。此外，他们还在多个操控和导航数据集上对其模型与之前的方法启动了片面的比拟剖析，提醒了优化 PVR 表现的关键要素。另一项钻研 [113] 也比拟了在监视学习或自监视学习下取得的先前 PVRs。

引入了一种陈腐的预训练目的，经过将言语调理和言语生成引入到遮罩自编码（MAE）目的中。驳回编码器-解码器结构的 Transformer ，预训练在言语调理的遮罩图像重建和从遮罩图像生成言语之间交替启动。这增强了言语和视觉模态之间的对齐，从而在言语调理的模拟义务中清楚提高了成功率。

RPT（Reinforcement Pretraining）在预训练环节中，不只专一于重建视觉输入和机器人举措，还关注本体感触形态。在评价三种不同的遮罩方案时，发现token masking特意能清楚提高模型的性能。

GR-1 引入了一种陈腐的视频预测预训练义务，专为 GPT 格调的模型设计。该视频预测目的在微调阶段也会被经常使用，特意是应用机器人数据。其理由在于，能够预测未来帧有助于更准确的举措预测。试验结果标明，在机器人操控畛域，该方法的主张失掉了实证支持。

SpawnNet 驳回了一个双流架构，经过适配器层融合了预训练视觉编码器的特色和从零开局学习的特色。这种翻新方法不须要训练预训练的视觉编码器，同时逾越了参数高效微调（PEFT）方法的性能，试验结果在机器人操控义务中验证了这一点。

2) 能源学学习

能源学学习蕴含了使模型了解正向或逆向能源学的目的。正向能源学触及预测给定举措后的下一个形态，而逆向能源学则触及确定从先前形态过渡到已知后续形态所需的举措。一些钻研方法还将这些目的框定为打乱形态序列的从新排序疑问。虽然正向能源学模型与环球模型亲密相关，本小节专一于应用能源学学习作为辅佐义务来优化关键机器人义务性能的钻研方法。在下表 II 中启动了比拟。

Vi-PRoM 提出了三种不同的预训练目的。首先是对比自监视学习目的，旨在辨别不同的视频。其他两个目的集中在监视学习义务上：期间灵活学习，旨在复原打乱的视频帧；以及经常使用伪标签启动的图像分类。经过与先前的预训练方法启动片面比拟，Vi-PRoM 内行为克隆和 PPO（Proximal Policy Optimization）义务中展现了其有效性。

MIDAS 引入了逆向能源学预测义务作为其预训练的一部分。其目的是训练模型从观察中预测举措，这被制订为一个追随静止的义务。这种方法增强了模型对环境过渡灵活的了解。

SMART 提出了一个蕴含三种不同目的的预训练方案：前向能源学预测、逆向能源学预测和随机遮罩的预先控制。前向能源学预测义务触及预测下一个潜在形态，而逆向能源学预测义务则触及预测最后一个举措。在预先控制的状况下，整个控制序列作为输入提供，其中一些举措被遮罩，模型则被训练以复原这些遮罩的举措。前两种能源学预测义务有助于捕捉部分和短期灵活，而第三个义务旨在捕捉全局和常年的期间依赖性。

MaskDP 特点是遮罩决策预测义务，其中形态和举措token都被遮罩以启动重建。这个遮罩建模义务专门设计来使模型了解前向和逆向能源学。与之前的遮罩建模方法（如 BERT 或 MAE）不同的是，MaskDP 间接运行于下游义务。

Perception-Action Causal Transformer (PACT) PACT 引入了一种预训练目的，旨在建模形态-举措过渡。PACT 接纳形态和举措序列作为输入，并以自回归的方式预测每个形态和举措token。这个预训练模型作为能源学模型，之后可以针对各种下游义务如定位、地图制造和导航启动微调。

Video Pretraining (VPT) VPT 提出了一个应用未token的互联网数据来预训练 Minecraft 游戏基础模型的方法。该方法首先经常使用有限量的token数据训练逆向能源学模型，而后应用该模型token互联网视频。随后，经常使用这些新智能token的数据经过行为克隆来训练 VPT 基础模型。这种方法遵照了半监视模拟学习。因此，该模型在多种义务上展现了人类水平的表现。

3) 环球模型

Dreamer经常使用三个关键模块构建潜在能源学模型：示意模型（担任将图像编码为潜在形态）；过渡模型（捕捉潜在形态之间的过渡）；和鼓励模型（预测与给定形态相关的鼓励）。在演员-评论家框架下，Dreamer 应用举措模型和价值模型经过流传剖析梯度来学习行为。基于这一基础，DreamerV2引入了团圆的潜在形态空间，并改良了目的。DreamerV3扩展了其关注的畛域范围，并固定了超参数。

Masked World Model (MWM)

Iso-Dream 对 Dreamer 框架启动了两个关键改良：1） 逆向能源学优化： 它将可控和无法控能源学分别，使处置不直接受控制的形态过渡愈加高效。2） 优化代理行为： 经过经常使用分别的潜在构想，Iso-Dream 改良了久远义务的决策才干，由于无法控的灵活可以与举措独立开展。

基于Transformer的环球模型 (TWM)

IRIS 经常使用相似 GPT 的自回归Transformer作为其环球模型的基础，并驳回 VQ-VAE 作为视觉编码器。该战略经过从实在观察中生成的潜在轨迹启动训练，这些轨迹由环球模型生成，相似于 TWM 的方法。

优缺陷

预训练的视觉示意突出了视觉编码器的关键性，由于视察觉看在感知环境形态中起着关键作用。因此，它为全体模型的性能设定了下限。在 VLA 中，通用视觉模型经过经常使用机器人或人类数据启动预训练，以增强在物体检测、顺应图提取甚至视觉-言语对齐等义务中的才干，这些都是机器人义务的外围。而能源学学习则专一于了解形态之间的过渡。这不只触及将视察觉看映射到良好的形态示意，还包括了解不同举措如何造成不同形态，反之亦然。现有的能源学学习方法理论经过便捷的mask 建模或从新排序目的来捕捉形态与举措之间的相关。相比之下，环球模型旨在齐全建模环球的灵活，使机器人模型能够基于形态预测多步未来的形态，从而更好地预测最佳举措。因此，虽然环球模型更具吸引力，但成功起来也更具应战性。

B. 低级控制战略

经过将举措解码器与感知模块（如视觉编码器和言语编码器）集成，构成了一个政策网络，用于在模拟或事实环境中执行指令。控制战略网络的多样性体如今编码器/解码器类型的选用以及这些模块的集成战略。该子节讨论了低级控制战略的不同方法。言语指令控制战略包括以下几种类型：非Transformer型（III-B1）、基于Transformer型（III-B2）和基于大型言语模型型（III-B3）。还有其他一些控制战略处置多模态指令（III-B4）和目的形态指令（III-B5）。在下表 III 中，比拟了不同控制战略的各个方面。

1) 非Transformer言语指令控制战略

MCIL 代表了一种开创性的机器人战略，整合了自在方式人造言语条件，这与早期理论依赖于义务 ID 或目的图像的条件方法构成对比。MCIL 引入了应用未token和无结构演示数据的才干。这经过训练战略以遵照图像或言语目的来成功，其中大批训练数据集蕴含配对的图像和言语目的。

HULC 引见了几种旨在增强机器人学习架构的技术。这些技术包括机器学习的分层分解、多模态Transformer和团圆潜在方案。Transformer学习上层行为，分层划分低层部分战略和全局方案。此外，HULC 引入了一种基于对比学习的视觉-言语语义对齐损失，以对齐视觉-言语（VL）模态。HULC++进一步整合了自监视顺应模型。该模型指点 HULC 到言语指令指定的可操作区域，使其能够在该指定区域内成功义务。

Universal Policy (UniPi)

2) 基于Transformer的言语指令控制战略：

Language Costs

Interactive Language Interactive Language 提出了一个机器人系统，其中低级控制战略可以经过言语实时疏导，从而成功久远的从新陈列义务。这种基于言语的疏导的有效性关键归功于经常使用了一个精心搜集的数据集，该数据集蕴含了少量的言语指令，规模超出了以往数据集一个数量级。

Hiveformer Hiveformer 关键强调应用多视角场景观察和坚持完整观察历史来启动言语条件战略。这一方法相比于之前的系统（如 CLIPort 和 BC-Z）有所提高，后者仅经常使用观察。值得留意的是，Hiveformer 是最早驳回Transformer架构作为战略主干的系统之一。

Perceiver-Actor (PerAct) PerAct 在观察和举措空间上都成功了提高，经过应用 3D 体素示意。这种方法为举措学习提供了持重的结构先验，使得多视角观察的人造处置和 6-DoF 数据增强成为或者。在这个框架中，模型的输入是从 RGBD 图像重建的体素图，而输入则是疏导夹持器静止的最佳体素。经过这种方式，PerAct 即使在只要大批演示的状况下也能有效地启动义务学习。

Gato 提出了一个可以同时玩 Atari 游戏、生成图像说明和重叠积木的模型，这些义务都经常使用同一组模型参数。这一成就得益于一致的token化方案，这种方案在不同义务和畛域中协调了输入和输入。因此，Gato 使得不同义务的同时训练成为或者。Gato 代表了一个关键的里程碑，表现了构建一个“多模态、多义务、多表现通用代理”的后劲。

RT-1 由与 BC-Z 同一团队开发，虽然与 BC-Z 相似，但引入了一些关键区别。特意是，RT-1 驳回了基于更高效的 EfficientNet的视觉编码器，区别于 BC-Z 经常使用的 ResNet18。言语指令也经过 USE 启动编码，并经过 FiLM 层与图像嵌入结合。但是，RT-1 不经常使用视频作为义务指令，与 BC-Z 不同。此外，RT-1 将 BC-Z 中的 MLP 举措解码器交流为Transformer解码器，生成团圆举措。这一修正使得 RT-1 能够关注过去的图像，从而优化了其性能。

Q-Transformer Q-Transformer 经过引入自回归 Q 函数扩展了 RT-1。与经过模拟学习学习专家轨迹的 RT-1 不同，Q-Transformer 驳回了 Q 学习方法。除了 Q 学习的 TD 误差目的外，Q-Transformer 还引入了激进正则化器，以确保最大值举措坚持在散布内。这种方法使 Q-Transformer 能够应用成功的演示和失败的轨迹启动学习。

Scaling Up and Distilling Down (SUDD) SUDD 提出了一个框架，其中大言语模型（LLM）指点数据生成，并随后将过滤后的数据集蒸馏成视听言语举措（visuo-linguo-motor）战略。该框架经过将 LLM 与一套基本的机器人工具（如抓取采样器、静止布局器）组合，实如今言语指点下的数据生成。接着，SUDD 扩展了 Diffusion Policy，经过结合基于言语的条件启动多义务学习。这种基于分散的战略从成功的轨迹中学习，促成了过滤数据集的蒸馏。

3) 基于 LLM 的言语指令控制战略：

RT-2 努力于应用大型多模态模型在机器人义务中的才干，遭到 PaLI-X和 PaLM-E等模型的启示。该方法引入了共同微调（co-fine-tuning），旨在使模型顺应互联网规模的视觉问答（VQA）数据和机器人数据。这种训练方案增强了模型的泛化才干，并带来了新兴的才干。RT-2 代表了低级控制战略与初级义务布局者的整合，谋求更片面的机器人系统。

RT-X 在 RT-1 和 RT-2 模型的基础上启动构建。这些模型经常使用新引入的开源大型数据集 Open X-Embodiment (OXE) 启动了再训练，OXE 的规模比以前的数据集大几个数量级。OXE 蕴含 160,266 个义务，涵盖 527 种技艺和 22 种表现。由于 OXE 数据集更宽泛且更大，最终生成的模型 RT-1-X 和 RT-2-X 的性能均优于其原始版本。

RT-H 引入了一种举措层级结构，其中包括一个言语举措的两边预测层，位于言语指令和低级举措（如平移和旋转）之间。这一额外的档次促成了不同义务之间的数据共享。例如，言语指令“pick”（拾取）和“pour”（倒出）或者都触及到言语举措“move the arm up”（抬起手臂）。此外，这种举措层级结构使得用户能够指定纠正措施以从失败中复原，模型可以从中学习。

RoboFlamingo RoboFlamingo 经过将现有的视觉言语模型（VLM）Flamingo 适配为机器人战略，展现了预训练的 VLM 可以有效转移到言语条件下的机器人操作义务。详细做法是将一个基于 LSTM 的战略头附加到 VLM 上。

VoxPoser 经常使用大言语模型（LLM）和 VLM 创立两个 3D 体素图，这些图示意了可用性和解放。它应用 LLM 的编程才干和 VLM 模型的感知才干（如 ViLD、MDETR、OWL-ViT、SAM）。LLM 将言语指令转换为可执行代码，调用 VLM 失掉物体坐标。基于组合的可用性和解放图，VoxPoser 经常使用模型预测控制生成机器人手臂末端执行器的可行轨迹。值得留意的是，VoxPoser 不须要任何训练，由于它间接衔接 LLM 和 VLM 启动静止布局，与之前基于 LLM 的初级义务布局器（如 PaLM-E 和 ChatGPT for Robotics）不同。

4) 多模态指令控制战略：

VIMA 重点关注多模态提醒和模型的泛化才干。经过结合多模态提醒，可以制订比传统纯文本提醒更详细和复杂的义务。VIMA 引入了四种关键类型的义务：物体操作、视觉目的抵达、新概念基础、一-shot 视频模拟、视觉解放满足、视觉推理。这些义务理论难以仅用言语提醒来表白。VIMA-Bench 已开发用于评价四个泛化水平：位置、组合、新物体、新义务。

MOO 扩展了 RT-1 以处置多模态提醒。应用 RT-1 的基础，MOO 融合了 OWL-ViT 来编码提醒中的图像。经过用新物体和额外的提醒图像扩展 RT-1 数据集，MOO 优化了 RT-1 的泛化才干。这一扩展还促成了指定目的物体的新方法，例如用手指指向或点击图形用户界面。

Octo 引见了一种基于Transformer的分散战略，其特点是开明框架设计，准许从不同的义务定义编码器、观测编码器和举措解码器灵敏衔接到 Octo Transformer。作为首批应用 Open X-Embodiment 数据集的模型之一，Octo 展现了在各种机器人和义务中的踊跃迁徙和泛化才干。

5) 目的形态指令控制战略

RoboCat 提出了一个自我改良环节，旨在使智能体能够极速顺应新义务，只要 100 个示例。这个自我改良环节经过对模型启动迭代微调，并经常使用微调后的模型自生成新数据。基于 Gato 模型，RoboCat 融合了 VQ-GAN 图像编码器。在训练环节中，RoboCat 预测不只是下一步举措，还有未来的观测。经过在模拟和事实环境下的多义务、多表现设置中启动的片面试验，证实了自我改良环节的有效性。

RT-Trajectory RT-Trajectory 驳回轨迹草图作为战略条件，而不是依赖言语条件或目的条件。这些轨迹草图由曲线组成，形容了机器人末端执行器应追随的预期轨迹。它们可以经过图形用户界面手动指定、从人类示范视频中提取，或由基础模型生成。RT-Trajectory 的战略基于 RT-1 并经过训练，以控制机器人手臂准确追随轨迹草图。这种方法促成了对新物体、义务和技艺的泛化，由于来自各种义务的轨迹是可迁徙的。

分散战略

优缺陷

a) 架构： 各种视觉言语架构探求了不同的视觉和言语输入融合方法，包括交叉留意力（cross-attention）、FiLM 和拼接（concatenation），如下图 4 所示。FiLM 被用于 RT-1，因此其后续上班承袭了这一机制。虽然交叉留意力或者在小型模型中提供更优的性能，但拼接成功较为便捷，并且在大型模型中可以到达相似的结果。

b) 举措类型及其训练目的： 大少数低级控制战略预测末端执行器的举措，同时形象掉了控制各个关节静止的静止布局模块，这些模块经常使用逆向静止学启动控制。虽然这种形象有助于更好的泛化到不同的表现（embodiments），但也对灵敏性施加了限度。行为克隆（BC）目的用于模拟学习，关于不同的举措类型有不同的变体。延续举措的 BC 目的可以示意为：

其中，CE(·) 示意交叉熵损失。CLIPort和 VIMA经常使用 SE(2) 举措，其行为克隆目的可以示意为：

分散控制战略中的 DDPM 目的示意为：

虽然团圆举措在 RT-1 中表现杰出，Octo以为这会造成早期抓取疑问。SE(2) 举措仅要求模型预测两个末端执行器姿态，例如抓取姿态和搁置姿态。虽然这种举措类型最多只能在两次前向传递中启动预测，但它也限度了举措的灵敏性和泛化才干。

c) 分散基战略： 分散基战略应用了分散模型在计算机视觉畛域的成功。其中，Diffusion Policy 是最早应用分散生成举措的模型之一。SUDD为 Diffusion Policy 参与了言语条件支持。Octo驳回模块化设计以顺应各种类型的提醒和观察。与经常出现的行为克隆战略相比，分散战略在处置多模态举措散布和高维举措空间方面表现出长处。

d)LLM 与非 LLM： 虽然基于 LLM 的控制战略可以清楚增强遵照指令的才干，由于 LLM 更好地解析用户用意，但也存在训练老本和部署速度的顾忌。特意是，较慢的推理速度或者会严重影响灵活环境中的性能，由于环境的变动或者在 LLM 推理环节中出现。

e)RT 系列： RT-1 启示了一系列“机器人 Transformer”模型。在 RT-1 之前，BC-Z仅经常使用 MLP 层进执行作预测。在 RT-1 之后，出现了几项上班，每项上班都引入了新性能。MOO使 RT-1 能够处置多模态提醒。RT-Trajectory使 RT-1 能够处置轨迹草图作为提醒。Q-Transformer 应用 Q 学习来训练 RT-1。RT-2 基于 ViT 和 LLM，引见了与 RT-1 齐全不同的架构。RT-X 用清楚更大的数据集从新训练 RT-1 和 RT-2，造成性能优化。Transformer 胶囊超越了之前的 RNN 胶囊，应用 Transformer 的更高容量来排汇更大的机器人数据集。基于 RT-2，RT-H引入了举措档次结构，以更好地共享数据。

C. 初级义务布局器

许多初级义务布局器都是建设在大型言语模型（LLMs）之上的。虽然将多模态模块以端到端的方式集成到 LLM 中 (III-C1) 是直观的，但经常使用多模态数据启动训练或者老本较高。因此，一些义务布局器更偏差于经常使用言语 (III-C2) 或代码 (III-C3) 作为交流多模态消息的媒介，由于它们可以被 LLM 原生处置。

1）端到端：

虽然控制战略无了解和执行便捷言语指令方面有效，但在触及多个子义务的常年义务中，它们往往会遇到艰巨。大型言语模型被以为是解读这些复杂常年义务的弱小工具。因此，许多方法努力于将 LLM 集成作为初级义务布局器。它们的目的是将常年义务分解成更便捷的子义务，从而使低级控制战略能够按顺序执行这些义务，促成档次化机器人系统的开展。表 IV 列出了这些初级义务布局器的关键细节。

是一个旨在将初级 LLM 布局器与低级控制战略集成的框架。在此框架中，LLM 布局器接受用户的初级指令并“通知”最或者的下一个低级技艺，这一律念称为义务定位。低级战略提供价值函数作为才干函数，确定该战略“可以”成功技艺的或者性，称为环球定位。经过思考 LLM 的方案和才干，框架为形态选用最佳技艺。

引入了一种陈腐的数据搜集环节，称为被动数据搜集（ADG）。ADG 的一个关键方面是预先从新token，它将标签从新调配给不成功的轨迹，从而有效地最大化数据的应用，无论它们的成功与否。经过将一切环境输入转换为文本形容，其基于言语模型的战略展现了增强的组合泛化才干。

Translated ⟨LM⟩ 驳回两步环节将初级指令转化为可执行的举措。首先，应用预训练的因果 LLM 启动方案生成，将初级指令分解为用自在方式言语短语表白的下一个举措。而后，由于这些短语或者无法间接映射到 VirtualHome 举措，因此经常使用预训练的mask LLM 进执行作翻译。这一步触及计算生成的举措短语与 VirtualHome 举措之间的相似度。翻译后的举措被参与到方案中，降级后的方案由 LLM 读取以生成下一个举措短语。两步环节重复启动，直到构成完整的方案。进一步提出了“从新提醒”战略以生成纠正举措，当代理遇到前置条件失误时。

Semi-Supervised Skill Learning with Latent Language (SL)³

EmbodiedGPT 引见了 embodied-former，它输入义务相关的实例级特色。这是经过结合视觉编码器嵌入的消息和 LLM 提供的具身布局消息来成功的。实例特色用于通知低级战略无关须要采取的即时举措。

集成了 ViT 和 PaLM，创立了一个大型具身多模态言语模型，能够执行初级具身推理义务。基于感知图像和初级言语指令，PaLM-E 生成一个文本方案，作为低级机器人战略的指令。在移动操控环境中，它将生成的方案映射到可执行的低级指令，并与 SayCan结合经常使用。随着低级战略的执行，PaLM-E 还可以依据环境变动从新布局。作为其外围的 PaLM 使得 PaLM-E 能够处置反常的视觉问答（VQA）义务，以及额外的具身 VQA 义务。

发现传统图像输入的经常使用是多模态通用智能体与 3D 环球交互的一个限度要素。这种新方法触及经过两个阶段训练基于 LLM 的架构。第一阶段专一于 3D 视觉-言语对齐，第二阶段则触及 3D 视觉-言语-举措指令调整。LEO 不只在 3D 标注和问答义务中表现杰出，还在具身推理、具身导航和机器人操控等义务中表现优秀。

2) 基于言语：

Inner Monologue 处于初级指令和低级战略之间，以成功闭环控制布局。它应用 LLM 生成低级控制战略的言语指令，并依据控制战略收到的反应灵活降级这些指令。反应包括多种起源：成功反应、对象和场景反应以及人类反应。由于反应以文本格局传达给 LLM，因此无需对 LLM 启动额外训练。相似的方法也在 ReAct 中提出，该方法交织推理痕迹和义务特定举措。

LLM-Planner 引见了一种陈腐的方法来构建包括初级布局器和低级布局器的档次化战略。初级布局器应用 LLM 的才干生成人造言语方案，而低级布局器将方案中的每个子目的转换为原始举措。虽然其全体架构与之前的方法相似，LLM-Planner 经过引入从新布局机制来辨别自己，协助机器人“解脱困境”。

Socratic Models (SMs) 提出了一个共同的框架，其中不同的预训练模型可以有效地组合在一同，无需微调。该框架基于关键组件——多模态消息提醒，促成了具有不同多模态才干的模型之间的消息交流。这个思绪是应用多模态模型将非言语输入转换为言语形容，从而在言语空间中一致不同的模态。除了在传统的多模态义务中表现杰出，SMs 在机器人感知和布局中也展现了其多性能性。

3) 基于言语

ProgPrompt 引见了一种陈腐的义务布局方法，经过相似程序的规格提醒 LLM，详细形容了可用的举措和对象。这使得 LLM 能够以大指示例生成家庭义务的初级方案。环境反应可以经环节序中的断言启动整合。这个提醒方案应用了 LLM 的环球知识和编程技艺。

ChatGPT for Robotics 应用 ChatGPT 的编程才干来促成“用户在环”控制，区别于传统的“工程师在环”方法。该环节包括几个步骤：首先，定义一系列 API，如对象检测 API、抓取 API、移动 API；其次，为 ChatGPT 构建一个提醒，指定环境、API 性能、义务目的等；第三，迭代地提醒 ChatGPT 编写可以执行义务的代码，提供对模拟和用户反应的访问，以评价代码品质和安保性；最后，执行 ChatGPT 生成的代码。在这个环节中，ChatGPT 作为初级义务布局器，相似于 PaLM-E，并经过调用相应低级 API 生成举措。

Code as Policies (CaP) 也应用了 LLM 的代码编写才干。它驳回 GPT-3 或 Codex 生成战略代码，而后调用感知模块和控制 API。CaP 在空间几何推理、新指令的泛化以及低级控制原语的参数化方面表现杰出。

代表“形容、解释、布局和选用”。该方法应用 LLM 生成方案并基于从环境中搜集的反应形容解释失败，这一环节被称为“自我解释”，有助于从新布局。此外，DEPS 还引入了一个可训练的目的选用器，依据子目的的易达水平启动选用，这一点是其他初级义务布局器理论漠视的关键方面。

ConceptGraphs 引见了一种将观察序列转换为开明词汇 3D 场景图的方法。对象经过 2D 宰割模型从 RGB 图像中提取，并应用 VLM 对对象启动标注并建设对象间相关，从而构成 3D 场景图。该图可以转换为文本形容（JSON），为 LLM 提供实体间的丰盛语义和空间相关，用于义务布局。

优缺陷

端到端义务布局器 如 SayCan与低级控制战略共享相似架构，可以针对特定义务启动优化，但由于结合了 LLM 和视觉Transformer的大模型尺寸，其训练老本或者会十分高。

基于言语的义务布局器 提供了与现有言语条件控制战略无缝集成的长处。但是，它们理论须要微调或对齐方法，以将生成的方案映射到低级控制战略的可执行言语指令上。

基于代码的义务布局器 应用 LLM 的编程才干衔接感知和举措模块。这种方法不须要额外的训练，但其性能或者受限于现有模型的才干。

VI. 数据集、模拟器与基准测试

搜集实在环球的机器人数据面临清楚的应战。首先，数据搜集环节遭到高昂的机器人设施洽购老本、环境搭建费用以及少量人力资源的限度。其次，搜集专家演示数据须要少量的期间投入。第三，各种机器人类型和性能的多样性造成传感器数据、控制形式、夹具类型等的不分歧。最后，准确捕捉物体的 6D 姿态以及准确复制或重置设置依然具有应战。因此，公共的实在环球机器人数据集相对稀缺。此外，在实在环球条件下评价机器人系统的性能引入了另一层复杂性，由于准确重现设置十分艰巨，并且理论须要人工监视。咱们在表 V 中总结了最近的 VLA 机器人数据集。

因此，许多钻研人员转而经常使用模拟环境来缓解这些阻碍，并减速数据搜集环节。但是，这种战略也存在其自身的应战，其中最关键的是模拟与实在之间的差距。这种差距出现于模型在模拟数据上训练良好但在实在环球运行中表现不佳。形成这种差距的要素多种多样，包括渲染品质的差异、物理模拟的不准确以及畛域转移，如不实际践的物体属性和机器人静止布局器。例如，模拟非刚性物体如液体或毛巾存在清楚艰巨。此外，将新物体引入模拟器须要少量的上班，理论触及 3D 扫描和网格编辑等技术。虽然存在这些阻碍，模拟环境提供了智能评价目的，协助钻研人员分歧地评价机器人模型。大少数基准测试基于模拟器，由于只要模拟环境能够准确重事试验设置，而实在环球的评价则因不同模型而异，使得牢靠比拟变得无法行。HomeRobot OVMM 基准提出了一个模拟到实在的基准，但其分歧性尚待观察。以往的钻研 [171] [172] 曾经总结了一些模拟器，在下表 VI 中比拟了与 VLA 最相关的模拟器。

另一种处置实在环球数据稀缺疑问的战略是应用人类数据。人类行为因其灵敏性和多样性，为机器人战略提供了丰盛的指点。但是，这种战略也有其固有的缺陷。捕捉和转移人类手部/身材举措到机器人体型上自身具有应战性。此外，人类数据的不分歧性也构成了阻碍，由于一些数据或者是以自我视角捕捉的，而其他数据则是从第三方视角捕捉的。此外，过滤人类数据以提取有用消息或者是休息密集型的。这些阻碍突显了将人类数据融入机器人学习环节中的复杂性。无关现有数据集的片面比拟请参见 [191]。

此外，一些数据集和基准测试虽然并不间接针对机器人操作和导航，但却专一于其他相关才干，这些才干关于具身人工智能至关关键，如空间推理、物理了解以及环球知识。这些才干关于义务布局者而言具有极大的价值。其中最清楚的具身义务之一是具身问答（EQA）。EQA 相似于以前的视觉问答和视频问答义务，但不同之处在于，智能体可以在回答之前被动探求环境。EmbodiedQA和 IQUAD是初次引入这一义务的上班之一。MT-EQA专一于触及多个目的的疑问，提高了了解和回答疑问的复杂性。MP3D-EQA将之前的 RGB 输入转换为点云，测试了 3D 感知才干。但是，被动探求须要访问模拟器，这限度了可经常使用的数据类型，如实在环球的视频。因此，一些 EQA 基准测试不触及被动探求。

EgoVQA将 VQA 的重点转移到自我中心的视频上。EgoTaskQA 强调空间、期间和因果相关的推理。EQA-MX关注于多模态表白（MX），包括惯例的言语表白和非言语手势，如眼神和指向。OpenEQA评价了七个关键类别，包括性能性推理和环球知识，这些在以前的基准中不曾涵盖。EgoPlan-Bench和 EgoCOT权衡模型生成义务方案的才干，经常使用如准确率和困惑度等目的。PlanBench片面评价了义务布局才干的各个方面，如老本最优性、方案验证和从新布局等。LoTa-Bench经过在模拟器中执行生成的方案并计算成功率来间接评价义务布局才干。

V 应战与未来方向

视觉-言语-执行（VLA）模型在机器人畛域面临若干耐久的应战，须要集中关注和共同的钻研努力：

机器人数据稀缺 ：失掉足够的事实环球机器人数据依然是一个严重阻碍。搜集这些数据既耗时又资源密集，而仅依赖于模拟数据会加剧模拟与事实之间的差距。多样化的事实环球机器人数据集须要不同机构之间的亲密协作。模拟数据则依赖于开发更事实和高效的模拟器。

静止布局 ：目前的静止布局模块往往缺乏处置各种环境复杂性的必要灵敏性。这一局限性阻碍了机器人有效地与工具互动、导航复杂环境和执行高精度操作。克制这些应战须要开发更弱小的静止布局算法。

实时照应 ：许多机器人运行须要实时决策和执行执行以满足操作要求。VLA 模型应设计为照应迅速，提前最小。此外，整个机器人系统的各个档次须要启动全局优化，从上层义务布局器到静止布局器。

多模态消息整合 ：VLA 必定处置和整合来自多种模态的消息，包括视觉、言语和执行。虽然在这方面已取得清楚停顿，但成功这些模态的最佳整合依然是一个继续的应战。处置这一应战须要在多模态示意学习、融合技术和义务特定适配方面取得停顿。逾越单纯的视觉和言语才干，机器人还可以从融入音频或语音等模态中取得极大收益。接受更宽泛的感知和交流才干使机器人能够与用户启动更有效的协作。

对未知场景的泛化才干 ：一个真正通用的机器人系统应能够了解和执行人造言语指令，顺应各种多样和未知的场景。成功这种级别的泛化才干，相似于 ChatGPT 在人造言语处置中的表现，须要对指令、环境、物体和机器人体态的变动具有鲁棒性。这须要开发具有顺应性和可扩展性的 VLA 架构。

常年间义务执行 ：繁多指令往往可以转化为机器人执行的常年间义务，例如指令“清算房间”，这包括物体从新陈列、低空清扫、桌面擦拭等。成功执行这样的义务须要机器人在较常年间内布局和执行一系列低档次举措。虽然的上层义务布局器取得了初步成功，但它们在许多场景中仍显无余，由于大少数 LLM 并未针对具身义务启动调优。处置这一应战须要制订高效的布局器，这些布局用具有弱小的感知才干和宽泛的知识。

基础模型 ：在机器人义务中探求 VLA 的基础模型依然是未知畛域，关键由于机器人畛域中多样化的体态、环境和义务。孤立的数据集和评价设置进一步加剧了这一应战。为了建设一个弱小的基础 VLA 模型，必定应用互联网规模的具身数据集和最先进的多模态模型。

基准测试

虽然存在许多用于评价低层控制战略 VLA 的基准测试，但它们理论在评价技艺的方面存在清楚差异。此外，这些基准测试中蕴含的对象和场景理论遭到模拟器提供才干的限度。为了更片面地评价 VLA 模型，须要基于事实模拟器的基准测试，涵盖一系列多样化的技艺。关于上层义务布局器 VLA，许多基准测试宣称可以权衡布局才干，理论以问答义务的方式启动。但是，更理想的方式是将上层义务布局器与低层控制战略一同评价，以执行常年间义务并测量成功率，而不是仅仅依赖于对布局器的孤立权衡。这种方法提供了对 VLA 系统才干的更片面的评价。

安保思考

在机器人技术中，安保性至关关键，由于机器人间接与事实环球互动。确保机器人系统的安保性须要在其开发和部署环节中整合事实环球的知识和复杂的推理。这触及到弱小的安保机制、危险评价框架和人机互动协定的结合。VLA 决策环节的可解释性和可扩展性关于经过失误诊断和缺点扫除来提高机器人安保性也至关关键。

伦理和社会影响

机器人的部署总是引发各种伦理、法律和社会疑问。这些疑问包括隐衷危险、安保性、职位散失、决策成见以及对社会规范和人际相关的影响。有效的监管在促成机器人伦理经常使用方面施展着关键作用。

论断

VLA 战略在使具身 AI 能够有效地与周围环球互动方面具有渺小的后劲。近期的停顿展现了这些模型在不同条件下成功复杂义务的才干。但是，关于泛化、效率和安保性等方面依然存在清楚应战。须要进一步钻研以处置这些应战，并为 VLA 驱动的机器人在事实环球运行中的宽泛驳回铺平路线。

原文链接:

<<什么是知识图谱和AI多模态推理

只有ms！英伟达提出LATTE3D 分解大规模高品质的Amortized文本到增强3D>>

具身智能成败之关键！干货长文初次片面回忆具身智能畛域中的视觉

I. 引言

II. 背景

A. 单模态模型

B. 视觉-言语模型

C. 具身智能与机器人学习

III. 视觉-言语-举措模型

A. 预训练

1）预训练视觉示意

2) 能源学学习

3) 环球模型

B. 低级控制战略

1) 非Transformer言语指令控制战略

2) 基于Transformer的言语指令控制战略：

3) 基于 LLM 的言语指令控制战略：

4) 多模态指令控制战略：

5) 目的形态指令控制战略

C. 初级义务布局器

1）端到端：

2) 基于言语：

3) 基于言语

VI. 数据集、模拟器与基准测试

V 应战与未来方向

论断

您可能还会对下面的文章感兴趣：

随便看看