英伟达&amp 斯坦福大学颁布GRS 从实在环球观测中生成机器人仿真义务

2024-11-15

文章链接：

亮点直击

总结速览

处置的疑问 ：GRS系统旨在处置机器人、计算机视觉和AR/VR中的“实在到模拟”（real-to-sim）转换疑问。详细来说，经过单次RGBD观测生成数字孪生模拟环境，并生成适宜虚构agent训练的多样化、可解义务。

提出的打算 ：GRS系统分为三个阶段：1）经常使用SAM2启动场景了解与目的宰割，并结合视觉言语模型（VLMs）对目的启动形容；2）将识别出的目的婚配为可用于仿真的资产；3）生成与高低文相关的机器人义务。此外，GRS经过引入一个迭代优化的router，逐渐完善仿真和测试代码，确保仿真环境合乎义务规格且机器人战略可解。

运行的技术 ：GRS依赖于最先进的视觉言语模型和SAM2模型成功场景了解和目的识别，并经常使用一个迭代优化的router来准确婚配输入环境中的目的。其外围技术包括：目的宰割、VLMs形容婚配、仿真资产婚配以及仿真环境与义务验证测试集生成。

到达的成果 ：试验结果标明，GRS系统能够准确识别目的对应相关，生成与输入环境高度婚配的义务环境，并经过router机制有效优化智能仿真义务的生成品质，使得生成的仿真义务在合乎义务规格的前提下对机器人战略可解。

方法

用于生成实在到模拟义务的方法分为两个阶段：1）场景了解；2）仿真生成与评价。首先，处置输入的RGBD图像以提取场景消息，包括边界框和宰割掩码。接上去，咱们在提取的元素与可用于仿真的资产之间建设对应相关。

应用这些场景数据，为机器人系统制订要执行的义务。提取的3D资产和场景消息是生成初始仿真和相关测试用例的关键输入。咱们引入了一个称为router的翻新迭代优化环节，该环节逐渐改良仿真和测试用例，直到战略成功成功指定义务。参考GenSim，将义务（指机器人系统要执行的目的和/或举措的文本形容）与仿真（指系统生成以模拟该义务的代码）区分开来。在本文的框架中，这种区分将概念指令与其详细成功分开。

A. 场景了解

咱们驳回两阶段的方法启动场景形容，将图像宰割与图像形容结合起来，如下图2的第一个条目所示。该环节确保对场景的详细了解，有助于生成准确的仿真和义务。

图像宰割 。在初始阶段，咱们经常使用SAM2（Segment Anything Model 2）对输入图像启动片面宰割。该最新模型在识别和描画场景中的各个元素方面表现杰出。该环节理论会造成过宰割，即较大目的的各个组件（如机器人的局部或背景元素）被辨以为独立的段。虽然这种细节级别仿佛过于繁琐，但它为咱们后续的剖析提供了粗疏的基础，使咱们能够更细腻地理解场景的组成。

目的对应相关 。目的对应相关环节旨在将候选目的与适宜的3D资产启动婚配，以用于仿真。本文的方法包括三个步骤：1）资产数据库创立：经过揭示VLM剖析每个资产的多个渲染图像，生成资产库中每个3D目的的丰盛多角度形容。2）候选目的形容：咱们经常使用相反的VLM来形容从宰割环节中取得的候选目的裁剪图像。这一形容仅基于它们的视觉消息，确保与资产数据库具备分歧的比拟基础。3）形容比拟：咱们应用VLM对这些形容启动比拟，结合先前的文本形容和裁剪的实在图像，将每个候选目的婚配到一个3D资产或辨以为非目的。此步骤确保仅将相关目的归入仿真。

此环节的结果是一个场景资产的完整列表，每个资产都关联了初始图像剖析时期取得的特定边界框消息。此详细映射造成了在仿真环境中准确重建场景的基础。

B. 仿真生成与评价

仿真生成的应战在于将事实环球的目的转化为机器人可执行的仿真程序。该代码必定准确定义仿真的初始性能和预期完结形态，同时经过测试来确认这些条件。至关关键的是，生成的仿真应优化为可行，使机器人战略能够在可接受的时期内顺利成功义务。

GRS的仿真生成环节以场景图像和场景形容为输入，概述见下算法1。受GenSim 的启示，咱们将仿真生成分为两个阶段：1）制订形象义务定义并选用适宜的资产；2）为义务编写仿真程序。本文的方法经过结合场景图像并经常使用VLM启动输入处置，增强了这两个步骤，有别于GenSim的LLM方法。与GenSim不同，咱们不经常使用预约义的资产，而是应用目的对应环节中识别的候选目的。这使咱们的义务生成受益于场景的视觉高低文和可用资产的文本形容。

义务定义生成 。在取得场景形容和选定的视觉资产后，系统首先生成义务定义，如图2的第二项所示。咱们提供场景消息、图像和资产形容，以生成合乎高低文的机器人义务。为顺应多种潜在义务，咱们准许义务经常使用观测到的局部资产。咱们专一于生成对机器人系统既适用又具备应战性的义务，这些义务理论触及特定模式操作场景中的目的，例如重叠特定东西或按类别分组目的。例如，系统或者生成如下义务：“将一切白色方块重叠在蓝色圆柱上”或“按大小顺序从左到右在桌子上陈列目的。”

这种方法准许创立宽泛的义务，从便捷的目的操作到更复杂的空间推理和组织应战，一切义务都依据给定场景中的特定目的和规划启动定制。经过应用宰割和目的对应环节成功的详细场景了解，咱们确保生成的义务不只多样且合乎实践场景高低文，同时在模拟环境中也是可行的。

仿真程序生成 。接上去，咱们经常使用VLM生成仿真代码，VLM接纳场景图像、义务定义和资产形容，如图2的第三项所示。为了确保生成的仿真有效地成功机器人义务，咱们还生成了由一系列测试组成的测试程序。测试程序的生成是经过将仿真程序和义务形容作为输入提供应LLM来成功的。

为使义务形容与生成的仿真分歧，咱们引入了一种陈腐的LLM路由系统，该系统灵活迭代仿真程序和测试。算法遵照一个繁复而有效的步骤：1） 运转测试 ：在仿真程序上执行测试并搜集失误消息。2）路由：依据义务形容和失误消息确定是更重生成的测试程序还是仿真程序。3）修复：经常使用VLM修复仿真代码或经常使用LLM修复测试代码，参考输入的场景图像、失误消息和义务定义。4）重复此循环，直到执行环节中不再出现失误。该算法在图2的最后一项中可视化展现。虽然此环节便捷，但其表现出了清楚的成果，使系统能够在多个组件及其相互相翻开启动推理。经过经常使用义务定义作为指点来优化仿真和关联的测试，咱们的路由系统确保概念义务形容与其在模拟环境中的实践成功分歧。

专一于适宜战略执行或训练的机器人仿真。为此，在测试生成环节中促使义务由oracle agent成功。揭示包括调用模拟器中oracle agent的API消息以及用于环境观察和执行的简化执行循环。oracle agent成功执行的规范十分严厉，但也十分有价值，要求代码无失误并在模拟器的物理解放内指定可成功的目的。虽然另一种代替方法可以只经常使用单元测试来审核场景定义的有效性，但咱们选用经常使用预言机器人战略启动测试。虽然这种选用或者会造成更高的生成老本，但它参与了后续义务生成成功的或者性。经过经常使用LLM编写测试，咱们确保预言行为具备与义务细节和场景分歧的测试辅佐。

试验

本文的方法旨在提高资产检索的准确性和义务仿真的分歧性。由于实在到仿真转换这一特定畛域不足基准数据，引入了一项新的试验，灵感源自桌面机器人义务。捕捉了10个不同的场景，每个场景平均蕴含15个物体。这些物体来自HOPE数据集，包括经常出现的杂货东西，其3D模型适宜用于物理仿真。同时，还参与了黑白立方体和容器。关于每个场景，经常使用ZED 2相机录制了一幅1080p的RGB图像以及点云数据。每个目的都有其对应的掩码、2D和3D边界框以及文本形容。图3展现了咱们数据集中的示例。基于此数据集，对生成适当对应相关的才干启动了详细评价。试验标明，经常使用视觉言语模型（VLM）结合文本形容能取得最高的准确性。此外，将GRS的仿真生成才干与先前提出的方法启动了比拟，生成结果的定性剖析显示其在生成用于机器人执行的仿真时更高效且性能更优。

A. 目的对应

本文设计了一个目的对应试验来评价模型在捕捉场景中检索正确资产的才干。关于数据集中的每个3D模型，咱们生成了三个视图，经过随机调整摄像机位置同时坚持焦点在目的上。接着，咱们经常使用VLM基于这些渲染图像生成详细的目的形容，形容蕴含形态、色彩、品牌或图案等特色。此外，还为每个裁剪的实在场景图像生成了VLM生成的文本形容。

这种设置准许咱们评价以下场景：

关于每种方法，区分测试了GPT4o和Claude-3.5-Sonnet。

下表I展现了目的检索结果。经常使用F1分数作为精度和召回率的平衡目的（更高的分数示意更好的性能），并对每项义务启动10次试验取平均值。每次试验生成资产形容和文本形容（假设适用）后再启动目的对应。GPT4o在一切义务中表现出更优秀的性能。

此外，蕴含了一个基于CLIP嵌入距离的基准方法。将资产图像嵌入到数据库中，比拟每个资产的三张图像的嵌入平均值与裁剪图像的嵌入，找出最小CLIP嵌入距离的婚配资产。假设一个实在场景图像裁剪的CLIP相似度低于0.5，则视为“不是目的”。

本文的方法优于基准方法，由于单纯基于CLIP嵌入距离婚配资产关于遮挡、物体姿态和光照条件的变动并不具备鲁棒性。启动了Kruskal-Wallis清楚性测验，由于数据不合乎正态性假定，不可经常使用ANOVA测验。Kruskal-Wallis测验发现义务类型、模型及其交互作用存在统计清楚性差异（p < 0.05），标明咱们的结果具备统计清楚性差异。

B. 机器人义务生成

本文设计了仿真生成试验来评价GRS在生成可用于机器人战略的有效仿真器方面的才干。仿真义务基于CLIPort框架，并在GenSim的揭示基础上启动了细微修正，以批示VLM经常使用输入图像。经过评价oracle战略成功生成义务的成果来权衡义务生成系统的表现。详细来说，执行GenSim的oracle战略三次，并对这些运转结果取平均值。

将本文的方法与以下三种对照组启动比拟：

最后一种对照方法与原始GenSim最为凑近。仿真生成仅经常使用GPT4o，由于其在目的对应方面表现出更优秀的性能。关于每个场景，咱们启动了30次生成，并在每次运转中最多准许10次修复代码（无论是仿真代码还是测试代码）。一切对照组均驳回相反的流程，其中无router限度为10次测试修复，本文的方法限度为仿真和测试总计10次修复。

本文的仿真生成方法使得oracle战略能够比其余方法取得更高的处罚，详见下表II。

本文报告了oracle战略在一切10个场景中生成的仿真义务的平均处罚。由于咱们的重点是将这些环境用于机器人训练，因此扫除了运转时失误的状况。一切结果都启动了归一化，其中处罚为1示意成功义务的一切目的。咱们发现，本文的方法生成的仿真关于战略执行是有效的，且移除测试反应（无修复和LLM）清楚降落了战略执行的成功率。下图3展现了咱们方法生成的仿真义务的定性结果。

此外，还钻研了仿真和测试修复的行为，以了解router的上班模式。router平均每个义务执行0.52次测试修复，标明最后生成的测试须要频繁修复。此外，与无router相比，router平均缩小了1.08次仿真修复（5.81次对6.89次），标明router在启动更改时更高效，每次生成净缩小了0.56次总更改。这支持了router能够更高效地智能生成仿真的观念。

C. 代码生成定性剖析

为深化了解GRS的行为，对router的行为以及在修复仿真和测试时所做的更改启动定性剖析。

：router展现了在测试反应过于稠密、难以诊断oracle失败要素时，优先更改测试的有用行为。当失误出现时，router能够适外地解析失误反应，以识别出须要修复测试的状况，如缺少导入或测试失误地经常使用仿真目的（例如，假定一个目的是列表而实践不是）。这种才干使router能够更有效地处置测试中遇到的经常出现失误。

仿真修复 ：仿真义务有时过于复杂，oracle不可成功执行。为了处置这一疑问，咱们观察到以下行为：1）经过缩小经常使用的目的数量来简化仿真（从而简化义务目的），2）参与oracle在完结尝试前可执行的最大步数，或3）扩展搁置目的的目的区域尺寸。这些修复理论是针对测试环节中oracle只取得局部成功的状况。这标明咱们的系统能够正确解析纤细的测试结果，即使没有明白的失误揭示，仅报告oracle的处罚较低。但是，这有时会造成偏离预期结果，例如移除预设的目的空间位置，只保管资产。

测试修复 ：在测试执行环节中，即使oracle未能成功义务，但没有发生无心义的失误，因此测试修复会参与关于oracle执行的诊断消息。这些包括关键性能目的的监控，例如步数、两边目标成功状况和处罚累积，从而在测试环节中提供反应信号。除此之外，测试修复还处置了与仿真环境组件的交互失误和目的曲解等基本疑问。测试修复还器重验证仿真环境的正确初始化和重置性能，确保目的设置正确并生成有效的观测数据。值得留意的是，这些改良是在经常使用通用揭示的前提下成功的，旨在指点系统测试oracle的成功，这表现了咱们优化的测试协定在不扭转外围测试范式的前提下，增强了系统评价的有效性。此外，这一方法有望随着更好的基础言语模型的改良而优化，无需对咱们的框架做出修正。

经常出现失败案例 ：在试验中，发现仿真代码在1200次生成中大概30次蕴含了或者不可中断的while循环，例如，在试图在受限区域内找到有效位置搁置资产时有限循环。这种行为并不总是造成失败，由于大少数状况下其行为是正确的。此外，非中断循环的条件或者造成仿真执行不可分开，从而挂起生成环节。可以经过在代码生成和修复环节中显式揭示防止经常使用此类循环来处置该疑问，并激励防止非中断疑问，或在基线生成和测试框架中成功超机遇制。

在修复环节中，LLM偶然会误判测试失败的要素，从而编写新的代码作为代替打算。在便捷状况下，LLM会编写几何操作或其余基础函数，而不是经常使用提供的API，例如在四元数和欧拉角之间转换3D旋转、从概率散布中采样、反转姿态等。在少数状况下，这甚至造成齐全从新成功底层处罚函数或oracle代理。另一种失败状况是LLM模拟仿真环境的创立或关键仿真行为，从而绕过了预期的行为。咱们估量随着LLM才干的优化，其失误诊断和代码修复才干将逐渐改良。

D. 场景级扩展

为展现本文方法的灵敏性，将生成管道扩展至场景级义务，经常使用了约15万个来自Objaverse的资产。从单个RGB观测开局，驳回背景估量，拟合一个MLP来估量背景外表SDF，接着运行marching cubes算法生成背景网格，流程参考了Dogaru等人的上班。在背景重建成功后，应用GRS的实在到仿真流程，将目的宰割与基于视觉-言语模型的目的婚配相结合，构建出3D义务环境（详见下图4）。这一上班是生成更复杂场景级义务的初步步骤，未来上班将继续探求这一方向。

论断

本文提出了GRS，一个从实在环球观测中生成机器人仿真义务的新系统。本文的方法无缝整合了场景了解、资产填充和义务生成，处置了实在到仿真的应战。引入了一个鲁棒的场景失掉系统，应用了SAM2和视觉-言语模型，集成了基于LLM的义务生成框架，并提出了驳回双重生成环节和router系统的翻新迭代技术。试验结果显示，GRS能够从单个RGB-D观测中成功准确的实在到仿真转换，展现了VLMs在弥合实在场景与仿真义务之间差距方面的弱小才干。还展现了该方法在更宽泛且多样的资产库中的潜在运行。

本钻研的影响逾越了机器人仿真畛域，或者减速机器人操作、虚构与增强事实、自主系统训练和计算机视觉方面的钻研与开发。虽然的成成成果良好，未来的上班可以着重于处置更复杂的场景、优化资产婚配的可扩展性、集成基于物理的推理，以及探求迁徙学习技术。随着咱们始终改良和扩展该方法，预期GRS将在弥合实在环球观测与仿真环境之间的差距方面施展关键作用，最终推进机器人系统的才干和顺应性进一步优化。

原文链接:

<<智能对话新纪元大模型推理服务

为什么你会觉得大模型很难学甚至学了良久还不知道大模型究竟是个什么玩意>>