卡内基梅隆&amp 斯坦福颁布Gen2Act 视频生成和具身自动强强联结！谷歌&amp 泛化超棒！

2024-11-15

文章链接：名目链接：

亮点直击

总结速览

处置的疑问

机器人操作战略在面对新义务时，往往难以处置未见过的物体类型和新举措。由于机器人数据采集老本高，如何成功操作战略的泛化是一个关键应战。

提出的打算

提出Gen2Act方法，经过从网络数据中预测静止消息，生成人类视频，并将机器人战略与生成的视频结合。经过零样本的人类视频生成疏导机器人战略口头新义务，防止少量的机器人数据采集。

运行的技术

到达的成果

Gen2Act能够让机器人操作未见过的物体，并成功机器人数据中未蕴含的新举措义务，在实在场景中展现出多样化的泛化才干。

方法

本文开发了一种基于言语条件的机器人操作系统Gen2Act，能够在未知场景中泛化到新义务。为成功这一指标，驳回了合成方法：

概述与设置

人类视频生成

经常使用现有的文本+图像条件下的视频生成模型启动义务的视频生成。咱们发现的视频生成模型能够在零样本状况下很好地生成人类视频，而无需任何微调或适配（如下图3中的示例）。相比于一些之前的上班[57, 58]尝试生成机器人视频，专一于人类视频生成，由于的视频生成模型不可在零样本状况下生成机器人视频，并且须要特定的机器人微调数据才干成功。这种微调往往会削弱那些基于网络大规模数据训练的生成模型在新场景中的泛化长处。

从生成的人类视频到机器人举措翻译

在Gen2Act中，将轨迹预测作为训练时期的辅佐损失，并与BC损失相结合，而在测试时不经常使用轨迹预测Transformer。这有助于缩小测试时的计算量，提高部署效率。

部署

为了部署 Gen2Act 来处置操作义务，首先依据义务的言语形容和场景的图像生成一团体类视频。接着，经常使用生成的视频作为条件倒退闭环战略。

关于口头蕴含多个义务的长时优惠链，咱们首先经常使用现成的大型言语模型（如 Gemini）来失掉不同义务的言语形容。咱们经过经常使用前一个战略口头后的最后一帧图像作为生成后续义务人类视频的第一帧，来为义务序列链接 Gen2Act。咱们选用按顺序生成视频，而不是从最后的图像生成一切视频，由于在机器人口头了两边义务后，场景中的物体最终形态或者会不同。

实验

在厨房、办公室和实验室等多样化场景中启动实验，涵盖了少量操作义务。这些实验旨在回答以下疑问：

评价设置的具体消息

依照以往的言语/指标条件战略学习上班，用口头的机器人轨迹能否处置了指令中规则的义务来量化成功，并定义基于同一义务形容的屡次倒退的成功率。咱们依据不同泛化水平启动分类，驳回之前上班中的术语：

这里，已见和未见是相关于机器人交互数据定义的，并假定视频生成模型曾经看过包括机器人数据未见内容在内的丰盛网络数据。

数据集和配件细节

关于视频生成，经常使用现有的 VideoPoet 模型，并调整其条件以顺应方形图像和义务的言语形容。在咱们的实验中，没有对该模型启动任何微调，发现它可以间接泛化到所无机器人实验场景中的人类视频生成义务。

关于机器人实验，经常使用了一台带有柔顺双指夹具的移动操作机器人，机器人经过末端口头器控制启动战略部署。机械臂装置在机器人右侧的机身上。手动在办公室、厨房和实验室场景中移动机器人，并让它操作这些场景中的不同物体。机器人操作频率为 3Hz，每次义务开局前，将机器人的手臂重置到一个预约义的位置，以确保机器人的摄像头不会遮挡场景。

为了训练视频条件战略，经常使用了由先前上班搜集的现有离线机器人示范数据集，并经过另一先前上班搜集的一些人类视频示范配对启动增强。此外，咱们经过经常使用视频生成模型，基于各自机器人示范的首帧，生成对应的人类视频，创立了一对一的方式（生成的人类视频，机器人示范）的配对。关于生成的人类视频和机器人示范中的点轨迹，经常使用了现成的跟踪方法。人类视频生成和点轨迹生成都齐全在离线一次性性成功，并不会参与战略训练时的老本。

基线与对比

与基线方法和 Gen2Act 的不同变体启动了对比。特意是，与一个基于言语条件的战略基线（RT1）启动了对比，该战略在与 Gen2Act 相反的机器人数据上训练。此外，咱们还与基于视频条件的战略基线（Vid2Robot）启动了对比，该战略经常使用配对的真人和机器人视频启动训练。另一个基线是基于指标图像条件的战略（RT1-GC），该战略仅依赖 Gen2Act 的实在和生成视频的最后一帧（即指标图像）启动条件训练。最后，思考了不带轨迹预测损失的 Gen2Act 变体。

人类视频生成剖析

前面图 3 显示了在多样化场景中生成的人类视频的定性结果。咱们可以看到，生成的视频正当地操作了文本指令中形容的场景。场景中的相应物体失掉了操作，同时坚持了背景的完整性，并且没有引入摄像头移动或生成中的伪影。这些结果令人兴奋，由于这些生成在新场景中是零样本的，并且可以间接用于机器人义务中，以构想如何操作未见的物体和场景。

Gen2Act 在场景、物体和举措中的泛化才干

本节比拟了 Gen2Act 与基线方法和不同消融变体在不同泛化水平下的体现。下表 I 显示了义务在不同泛化水平上的成功率均值。咱们观察到，在更高的泛化水平下，Gen2Act 的成功率清楚更高，标明结合了静止消息的提取（经过轨迹预测）的人类视频生成在未见义务中十分有协助。

Gen2Act 的长时操作义务链接

接上去，剖析了 Gen2Act 在经过义务链接处置一系列操作义务中的可行性。下表 II 显示了如“制造咖啡”这类长时优惠的结果，这些优惠由多个按顺序口头的义务组成。咱们经过 Gemini取得这些义务的序列，并对每个义务，经常使用前一个义务口头后场景的最后一帧作为视频生成的条件，并在生成的人类视频的条件下口头义务的战略。依次重复此环节，并报告每个阶段的成功率（5 次实验中的成功次数）。下图 5 直观地展现了来自四个长时优惠的单次口头倒退。

经常使用额外的遥操作示范启动独特训练

之前实验中经常使用的离线数据集在场景和义务类型上笼罩有限，造成在更高的泛化水平（前面表 I 中的 OTG 和 MTG）上 Gen2Act 的成功率不到 60%。在本节中，咱们经过实验钻研了参放大批额外的多样化遥操作轨迹，结合现有的离线数据集独特训练，能否可以协助优化泛化才干。视频生成模型坚持不变。下表 III 的结果显示，经过独特训练，Gen2Act 的体现有所优化。这令人振奋，由于这标明仅经过大批多样化的示范，Gen2Act 的翻译模型就可以更好地依据生成的视频在机器人数据有限的更高泛化水平下优化体现。

失败剖析

本节探讨了 Gen2Act 的失败类型。发现，关于 MG 和必定水平上的 G，视频生成中的不准确与战略失败的关系性较小。而在更高泛化水平（物体类型 OTG 和举措类型 MTG）下，假设视频生成的结果不正当，战略往往不可成功口头义务。这也证实了 Gen2Act 的战略在口头义务时应用了生成的人类视频来推断静止线索，因此当视频生成在机器人数据允许有限的场景中产生失误时（例如在 OTG 和 MTG 中），战略将失败。

探讨与论断

总结。 本钻研提出了一个结合零样自己类视频生成与有限机器人演示的框架，用于学习具备泛化才干的机器人操作义务。总体而言，上班标明，基于非机器人数据集（如网络视频）训练的静止预测模型可以协助操作战略在未见场景中成功泛化，而不须要为每个义务搜集机器人数据。

局限性。 本上班关键依赖于零样自己类视频生成，并经过视频中的点轨迹预测为机器人操作系统提供静止线索，协助其与未见物体交互并口头新义务。因此，系统的才干受限于视频生成模型的限度，如不可生成真切的手部举措，因此在口头十分精细的义务时才干有限。

未来上班。 探求从生成的视频中复原更多密集的静止消息（例如对象网格）以处置的限度，或者是未来钻研的一个幽默方向。另一个关键的方向是，经过学习复原战略来处置两边失败，进一步增强义务链的牢靠性，以允许长时操作义务。

原文链接:

<<Qwen2.5 新一代开源大模型的出色力气探求阿里通义千问

HPN LLM 阿里针对大规模训练的万卡集群>>