上大提出TinyVLA 高效视觉让具身自动更快更强！华东师大&amp

2024-11-15

论文链接：名目链接：

具身自动近期开展迅速，领有了大模型"大脑"的机械臂在举措上愈加高效和准确，但现有的一个难点是：模型遭到算力和数据的制约。如何经常使用更少的训练数据，以更快的推理速度，成功媲美OpenVLA的功能？当天给大家分享的TinyVLA，就是来处置这个难题的，还有多种规模的模型可供选用！

总结速览

处置的疑问 ：现有的视觉-言语-举措（VLA）模型在推理速度慢和须要少量机器人数据启动预训练方面面临应战，限度了实践运行。

提出的打算 ：引入一种新型紧凑型视觉-言语-举措模型TinyVLA，提供更快的推理速度和更高的数据效率，消弭预训练阶段的需求。

运行的技术 ：TinyVLA框架包括两个关键组件：1) 经常使用高效的多模态模型初始化战略主干；2) 在微调环节中集成分散战略解码器，以成功准确的机器人举措。

到达的成果 ：TinyVLA在仿真和实践机器人上启动了宽泛评价，清楚优于现有的VLA模型OpenVLA，在速度和数据效率上表现更佳，同时在言语指令、未知物体、位置变动等方面展现出弱小的泛化才干。

方法

1. 训练轻量级VLM模型。 现有的VLM大多在30亿参数以上，推理速度较慢，训练周期长，因此咱们训练了一系列愈加紧凑的VLM模型,咱们经常使用pythia作为咱们的LLM局部，参照LLaVA的框架咱们训练了3个不同大小的VLM，参数量从4亿到14亿。以此作为咱们VLA的主干网络。

2. 机器人数据微调VLA模型。 咱们用训练好的VLM权重来初始化咱们的VLA模型，然而VLM只能生成言语，不可间接生成举措；OpenVLA和RT-2驳回将举措团圆化的方式，将举措预测义务转变成next token prediction义务，但这种方式会使得模型的训练难度大大参与；因此咱们采取用policy head 网络交流原有的llm head，从而在不破坏举措延续性的同时，使得模型训练愈加便捷。咱们采取Diffusion policy网络来预测举措。为了参与举措的分歧性以及优化举措预测效率，TinyVLA一次性性会预测未来16步的举措。为了进一步缩小资源消耗，咱们经常使用LoRA微调VLM局部，使得须要训练的参数只占总参数的5%。

试验

仿真试验结果

如图所示，TinyVLA-H在metaworld的50个义务上都逾越baseline，特意是较难的义务中，更是大幅上游。

多义务真机试验结果

1. 单臂多义务虚验。 如图所示，在5个实在环境下的义务区分测试20次，经常使用不同的权重测试3轮并且统计成功率均值和方差。TinyVLA-H成功了最好的成果，在翻马克杯义务、叠方块义务以及关抽屉义务上都到达了96%以上的成功率，平均成功率到达94%，比OpenVLA优化了25.7%。并且，从TinyVLA-S到TinyVLA-H，随着模型参与，成功率也在参与，证实TinyVLA合乎Scaling Law。

2. 双臂义务虚验。 双臂环境和单臂齐全不同，由于对应的举措维度不同，而OpenVLA是自回归方式生成举措，切换到双臂环境造成举措长度不分歧，使得OpenVLA没法反常生成举措，并且Open-x Embodiedment数据集也只蕴含单臂义务，这进一步造成OpenVLA不可反常生成双臂举措。而TinyVLA无需修正模型结构，只有要更改变作维度，即可间接迁徙到双臂环境。如图所示，在3个实在环境下的义务区分测试10次，经常使用不同的权重测试3轮并且统计成功率均值和方差。TinyVLA-H 依然大幅上游Baseline。

泛化试验结果

1. 指令泛化。 由于TinyVLA的主干网络是一个在大规模图片文本数据集上预训练的VLM模型，虽然没在相应的机器人指令数据集上预训练，但TinyVLA-H表现出了一些相似于RT-2的指令了解才干。为了更好的区分难度，划分了3个难度等级（越大越难），第1级，了解未在机器人数据中产生的色彩；第2级，区分不同物体；第3级，区分新的物体并且成功已知物体的新用途。关于第1级，TinyVLA能准确区分不同色彩的同一物体，且该色彩并没有在机器人数据集中产生。第2级，TinyVLA能区分不同物体，这些物体虽然都出如今机器人数据中但并没有同时产生过，也没有在相应的区分义务中训练过。第3级，指令是全新的，要求TinyVLA抓起一个没有在机器人义务中见过的小车并放到盒子里，留意盒子只在开盖子的义务中产生过。

2. 视角泛化。 视角泛化是机器人畛域的一大难题，细微晃动视角都或许会造成义务成功失败。TinyVLA在必定范围内展现出了视角泛化才干。如图所示，咱们测试了4个视角度数，范围从-30度到+30度，左右视角区分测试。关于关抽屉义务，TinyVLA展现出较好的才干，然而精度要求更高的叠方块义务则较难成功义务。

3. 位置泛化。 位置泛化要求模型不只有能在图片中识别出目的物体的位置，还要求模型能泛化到不同的举措空间。而TinyVLA在这项测试中大局部位置能够成功义务，少局部极其位置则逊色于OpenVLA。这或许是由于OpenVLA在大规模的机器人数据集上预训练，且该数据集重要是pick place的义务类型。

4. 物体以及外观泛化。 改换不同的物体或许相反的物体变换色彩，TinyVLA能成功媲美OpenVLA的功能，而只有要OpenVLA约1/5的参数量，且推理速度更快。

5. 背景泛化。 背景变动雷同会造成义务失败，由于背景理论会造成大面积的搅扰，从而影响义务的成功。咱们测试了6种背景下模型能否还能反常成功义务，且咱们选用的叠方块和抓网球都是位置敏理性义务，更容易收到搅扰。测试结果如图，TinyVLA与OpenVLA展现出了相近的才干。

6. 光照泛化。

论断

在机器人畛域，VLA模型展现出了弱小的泛化才干，包括但不限于物体、搅扰物、指令泛化等。但VLA模型同时也面临着两个严格的疑问，一方面现有的VLA如RT-2、OpenVLA有着70亿参数甚至550亿参数，宏大的参数量到造成模型的推理速度十分缓慢，OpenVLA在H100上推理也只能到达约6Hz的运转频率。另一方面，现有VLA都是在宏大的机器人数据上预训练过的，比如OpenVLA在Open-x Embodiedment>

TinyVLA将现有的VLM模型和Diffusion policy网络相结合，将VLM的泛化才干迁徙到机器人畛域的同时，还能应用Diffusion policy网络从而缓解自回归生成造成的推理速度缓慢。咱们依据LLaVA的框架首先预训练了一系列不同大小的VLM，而后将VLM的权重间接迁徙到咱们的VLA模型，再用下游机器人数据启动LoRA微调。依据VLM的参数质变动，咱们的TinyVLA也有三种规模，总参数量从4亿到13亿参数。

在下游义务上，咱们最大的TinyVLA-H推理提前比OpenVLA快20倍且单臂环境平均义务成功率高出25.7%，如下图所示。同时咱们的TinyVLA还能够间接迁徙到双臂环境，无需修正网络结构等，只有要修正预测的举措维度即可；但受限于OpenVLA的自回归结构以及预训练数据均为单臂，造成其很难在双臂环境下反常运转。此外咱们的TinyVLA在多个泛化目的上能到达与OpenVLA相媲美的功能，比如物体泛化、位置泛化、搅扰物、背景泛化；而在视角变动泛化上，TinyVLA更是遥遥上游，在-30度到30度的超大范围测试中，局部状况仍能准确成功义务。

原文链接:

<<自动体协作退化论从心智实践到逆向留意力

OpenAI开源SimpleQA！轻松检测校准大模型才干刚刚>>

上大提出TinyVLA 高效视觉 让具身自动更快更强！华东师大&amp

总结速览

方法

试验

仿真试验结果

多义务真机试验结果

泛化试验结果

论断

您可能还会对下面的文章感兴趣：

随便看看

上大提出TinyVLA 高效视觉让具身自动更快更强！华东师大&amp