上大提出TinyVLA 高效视觉 让具身自动更快更强!华东师大&
论文链接:名目链接:
具身自动近期开展迅速,领有了大模型"大脑"的机械臂在举措上愈加高效和准确,但现有的一个难点是:模型遭到算力和数据的制约。如何经常使用更少的训练数据,以更快的推理速度,成功媲美OpenVLA的功能?当天给大家分享的TinyVLA,就是来处置这个难题的,还有多种规模的模型可供选用!
总结速览
处置的疑问 :现有的视觉-言语-举措(VLA)模型在推理速度慢和须要少量机器人数据启动预训练方面面临应战,限度了实践运行。
提出的打算 :引入一种新型紧凑型视觉-言语-举措模型TinyVLA,提供更快的推理速度和更高的数据效率,消弭预训练阶段的需求。
运行的技术 :TinyVLA框架包括两个关键组件:1) 经常使用高效的多模态模型初始化战略主干;2) 在微调环节中集成分散战略解码器,以成功准确的机器人举措。
到达的成果 :TinyVLA在仿真和实践机器人上启动了宽泛评价,清楚优于现有的VLA模型OpenVLA,在速度和数据效率上表现更佳,同时在言语指令、未知物体、位置变动等方面展现出弱小的泛化才干。
方法
1. 训练轻量级VLM模型。 现有的VLM大多在30亿参数以上,推理速度较慢,训练周期长,因此咱们训练了一系列愈加紧凑的VLM模型,咱们经常使用pythia作为咱们的LLM局部,参照LLaVA的框架咱们训练了3个不同大小的VLM,参数量从4亿到14亿。以此作为咱们VLA的主干网络。
2. 机器人数据微调VLA模型。 咱们用训练好的VLM权重来初始化咱们的VLA模型,然而VLM只能生成言语,不可间接生成举措;OpenVLA和RT-2驳回将举措团圆化的方式,将举措预测义务转变成next token prediction义务,但这种方式会使得模型的训练难度大大参与;因此咱们采取用policy head 网络交流原有的llm head,从而在不破坏举措延续性的同时,使得模型训练愈加便捷。咱们采取Diffusion policy网络来预测举措。为了参与举措的分歧性以及优化举措预测效率,TinyVLA一次性性会预测未来16步的举措。为了进一步缩小资源消耗,咱们经常使用LoRA微调VLM局部,使得须要训练的参数只占总参数的5%。
试验
仿真试验结果
如图所示,TinyVLA-H在metaworld的50个义务上都逾越baseline,特意是较难的义务中,更是大幅上游。
多义务真机试验结果
1. 单臂多义务虚验。 如图所示,在5个实在环境下的义务区分测试20次,经常使用不同的权重测试3轮并且统计成功率均值和方差。TinyVLA-H成功了最好的成果,在翻马克杯义务、叠方块义务以及关抽屉义务上都到达了96%以上的成功率,平均成功率到达94%,比OpenVLA优化了25.7%。并且,从TinyVLA-S到TinyVLA-H,随着模型参与,成功率也在参与,证实TinyVLA合乎Scaling Law。
2. 双臂义务虚验。 双臂环境和单臂齐全不同,由于对应的举措维度不同,而OpenVLA是自回归方式生成举措,切换到双臂环境造成举措长度不分歧,使得OpenVLA没法反常生成举措,并且Open-x Embodiedment数据集也只蕴含单臂义务,这进一步造成OpenVLA不可反常生成双臂举措。而TinyVLA无需修正模型结构,只有要更改变作维度,即可间接迁徙到双臂环境。如图所示,在3个实在环境下的义务区分测试10次,经常使用不同的权重测试3轮并且统计成功率均值和方差。TinyVLA-H 依然大幅上游Baseline。
泛化试验结果
1. 指令泛化。 由于TinyVLA的主干网络是一个在大规模图片文本数据集上预训练的VLM模型,虽然没在相应的机器人指令数据集上预训练,但TinyVLA-H表现出了一些相似于RT-2的指令了解才干。为了更好的区分难度,划分了3个难度等级(越大越难),第1级,了解未在机器人数据中产生的色彩;第2级,区分不同物体;第3级,区分新的物体并且成功已知物体的新用途。关于第1级,TinyVLA能准确区分不同色彩的同一物体,且该色彩并没有在机器人数据集中产生。第2级,TinyVLA能区分不同物体,这些物体虽然都出如今机器人数据中但并没有同时产生过,也没有在相应的区分义务中训练过。第3级,指令是全新的,要求TinyVLA抓起一个没有在机器人义务中见过的小车并放到盒子里,留意盒子只在开盖子的义务中产生过。
2. 视角泛化。 视角泛化是机器人畛域的一大难题,细微晃动视角都或许会造成义务成功失败。TinyVLA在必定范围内展现出了视角泛化才干。如图所示,咱们测试了4个视角度数,范围从-30度到+30度,左右视角区分测试。关于关抽屉义务,TinyVLA展现出较好的才干,然而精度要求更高的叠方块义务则较难成功义务。
3. 位置泛化。 位置泛化要求模型不只有能在图片中识别出目的物体的位置,还要求模型能泛化到不同的举措空间。而TinyVLA在这项测试中大局部位置能够成功义务,少局部极其位置则逊色于OpenVLA。这或许是由于OpenVLA在大规模的机器人数据集上预训练,且该数据集重要是pick place的义务类型。
4. 物体以及外观泛化。 改换不同的物体或许相反的物体变换色彩,TinyVLA能成功媲美OpenVLA的功能,而只有要OpenVLA约1/5的参数量,且推理速度更快。
5. 背景泛化。 背景变动雷同会造成义务失败,由于背景理论会造成大面积的搅扰,从而影响义务的成功。咱们测试了6种背景下模型能否还能反常成功义务,且咱们选用的叠方块和抓网球都是位置敏理性义务,更容易收到搅扰。测试结果如图,TinyVLA与OpenVLA展现出了相近的才干。
6. 光照泛化。
论断
在机器人畛域,VLA模型展现出了弱小的泛化才干,包括但不限于物体、搅扰物、指令泛化等。但VLA模型同时也面临着两个严格的疑问,一方面现有的VLA如RT-2、OpenVLA有着70亿参数甚至550亿参数,宏大的参数量到造成模型的推理速度十分缓慢,OpenVLA在H100上推理也只能到达约6Hz的运转频率。另一方面,现有VLA都是在宏大的机器人数据上预训练过的,比如OpenVLA在Open-x Embodiedment>
TinyVLA将现有的VLM模型和Diffusion policy网络相结合,将VLM的泛化才干迁徙到机器人畛域的同时,还能应用Diffusion policy网络从而缓解自回归生成造成的推理速度缓慢。咱们依据LLaVA的框架首先预训练了一系列不同大小的VLM,而后将VLM的权重间接迁徙到咱们的VLA模型,再用下游机器人数据启动LoRA微调。依据VLM的参数质变动,咱们的TinyVLA也有三种规模,总参数量从4亿到13亿参数。
在下游义务上,咱们最大的TinyVLA-H推理提前比OpenVLA快20倍且单臂环境平均义务成功率高出25.7%,如下图所示。同时咱们的TinyVLA还能够间接迁徙到双臂环境,无需修正网络结构等,只有要修正预测的举措维度即可;但受限于OpenVLA的自回归结构以及预训练数据均为单臂,造成其很难在双臂环境下反常运转。此外咱们的TinyVLA在多个泛化目的上能到达与OpenVLA相媲美的功能,比如物体泛化、位置泛化、搅扰物、背景泛化;而在视角变动泛化上,TinyVLA更是遥遥上游,在-30度到30度的超大范围测试中,局部状况仍能准确成功义务。
原文链接: