Levine传授解读机器人AI的演进 Sergey

2024-11-15

“构想一下，有一天咱们能够打造出一个在厨房里执行各种义务的家庭机器人。那么疑问就不只仅是感知了。你真的须要学会各种团体操纵技艺，以便能够宽泛地泛化。”

Craig: 嗨，我是Craig Smith，欢迎收听《AI视界》。当天我和Sergey Levine启动了交谈，他是加州大学伯克利分校的副传授，在该校的机器人人工智能与学习实验室从事钻研，并推进着AI控制机器人的边界。Sergey谈到了他最近在强化学习和从环球各地的机器人中聚合数据集方面的一些上班，以协助训练一个能够在不同类型的机器人之间泛化的模型。这是关于具身AI的激动人心的钻研，将这一改革性技术从计算机带到了理想环球。我宿愿你会像我一样感觉这次对话很幽默。那么，Sergey，你能先引见一下自己吗？

Sergey: 我是加州大学伯克利分校的副传授，之前在斯坦福大学取得了博士学位，我还每周在谷歌的机器人部门上班一天，也在那里从事机器人学习方面的上班。我的钻研触及机器人畛域，但也触及到机器学习、强化学习等许多其余相关技术。最近，我的团队还在从事与言语模型、计算设计等相关的强化学习上班，以及决策制订的其余方面。

Craig: 大家都在议论环球模型，他们正在将环球模型和言语模型结合起来。你有在钻研环球模型吗？你对此持什么认识？

Sergey: 是的，我想我有一些话可以说。理论，假设咱们想要控制机器人系统，机器学习有几种方法可以成功这一指标。一种十分繁难的方法是模拟学习。模拟学习就是应用理论由控制系统的人提供的演示，而后模拟这些演示来尝试生成一个代理。机器人也可以为其余很多事件服务。可以说，言语模型只是渺小的模拟学习机器，由于它们在模拟人类生成文本。还有许多其余方法可以做到这一点。

Sergey: 所谓环球模型实质上就是一个灵活模型，它示意环境将如何照应代理的行为，咱们也可以从数据中学习到这一点。在强化学习中，理论将其称为基于模型的RL。基于模型的RL象征着训练一个模型来模拟环境行为，而后经常使用该模型来确定谢环球中如何执行。实践上，这是一个十分新鲜的学科。理想上，在模型有关RL变得如此盛行之前，最早的学习控制方法实践上是基于模型的RL方法。一些最早期的神经网络控制方法实践上经常使用了灵活建模。而且，有很多不同的实例化方法。你可以经过采取图像观测并启动视频预测来实例化灵活模型或环球模型。你也可以经过学习非重建性示意来实例化它们，或许是大抵上捕捉系统形态而不必定将其从新映射回像素，而后启动预测。因此，有很多不同的方法来做到这一点。

Craig: 最近我和Wave谈到了他们的Gaia模型，并看过了相关视频。但他们将该模型内置到一个控制器中，衔接到一个控制器，用于操作智能驾驶车辆。与您所从事的强化学习有什么不同之处，这种结构或架构有什么不同？

Sergey: 我感觉我没法说太多，由于我不知道他们的系统是如何上班的。我看过地下资料，和其他人一样，但我对细节并没有真正的了解。兴许有一点我可以说的是，大少数基于学习的控制方法不必定须要预测机器人摄像头未来会观察到的原始像素。这是一种方法，可以经过这种方法做很多事件，但我以为更关键的区别实践上是咱们能够多大水平上应用数据来发生更提升的决策，经过预测是一种方法，你可以预测像素，这就是视频预测模型所做的。你也可以预测结果或处罚，这是价值函数所做的。归根结底，它们实践上并没有那么不同，兴许更大的区别是你能否失掉一个在实在环球中真正有效的系统，是由训练数据选择的。例如，假设你想要实践在宽广的开明环球环境中上班的机器人操作系统，你须要在宽广的开明环球环境中对其启动训练。所以我在钻研中实践上关心的很多内容是，咱们如何开发可以经常使用少量数据的基于学习的控制技术，以及咱们如何确定咱们可以失掉什么样的数据集来取得真正的泛化才干？在我的状况下，理论是机器人操纵技艺，但也包含机器人导航技艺等方面的技艺，比如仓储系统的操纵。

Sergey: 很多时刻，这些疑问在很大水平上可以归纳为感知疑问。所以假设你以正确的方式构建你的环境，那么只需你能够检测到物体在哪里，你就可以经常使用手工设计的战略来处置这个疑问。这种方式往往效果不太好。假设你想把机器人系统带到更开明的环境中，比如有一天你构想中建造一个家用机器人，可以在厨房里执行各种义务，那么疑问就不只仅是感知了。那时你真的须要学会各种团体操纵技艺，并且须要能够宽泛地泛化。

Sergey: 所以在这里我或许可以探讨一下一个咱们最近实践上做的名目，这实践上是谷歌、伯克利和其余几所大学之间的协作名目，试图看看咱们如何能够失掉真正能够泛化到不同机器人外形的机器人控制器。这实践上十分关键，由于假设很多疑问都触及到数据，那么从一个繁多机器人中失掉到广度和多样性的数据，使得家用机器人能够成功你所希冀的宽泛泛化，是十分艰巨的。但假设你可以从许多不同的机器人中会集数据，那么兴许你就可以真正地取得这种笼罩范围。而且，假设你真的能做到这一点，并且你失掉了一个可以在各种机器人之间泛化的系统，那么你就可以失掉一些真正酷的东西，准则上，有人可以组装一些新的机器人系统，而后将这种机器人大脑拔出其中，立刻取得可以控制该机器人的东西。到目前为止，咱们在这方面所做的上班并不是太关心构建更好的模型，而是仅仅是失掉这种多样化的数据集，并运行咱们之前曾经开发的规范技术，而这实践上效果还不错。这个名目叫做RTX，其想法是咱们从最后有34个不同的钻研实验室那里取得了数据。

Sergey: 谷歌是其中之一，伯克利也是。实践上，在伯克利有两个实验室介入了这个名目，而后咱们在这个数据上训练了一个模型，来执行基本上是以言语为条件的操纵义务。

Sergey: 我以为你给机器人一个指令，比如捡起番茄放进碗里，机器人应该执行这个义务。而后咱们拿这个模型，交给了奉献数据的不同实验室，并让他们与他们钻研的任何模型启动比拟，基本上是在他们自己的系统上启动训练的，而多机器人模型实践上在成功率方面，平均提高了约50%，这实践上十分幽默，由于这与每个实验室的集体系统相竞争，并且可以假定有低劣的钻研人员。他们建设了一个相当好的上班系统。如今，这实践上是一种模拟学习方法，是以言语为条件的模拟学习。我以为，无论是模拟还是预测还是环球建模，我以为这些技术中的许多技术都可以做到。我想要传播的更关键的消息是，经过实践失掉这些数据集，你实践上可以失掉一个可以拔出一切这些不同机器人的系统，并且实践上从中取得良好结果。

Craig: 嗯，这很幽默。这个模型是经过各个介入实验室的数据集启动训练的。

Sergey: 是的，在这些实验中，咱们并没有测试它能否可以泛化到一个新的机器人。这关于这个畛域来说是一个十分激动人心的前沿，但那依然是在未来。这只是试图回答这样一个疑问：假设你包含其余实验室的数据，那么一个实验室的机器人能否会变得更好？当然，假设你处于少数派，假设你是那些提供相对较少数据的团队之一，你会预期看到相对更多来自其他人的好处。幽默的是，即使是大少数奉献者也看到了很多好处。

Sergey: 所以或许最大的数据粗放有10万次实验，来自谷歌自己的机器人，也就是咱们在很多机器人钻研中经常使用的移动底座。经过这个系统，咱们实践上能够在各种测试中对其启动测试。咱们有一套艰巨查问的测试套件。实践上，这些查问须要从网络上分解预训练的常识以及良好的指令追随才干，因此这些须要空间推理等技艺，而在最艰巨的测试中，咱们实践上看到了性能提高了三倍，仅经常使用谷歌数据集。如今在我看来，这实践上是十分深入的，由于谷歌的数据集是十分精心筹划的，是由专业人士搜集机器人数据的，而理想上，将一切这些来自长列表的学术实验室的额外数据源包含在内，实践上造成了这么大的改良，这确实标明了当你将足够多的来自不同起源的数据组合在一同时，会出现一种神奇的事件。是的，所以关于这些实验，咱们实践上是在传递模型。好的，数据集如今是地下的了。

Sergey: 所以任何人都可以拿到这个数据集并下载它，而后训练自己的模型。实践上，咱们在加州大学伯克利分校有一个正在启动的名目，我的在校生们都在介入。关于那个最后的实验，只是模型权重。嗯，这很幽默。只要模型权重。

Craig: 那么这个模型的架构在每个实验室都在复制。他们没有经常使用自己的模型。

Sergey: 是的，对的，所以这是完全相反的模型，完全相反的权重，必需驱动一切位置的所无机器人。是的，假设你细心想想，这实践上是一件十分不容易的事件，对吧？由于模型只能看到机器人经过摄像头接纳到的东西，必需处置这个疑问。如今我正在驾驶一个U形机器人，一个UR-10工业机器人，与如今我正在驾驶一个老本昂贵的WTOX机器人相比，或许如今我正在驾驶一个Franca或谷歌机器人，而后相应地调整控制。

Craig: 我在实验室时记得，你们的机器人是网络化的，所以从一个机器人学到的常识会降级到一个中央大脑，而后控制每个机器人。你能否启动过相似的更宽泛的实验，就像这个一样？

Sergey: 是的，是的，我很快乐你问到了这个疑问。实践上，在过去的五年里，这正是咱们不时试图做的事件，从某种水平上说，这种多机器人训练的致力局部上是抵赖了这种臂农场方法的局限性。所以把很多机器人放在一个房间里是很好的，假设你想要原型化，比如说，强化学习算法，然而假设你真的想要宽泛的泛化，它们不能都在同一个房间里。所以你真的须要更好地笼罩环球，经过会集来自许多不同地点的机器人的数据，如今你可以失掉更好的笼罩。如今这依然是一个或许成为更大系统的原型，由于这些依然是钻研人员搜集的数据集，实质上是在做迷信实验。所以你可以构想，未来，会集不会是跨不同的钻研实验室，而是跨不同的部署机器人。

Sergey: 如今，当然，这是一个更复杂的义务，须要不只仅是迷信，还须要某种组织的致力，公司的共识等等。但我以为，这实践上是真正的疑问，一旦这一点得以成功，你可以构想未来，来自各种不同地点的各种不同部署机器人的数据流将被聚合起来，而后用于训练一个集中式的机器人大脑，而后将其交给这些机器人以提高它们的性能。咱们想要冒这个名目的危险的关键是，即使在任何规模下启动这样的操作，你知道，即使在学术实验室的规模下，你能否可以失掉一个可以驱动一切不同机器人的战略？由于假设这是无法能的，那么聚合异构数据就行不通，咱们须要想方法启动规范化。规范化是艰巨的，所以如今咱们知道的是，咱们不用太担忧规范化。

Craig: 是的，这个模型，而后权重被传递，它们控制着不同方式的配置机器人，对吧，我是说？或许它们只是变种？

Sergey: 所以在这些实验中，机器人都是带有并行夹持器的手臂。咱们如今正在实验单臂和双臂系统之间的泛化。未来某个时刻，咱们还将钻研多指系统等等。到目前为止，假相是有点广告，它只是一个带有并行夹持器的手臂。它们只是不同品牌的手臂。如今它们确实有很大的不同。所以小规模的闲余Widow X手臂或许长约50厘米，相对较小，夹持器较弱。而UR-10机器人是一种用于制作业的工业机器人，相当大，更强健，有更弱小的电机，更强的夹持器，等等。所以有很多的变动。但它们依然是同一类型。

Craig: 是的，你在这些聚合数据上训练的模型是强化学习。你能形容一下这个模型吗？

Sergey: 咱们实践上训练了两个模型。一个基于去年在谷歌开发的RT1模型。RT1模型基本上是一个Transformer，它读入言语指令、命令、图像，而后输入团圆化的、分词化的行为。所以它简直可以说是基于Transformer的战略的最显著的设计方式。第二个模型是RT2模型，这是一个更近期的开展，它实践上经常使用了一个来自预先训练的视觉言语模型的主干。

Sergey: 所以视觉言语模型是经过训练的，可以检查图像并输入文本疑问的回答。所以你给它一张图片，而后你说像这张图片里有一只狗吗？它会发生一些文原本回答。而后咱们拿这个视觉言语预训练的主干，而后进一步在机器人数据上启动微调，以输入机器人观察的机器人行为。所以你可以构想一下，VLM有很多义务可以做。它可以回答疑问，它可以发生题目。如今还有一项义务，那就是给定一个机器人指令，输入机器人的举措。如今这是一个更弱小的模型，由于它有来自视觉言语模型预训练的互联网常识，而后咱们用于更复杂的查问，如空间相关等等。

Craig: 你大局部的上班都是在数据方面还是在模型方面。

Sergey: 嗯，实践上两者都是，某种水平上它们也是相反相成的，由于取决于你的算法能处置什么，这将选择你须要取得的数据类型。例如，我实验室如今做的更多的算法上班关注的是离线强化学习技术。

Sergey: 离线强化学习基本上是一种应用数据发生更优战略的方法。因此，模拟学习方法。它们接纳数据并发生重现数据中行为的战略。离线RL方法接纳数据并尝试发生比数据中平均行为更好的行为。因此，直观地说，你可以将其视为经常使用数据来了解可用的选项，而后在这些选项当选用最佳的。实践上，像咱们之前探讨过的经常使用环球模型的方法，可以看作是离线RL方法，由于它们的上班方式理论是在现有数据上训练环球模型，而后经常使用它来提取比数据集中典型的东西更好的控制战略。但也有其余建设离线RL技术的方式，不依赖于环球模型，而依赖于价值函数等等。

Craig: 你以为钻研将朝着什么方向开展，由于一切都在如此迅速地开展？关于机器人控制来说，你以为钻研将会确定一种架构，而后会有该架构的不同版本，但每团体都会赞同这是最好的方式，而后只是一个训练的疑问，泛化跨机器人和网络化数据？还是你以为将会有一系列模型用于各种配置？

Sergey: 是的，好疑问，所以我会给你一个答案。这是一个稍微理想化的答案，兴许这更像是我宿愿事件朝着的方向开展。我不知道这能否必定是事件将会开展的方式，但我以为关于机器人学来说，驳回一种习气性地领有可重用模型的范式是十分关键的，在计算机视觉和人造言语处置中，假设一个钻研人员提出了一个好的模型，其余机器人钻研人员应该能够经常使用它。

如今，这或许看起来是一个十分显著的事件，但实践上这并不是机器人学当天的上班方式。大少数机器人学习钻研，发生的工件实践上不是模型，而是代码、论文或见地。这些模型自身简直素来不是可移植的，更不用说跨实验室甚至同一实验室不同位置，同一实验室不同期间等等。

Sergey: 我以为咱们真的须要将这个环节转向一个方向，即咱们有了在不同位置和系统、不同对象等等之间启动泛化的数据集训练的模型，而后咱们可以将其提供应其余钻研人员、其余从业者，他们也可以在他们的系统上运转，一旦咱们找到了一个这样做的好方法，兴许经常使用像RTX数据集这样的东西，它有多个机器人，兴许经常使用其余数据，然而一些咱们可以养成这种习气的东西。

Sergey: 那么咱们实践上可以作为一个社区朝着共享的、可泛化的系统的方向取得更多的停顿。如今，在这之前，相对不能质疑人们能否会经常使用相反的架构、相反的模型，假设他们甚至不能在之间共享任何东西，那是无法能的。然而一旦咱们可以分享一些东西，兴许关键是一个数据集，它能够成功这一点，那么社区就可以找到处置方法，兴许到了那时，兴许有一个繁多的预训练的主干，就像人造言语处置中的Lama模型，在机器人学中有一个相似的模型，然前人们可以在其上构建。或许兴许会有几种这样的东西。兴许会有一些大的、设施完全的实验室消费的东西，其他人就可以在此基础上构建。但在咱们达就任何这些指标之前，咱们须要养成一个实践上可以运转的模型的习气。

Craig: 机器人学的另一方面就是配件，我前几天和一团体说话，他谈到了机器人控制系统的未来，他十分失望，说三到五年内将会有家用机器人，这听起来对我来说不太或许，由于仅仅配件方面就不是至少我见过的配件，它们还没有才干在充溢随机性的非结构化环境中启动监禁。你以为配件与人工智能的开展步伐分歧吗？还是滞后？

Sergey: 这是个很好的疑问。我以为这个疑问十分关键的一局部就是咱们须要什么样的配件。我以为在很大水平上，学习方法实践上应该降落配件的门槛。基本上你可以做的一种练习是拿一个相似渣滓拾取器的小设施，看看你可以在家里做什么样的义务。我是说，显然它十分有限，所以有些事件你或许做不到，但也有很多你可以做的事件。当然你可以清扫地板，把东西放在厨房的不同位置。一个相对原始的机器人系统实践上可以成功很多事件。

Sergey: 切尔西·芬（Chelsea Finn）传授团队的一项十分杰出的上班，我也在其中稍微帮了点忙，由一位名叫Tony Zhao的在校生开发了一个由Trostin Robotics的两个低老本机器人组成的双手臂机器人系统。所以这些甚至不是初级的工业机械臂。它们基本上是十分复杂的闲余机器人。所以它们每个大概破费5000美元，他的钻研中大局部的痴呆之处在于设计了一个十分繁难的远程操作系统，一个他可以用手持的方式控制这个相当廉价的双手臂系统的远程操作装置，他会展现各种十分复杂的行为。你可以看到像给脚穿鞋，用胶带把箱子固定住等等，而后你知道可以发生自主战略的学习方法设计得很好，但并不特意深入。

Sergey: 它基本上经常使用了最先进的基于Transformer的技术，但并没有真正具备任何特意惊人的翻新。关键在于构建一个真正好的远程操作系统，使他能够发生这些行为，而后有一个十分高品质的工程师将其转化为战略。所以这被称为阿罗哈系统，关于那些正在听的人，我激励你们去看一看，它或许会给你们一些想法，即使是十分原始的配件，假设装备了正确的数据，正确类型的远程操作装置来提供数据和良好的基础现代机器学习技术。如今这依然不能成功家务，但我疑心关于观看这些阿罗哈视频的人们来说，这或许会稍微扭转他们关于咱们每天义务所需配件的想法。所以或许依然存在一些翻新，但或许比你构想的要少。

Craig: 这很幽默。控制器方面，人工智能方面，模型方面，这是？我是说，假设那个配件是足够的，那控制方面还须要多少提高？

Sergey: 这是一个复杂的疑问，由于这或许在很大水平上取决于对持重性和泛化水平的要求。在某种水平上，这有点相似于智能驾驶的故事，假设你想要构建一辆能够在90%的状况下成功的智能驾驶汽车，那么这或许是咱们曾经有了十多年的事件了。然而假设你想要一辆能够成功防止劫难性缺点的智能驾驶汽车，具备足够的持重性，可以在任何市区的任何路线上部署，只需处置一切那些边缘状况，那这依然是一个悬而未决的疑问，我以为关于家用机器人也将是一样的，假设你想增添大局部的事件和大局部的状况，兴许那还没有完全到位，但我以为可以构想咱们很快就能到达那个指标。但要完全处置那些边缘状况须要多常年间，这是一个愈加复杂的疑问。

Sergey: 我以为一个十分幽默的事件是，在过去的12个月中，视觉言语模型的开展水平，这关于机器人来说尤其关键，由于只管视觉言语模型理论用于更多的感知、传统感知义务、问答等等，然而关于视察觉看的推理，关于对象的空间规划的推理，这些事件很或许会转化为更好的机器人才干，由于泛化是我提到的那些大应战之一，边缘状况疑问，我以为有很多理由对这些模型最终改善机器人控制器的持重性感到失望。

Sergey: 人们正在议论将言语和视觉，或许我应该说言语和环球模型，结合到能够启动推理、规划和采取执行的代理中。这听起来对我来说十分像机器人控制。

Sergey: 我想问的是，钻研和从事机器人控制的人们，钻研走在不同的轨道上，答案有点复杂，但繁难来说，兴许是，是与许多机器人疑问亲密相关的。理想上，在机器人畛域，有很多关于经常使用言语模型构建方案，而后将这些方案衔接到某种可以成功它们的控制机制的上班。如今，这方面的上班或许大概是在两年前开局的。在这个畛域，或许更为人熟知的一项上班是谷歌的Seikan论文，它经常使用言语模型为机器人规划了常年行为。最后在这个畛域，人们关注的一个严重应战是如何将言语模型与感知和执行衔接起来，由于规范的言语模型必需谢环球的符号示意上运转，所以你必需将这些符号示意与丰盛的感知和复杂的执行咨询起来。最后这样做的方法是沿着你形容的方式启动的，试图构建一种联结规划环节，该环节将找出一个概率序列的符号步骤，基本上是言语，以及将造成这一结果的相应行为。实践上，我的一位共事来自Skult，提出了一篇名为“基于低空的解码”的论文，提出了一种贝叶斯滤波方法来做到这一点。不过，咱们在过去的大概六到九个月里看到的一件事是，随着视觉言语模型变得越来越弱小，一种十分吸引人的代替方案是，实践上训练模型来处置整个疑问。如今这些模型依然可以启动规划。

Sergey: 假设你有一个视觉言语模型，可以输入文本，也可以输入执行，你可以启动相似于思想链揭示的操作。你可以说，好的，这里有一个复杂的疑问，而后发生处置该疑问的步骤，一旦你发生了这些步骤，而后发生执行，这是可行的。所以你可以通知一个机器人，好的，比如，预备早餐，而要预备早餐，我须要做这个和这个，而后，关于这个环节的第一步，它会尝试输入执行。所以这是经常使用视觉言语模型的一种可行方式，但这依然是一个模型。你依然会失掉一个模型，这是十分可取的，由于假设你有一个模型，那么你就不须要处置这个疑问，试图将视察觉看数据塞入符号示意，而后传递给言语模型。基本上，经过全体的联结训练，这个接口不是经过手工设计的，而是人造地出现。

Sergey: 这实践上是R2-2模型的准则，其中一个例子是咱们征询它。咱们无心构建了一个场景，其中正确的行为有点不显著。所以咱们有一个场景，外面有一些经常出现的家庭用品和一些失误类型的工具，所以应该用一个石头钉子。没有锤子，但有一块石头，咱们问，“好的，你须要用钉子钉入钉子，你应该怎样做？”而后它想出了你应该拿起石头。它实践上说了石头，而后转到相应的执行。所以如今这是十分原始的规划，对吧？所以它更像是语义推理而不是规划。但这些东西还处于萌芽阶段。我以为它们在未来几年里还会取得更大的提高。

Craig: 在过去的五年里，我以为自从我上次和你交谈以来的期间，你们畛域的提高能否与生成式人工智能的提高相分歧？

Sergey: 我以为机器人畛域的提高总是会落后于其余畛域，由于当咱们找到有效的学习技术时，而后从概念上的方法到产品，再到小规模原型，再到大规模原型，总是须要更长的期间，由于关于生成模型，嗯，你可以从网络上失掉少量数据，所以从开发方法到将其裁减到互联网规模的数据理论的提前期间比拟短。

Sergey: 但关于机器人来说，理论状况并非如此。所以只管生成模型的现代停顿确实对机器人发生了严重影响，而且这些技术的特意幽默的顺应是与强化学习、规划等相结合，但我以为到目前为止，咱们对这些事物的后劲有很多良好的迹象，但咱们还没有像分散模型那样为图像生成或言语模型那样的大规模原型。我以为关键是取得这些种类的可重用模型，这些模型具备少量且多样化的数据，这样咱们就可以消费这些更大的原型。

Craig: 是的，那么你们实验室接上去会做什么？

Sergey: 咱们宿愿做的一件事是向社区提供预训练模型，如今咱们实践上有了一个可以轻松顺应各种下游运行的数据集。所以不只是一个可以做任何事件的模型，兴许这是一个太雄心勃勃的指标，但至少是一个可以顺应做任何事件的模型。所以你可以构想，比如说，一个模型被预先训练，用于接纳言语、接纳指标观察、其余方式的命令，并为各种不同的机器人体制输入结果，这不必定是处置每个疑问，但至少提供了一个很好的初始化。所以假设有人有一个特定的机器人系统，有一个特定的义务表述，一个特定的指标，他们可以拿来用这个，用更少的数据，来顺应他们的疑问。我以为如今咱们实践上曾经有了良好的多机器人数据集和相当成熟的技术，可以训练具备可变输入和输入的模型，咱们实践上曾经预备好了。所以咱们的第一个原型应该很快就会推出。但这将是第一步。

Sergey: 接上去，咱们须要摸索这样一个系统的生命周期实践上是什么样的？哪些是有效调零件器人基础模型到特定畛域、不同外形、不同命令等的正确技术？在那里或许实践上有很多幽默的疑问须要解答。例如，机器人可以自主搜集数据，因此你能否可以基于其中一个这些预训练模型来启动自主微调程序？你能否可以有一个尊重安保解放的微调程序等等？所以一旦咱们有了基础模型，就有很多幽默的疑问可以解答。

Craig:我不时在和人们探讨专有、开源答辩的疑问。在生成式人工智能和机器人畛域，能否存在相似的状况，即有着渺小资源的企业？我的意思是，机器人并不像你所说的模型那样计算密集型。是这样吗？因此，在产业和钻研中出现的事件能否愈加对等？

Sergey: 是的，这是复杂的。所以当然，计算解放是一个疑问，尤其是当咱们进入到视觉言语模型时。最有效的视觉言语模型实践上是最大的模型。例如，R2-2模型的最大版本有500亿个参数，十分凑近目前最大的模型。当然，你可以在小得多的规模上做很多实验，这使得它在某种水平上更容易凑近。

Sergey: 就数据而言，这有点幽默。必需有一些公司部署了少量机器人。不过，这些公司的数据未必是最幽默的，由于假设它们部署在一个仓库里，关键是拿取东西，兴许在某些方面，钻研人员的开明数据实践上更幽默。假设是移动性疑问，如智能驾驶，状况就有所不同，像是，确实有一些大型工业公司领有自己的专有技术，但即使在那里，像是从汽车仪表板装置的摄像头构建的数据集如今也十分庞大。当然，它必需不像特斯拉或Waymo

领有的那样大，然而还是相当可观。所以我以为你说得对，一些专有长处或许并不那么大，但这有点。或许更失望的认识是，由于没有人领有数据，所以公司也没有数据。

Craig: 自主车辆的控制和机器人手臂或其余方式要素的控制，它们是不同的畛域吗？我是说，当你们在钻研这些模型时，你们也在思考它们在智能驾驶中的运行吗？

Sergey: 传统上，这些是十分不同的疑问，但咱们越来越多地看到一种整合的趋向，由于十分相似的构建模块可以被重用。所以我以为实践上的智能驾驶或许是其中最辣手的疑问之一，由于有一切的解放和法规等等。但关于小规模移动机器人，比如，无人机、人行道机器人等，咱们曾经有钻研名目开发了基于视觉的导航战略。关于这些东西，它们经常使用的基本上是与咱们用于机器人操纵疑问的完全相反的架构，一个十分人造的下一步是实践上结合起来，不只仅是有相反的架构，而是实践上是相反的模型。

Sergey: 准则上，在这一点上，实践上并没有任何技术阻碍。如今，当然，开车，比如说，一辆智能驾驶汽车的控制远不只仅是避开阻碍物和抵达目的地。你必需添加很多常识、解放等等，这或许是相当专业化的。但我的假定是，咱们或许会看到很多在这些东西的外围感知执行系统上具备相反基本构建块的整合，兴许它们的区别在于位于其上的规划层，而后在特定状况下指点它们实践要做什么。

Sergey: 你的上班呢？由于计算解放、资金、工资等等的要素，学术界关于产业的吸引力能否更大，或许你能否在学术界和产业之间上班？你是坚决的吗？

Sergey: 是的，我有20%的期间在谷歌DeepMind上班。我以为，就产业钻研员或学术钻研员在机器人畛域的吸引力或提高水平而言，或许它更偏差于学术界，而不是像人造言语处置或视觉畛域那样。兴许局部要素是由于在事件真正发生支出之前，还有许多大疑问须要处置，你可以构建一个提供实践商业案例的言语模型或视觉系统，而相似的机器人技术或许还须要几年的期间。不过，我确实以为停顿迅速，我所率领的许多在校生关于基于他们正在开发的技术开办公司等事件感到兴奋。所以我以为在不久的未来咱们将会看到这方面的追逐。

Craig: 你以为往年AI进入公共畛域，人们经常将机器人与AI混杂。这一天会来到吗？我是说，显然这一天会来到，但你以为什么时刻会来到，当会有一些商业运行或开源运行被群众接受时，人们会突然议论机器人而不是AI吗？

Sergey: 是的，这是一个复杂的疑问，由于我以为假设我必需猜想，我会猜想除了外围技术之外，还须要相当大的前期投资来克制适用化的激活能量。在某种水平上，这并不是史无前例的，由于与言语模型简直相反的事件出当初那里。下一个令牌预测的外围技术是相当新鲜的。真正须要的是将少量的精神投入到对它们启开工程化和筹划，搜集和组装正确的数据集，使它们真正有效，以致于基本上马何人都可以经常使用。这局部。

Sergey: 那里有一个迷信识题，但很多疑问实践上是组织经济学的疑问，而这些疑问很难预测，由于它们更多地与人们选择何时投入少量资源来使之成为理想相关，而不只仅是预测技术的退化。技术或许会稳步开展，但转机点实践上是资源调配，所以我不能预测这将会出现的期间。假设我必需打赌，我会更凑近于五年而不是十年，但我不确定。

Craig: 这个争执曾经在社区中惹起了很多争议。你对此有什么认识，还是你的畛域足够独立，你不会介入其中？

Sergey: 是的，这是一个复杂的疑问。我偏差于不太情愿介入这样的探讨，由于我不太确定事件会如何开展，我以为，兴许作为一个机器人学家，我或许更偏差于对咱们全体AI系统的现状有些失望。很难构想一个无法控制机器人启动人类容易的基身手件的AI系统会有如许才干特殊，但这些东西很难预测。我以为在AI钻研中惟一的常数或许是，人们经常被事件的易于构想以及事件的艰巨水平所惊讶。假设咱们回到几十年前，想到艺术家和作家会被AI系统要挟到，那是在园丁和清洁工之前，这是十分令人震惊的，但这是咱们当天生存的环球。兴许这通知咱们要对咱们的预测坚持一些虚心。

Craig: 是的，没错。环球各国政府十分关注对生成式AI

的监管。能否有关于机器人或AI和机器人的监管，或许政府能否正在关注？能否有政府允许？有很多关于为钻研和小型公司提供计算资源，以便这些资源不会被这些大型科技公司控制的探讨。在机器人畛域能否有这样的探讨，政府应该或可以提供更多资源来减速钻研？

Sergey: 是的，必需有很多关于这个疑问的探讨。就我所见，理论状况下，这并不是将机器人或人工智能与其余事物区离开来的事件。当然有关于这个的探讨。但我还没有看到很多实践执行，但我想这是一个停顿缓慢的事件。在这方面，我不以为我会和其余任何人工智能钻研者说出不同的话。从我目前所见，我以为没有任何特意特殊的事件看待机器人。然而，这是一个严重疑问，咱们在美国必需须要仔细思考咱们如何坚持技术长处以及如何调配必要的资源。

Craig: 这引出了另一个疑问，由于我在中国家过了我生命中的很多期间。在这项钻研中，中国处于什么位置？你以为他们上游还是落后？

Sergey: 我不太确定。有一件事我可以说，我以为来自中国大学的钻研人员在人工智能的各个畛域，包含机器人学，在一切畛域都取得了很大的成功，而且必需有很多十分幽默的钻研成绩来自中国。例如，当咱们启动很少数据集搜集上班时，咱们实践上十分惊讶地发现，上海的一些钻研人员颁布了一个十分惊人的数据集，与咱们搜集的数据集在规模、范围和多样性上相当，这很棒。他们以开源的方式颁布了它。我和他们经过电话交谈过。他们对他们想要用它做什么有很幽默的想法，所以我看到了很多品质和结果方面的提高。

Sergey: 另一个幽默的事件是，实践上有相当多的配件提高是由中国的公司推进的。例如，四足步行钻研中最宽泛经常使用的平台之一是来自中国的一个名为Unitary的公司，我以为这个平台之所以如此吸引人的要素是由于它相对繁难，多少钱实惠，并且设计得让钻研人员容易进入其中的外部机制，我以为这实践上也是一件十分好的事件，由于只管咱们或许会担忧竞争等疑问，但最终这实践上是减速了美国的钻研进程。这是我到目前为止所见到的，我不想对什么是好或坏做出价值判别。看起来有很多事件在出现。

Craig: 这一期就到这里了。我要感谢Sergey抽出期间来和咱们交谈。与此同时，请记住，奇点兴许不会很近，但人工智能正在扭转你的环球，所以要留意。

本文转载自，作者：

<<基于LLM增强的介绍系统重排

环球上第一个聊天机器人并非旨在成为聊天机器人>>

Levine传授解读机器人AI的演进 Sergey

您可能还会对下面的文章感兴趣：

随便看看