竟在拖LLM后腿 ChatGPT LeCun联手开怼RLHF！ Karpathy 秘方

2024-11-15

昨天，Andrej Karpathy又发了长推，不过用了一句很有争议的话扫尾——「RLHF只是勉强的RL」。

这条推特堪称「一石激发千层浪」，瞬间扑灭了LLM社区的探讨激情。

毕竟RLHF作为刚提出没几年的方法，又陈腐又有争议。一边遭受质疑，一边又在工业界和学界迅速盛行。

5G冲浪的LeCun也赶来支援Karpathy，但他的话很短，只要一句——「RLHF不是真正的RL」。

RLHF最早可以追溯到OpenAI安保团队2017年宣布的论文：

论文地址：

过后，Jan Leike还在DeepMind、Dario Amodei还没开办Anthropic，而OpenAI还没all in言语模型，仍是一家钻研范围更宽泛的AI公司。

他们提出，经过人类反应，让AI模型更好地学习「如何翻出一个美丽的后空翻」。

训练时，AI agent在环境中始终观察并执行，并获取鼓励模型的反应启动自我改良。但比拟特意的是，鼓励函数是由拟合人类反应获取的。

2019年，这项技术被用到了NLP畛域，用于微调言语模型。

论文地址：

这篇论文附带的代码也很好地定义了RLHF的规范流程。

仓库地址：

到了2022年3月，ChatGPT颁布前夕，OpenAI颁布了经常使用RLHF微调过的大模型InstructGPT，这是弥合GPT-3和GPT-3.5 Turbo之间差距的关键一步，后者为ChatGPT的推出提供了关健能源。

论文地址：

尔后，RLHF就成为了OpenAI、DeepMind、谷歌、Anthropic等AI巨头们训练模型的必备环节。

所以，Karpathy为什么会突然对此发难？咱们先来看一下他的推特原文是怎样说的。

Karpathy原帖的大意如下：

RLHF全称为「从人类反应中启动强化学习」（Reinforcement Learning from Human Feedback），是训练LLM的第三个阶段，也是最后一个关键阶段，接在预训练和监视微调（SFT）之后。

我对RLHF的批判是：它简直算不上是真正的强化学习，而且我以为这一点没有被宽泛了解。强化学习很弱小，而RLHF则不然。

让咱们来看一个AlphaGo的例子，它的训练用到了实践的RL算法：计算机经过下围棋，在最大化鼓励函数（即赢得较量）的推演环节中启动训练，最终逾越了最低劣的人类棋手。AlphaGo并不是用RLHF训练的，否则它的效果就不会这么好。

那么，用RLHF训练AlphaGo会是什么样子呢？首先，你须要让人类标注者看到两个围棋局面，并征询他们更青睐哪个：

你须要搜集大略10万条这类的对比数据，并训练一个「鼓励模型」RM（Reward Model）来模拟人类对棋盘形态的这种「直觉判别」（vibe check），使RM的判别在平均水平上与人类分歧。

有了鼓励模型的直觉判别，就可以在此基础上运转强化学习，让原模型学习下出能够让人类直觉上以为不错的棋步。

显然，这在围棋中不会产出太好的结果，有两个基本且独立的要素：

1. 直觉或许会发生误导。这并不是真正的鼓励（赢得较量），而是个很差的代替指标。但更糟的是——

2.强化学习优化会失控，由于它很快就会发现反抗鼓励模型的棋盘形态。RM是一个领有数十亿参数的宏大神经网络，用来模拟直觉。有些棋盘形态超出了训练数据的散布范围，或许并不是好的形态，但由于偶然性，也会从RM获取了很高的鼓励。

出于齐全相反的要素，有时我惊讶于RLHF对LLM的效果，由于其中的RM也在启动雷同的直觉判别。它对人类评分员仿佛青睐的那类照应打出高分，但这不是正确处置疑问的「实践」指标，只是人类感觉不错的代替指标。

其次，RLHF不能运转太久，由于原模型很快就能学会操控鼓励模型，从而预测出一些看起来很奇异的token。比如，LLM助手会开局对揭示词照应一些无厘头的内容，像「the the the the the the」。

这在人类看来很荒唐，但由于某种要素，RM以为这些照应看起来很棒。

这就是LLM找到的反抗性案例（adversarial examples），关于RM的训练数据而言，这是未定义畛域的散布外数据。

你可以重复将这些特定例子增加到训练集中来缓解这种状况，但下次还会有其余反抗性案例发生。因此，RLHF不能运转过多步骤，几百/几千步后就必定停下，由于模型的优化环节将开局操控RM。这不是像AlphaGo那样的强化学习。

但是，在构建LLM助手时，RLHF照旧是利大于弊。其中有几个巧妙的要素，但我最青睐指出的是，LLM可以经过RLHF环节受益于生成器和判别器之间的难度差距（generator-discriminator gap）。

关于许多类型的疑问，相比于从零开局撰写理想答案，人类标注者会感觉从几个候选当选用最佳答案要容易得多。比如这样的揭示：「生成一首关于回形针的诗」，个别的人类标注者很难写出一首好诗作为SFT示例，但在给出几个候选答案的状况下，他们可以选出一个看起来不错的诗。

因此，RLHF相当于应用了这种人类监视的「简便性」差距。

还有其余几个要素，例如，RLHF也有助于缩小幻觉现象。假设RM是一个足够弱小的模型，可以捕捉到LLM的虚拟内容，就能经过低鼓励来处罚这种行为，教会模型在不确定时防止冒险经常使用理想知识。但对幻觉及其令人满意的缓解措施是另一个话题，此处不再赘述。

总之，RLHF确实是净有用的，但它不是传统的强化学习。

迄今为止，在开明畛域还没有发生消费级的「实践」RL方法，可以大规模地在LLM上成功，并给出令人信服的演示。从直观上讲，这是由于在开明式的疑问处置义务中给出鼓励值（等效于AlphaGo赢得较量）确实很艰巨。

在一个敞开的、相似游戏的环境中，比如围棋，灵活遭到限度，鼓励函数易于评价且不可操控。但你如何为总结一篇文章提供明白的鼓励？或许回答关于pip装置的略显含糊的疑问？或许讲个笑话？或许将一些Java代码重写为Python？

准则上，朝这个方向开展是或许的，但并不便捷，它须要一些发明性的思索。假设有人给出令人信服的处置打算，就能运转实践的强化学习，那种让AlphaGo在围棋中击败人类的强化学习，只是最后获取的LLM将有或许在开明畛域疑问处置中击败人类。

强化学习究竟是什么

假设RLHF「不是RL」，那真正的RL是什么？

Karpathy的形容比拟繁复而直观——就是AlphaGo用的那种。

幸亏，「强化学习」是一团体为提出的概念，更容易厘清；而且「强化学习之父」Richard Sutton专门写过一本书来解释这个畛域的基本疑问。

扫尾第一章第一节，强化学习的基本概念。只管不是谨严完备的数学定义，但基本说明了要点。

除了agent和环境的存在，强化学习系统中还有以下四个要素：

那么疑问来了，依据Sutton书中对强化学习的定义，你赞同Karpathy的说法吗？

谁赞同，谁推戴？

十分显著的是，Karpathy的观念吸引了许多LLM畛域的学者和钻研员的关注。

谷歌大脑、DeepMind钻研迷信家Kevein Murphy：

Allen AI机器学习钻研员Nathan Lambert回复：

这张图出自Lambert自己撰写的博客：

之后，他又专门发推动一步解释：

很稀有的是，以上是为数不多力挺Karpathy的观念。少数人还是站在了Karpathy的统一面反驳他。

评论区有网友间接回怼：「你就是看鼓励函数不悦目」。

Karpathy只能继续解释：

马里兰大学副传授Furong Huang的观念更强调RLHF对LLM的价值。

Mila在读博士、Meta钻研员Pierluca D'Oro自己就在为agent开发鼓励模型，他赞同Karpathy「RLHF不是真正的RL」的说法，但并不以为Karpathy预期的那种鼓励模型能够成功。

华盛顿大学助理传授、谷歌AI初级钻研迷信家Natasha Jaques的推戴态度更显明，力挺RLHF方法：

原文链接:

<<清华大学NeurIPS24 时序大模型AutoTimes 结合In

PLAN LLMs在人造言语布局上的基准 NATURAL>>

竟在拖LLM后腿 ChatGPT LeCun联手开怼RLHF！ Karpathy 秘方

强化学习究竟是什么

谁赞同，谁推戴？

您可能还会对下面的文章感兴趣：

随便看看