张俊林 o1的价值意义及强化学习的Scaling Law OpenAI
蹭下热度谈谈 OpenAI o1 的价值意义及 RL 的 Scaling law。
一、OpenAI o1 是大模型的渺小提高
我感觉 OpenAI o1 是自 GPT 4 颁布以来,基座大模型最大的停顿,逻辑推理才干优化的成果和方法比预想的要好,GPT 4o 和 o1 是开展大模型不同的方向,然而 o1 这个方向更基本,关键性也比 GPT 4o 这种方向要关键得多,要素上方会剖析。
这是两种不同的大模型开展思绪,说瞎话在看到 GPT 4o 颁布的时刻我是有些绝望的,我过后以为 OpenAI 会优先做 o1 这种方向,然而没想到先出了 GPT 4o。GPT 4o 实质上是要探求不同模态相互融合的大一统模型应该怎样做的疑问,关于优化大模型的智力水平预计协助不大;而 o1 实质上是在探求大模型在 AGI 路上能走多远、天花板在哪里的疑问,很显著第二个疑问更关键。
GPT 4o 的疑问在于自身大模型的智力水平还不够高,所以做不了复杂义务,造成很多运行场景不可适用化,而指望靠图片、视频这类新模态数据大幅优化大模型智力水平是不太或许的,虽然确实能拓展更丰盛的多模态运行场景,但这类数据补偿的更多是大模型对内在多模态环球的感知才干,而不是认知才干。优化大模型认知才干关键还要靠 LLM 文本模型,而优化 LLM 模型认知才干的外围又在复杂逻辑推理才干。LLM 的逻辑推理才干越强,则能解锁更多复杂运行,大模型运行的天花板就越高,所以不遗余力地优化大模型尤其是文本模型的逻辑才干应该是最关键的事件,没有之一。
假设 o1 模型才干越做越强,则可以反哺 GPT 4o 这种多模态大一统模型,可以经过间接用 o1 基座模型交流 GPT 4o 的基座、或许应用 o1 模型生成逻辑推理方面的分解数据增强 GPT 4o、再或许用 o1 蒸馏 GPT 4o 模型….. 等等,能玩的花招应该有很多,都可以间接优化 GPT 4o 的复杂义务处置才干,从而解锁更复杂的多模态运行场景。OpenAI 未来方案两条线,一条是 o1,一条是 GPT 4o,它的内在逻辑大略应该是这样的,就是说经过 o1 增强最关键的基座模型逻辑推理才干,而再把这种才干迁徙到 GPT 4o 这种多模态通用模型上。
OpenAI o1 的做法实质上是 COT 的智能化。
咱们知道,经过 COT 把一个复杂疑问拆解成若干便捷步骤,这无利于大模型处置复杂逻辑疑问,但之前关键靠人工写 COT 来达成。从用户提出的疑问构成树的根结点登程,最终走到给出正确答案,可以想像成相似 AlphaGo 下棋,构成了渺小的由 COT 详细步骤构成的树形搜查空间,这里 COT 的详细步骤的组合空间是渺小的,人写的 COT 未必最优。假设咱们有少量逻辑数据,是由 <疑问,明白的正确答案> 构成,则经过相似 AlphaGo 的 Monte Carlo Tree Search(MCTS)搜查 + 强化学习,确实是可以训练大模型极速找到通向正确答案的 COT 门路的。
而疑问越复杂,则这个树的搜查空间越大,搜查复杂度越高,找到正确答案触及到的 COT 步骤越多,则模型生成的 COT 就越复杂,体如今 o1 的速度越慢,生成的 COT Token 数越多。很显著,疑问越复杂,o1 自己生成的暗藏的 COT 越长,大模型推理老本越高,但成果最关键,老本其实不是疑问,最近一年大模型推理老本降落速度奇快,这个总有方法极速降下去。
从上方 o1 的做法可以知道 Prompt 工程会逐渐沦亡。
之前处置复杂疑问,须要人写十分复杂的 Prompt,而 o1 实质上是 COT 等复杂 Prompt 的智能化,所以之后是不太须要用户自己结构复杂 Prompt 的。原本让用户写复杂 Prompt 就是不兽性化的,一切复杂人工过程的智能化,这必需是大势所趋。
Agent 属于概念火但不可适用化的方向 ,关键要素就在于基座模型的复杂推理才干不够强。假设经过基座模型 Plan 把一个复杂义务分解为 10 个步骤,哪怕单个步骤的正确率高达 95%,要想最后把义务做对,10 个过程的准确率连乘上去,最终的正确率只要 59%,惨不忍睹。那有了 o1 是不是这个方向就出路坦荡?也是也不是,o1 的 Model Card 专门测试了 Agent 义务,关于便捷和中等难度的 Agent 义务有显著优化,然而复杂的、过程多的义务准确率还是不太高。就是说,不是说有了 o1 Agent 就现状黑暗,然而很显著 o1 这种经过 Self Play 增强逻辑推理才干的方向应该还有很大的开展后劲,从这个角度讲说 Agent 未来出路黑暗疑问应该不大。
OpenAI 很多时刻起到一个行业指路明灯的作用,往往是第一个证实某个方向是行得通的(比如 ChatGPT、GPT 4、Sora、GPT 4o 包括这次的 o1),而后其他人开局疯狂往这个方向卷,到起初甚至卷的速度太快把 OpenAI 都甩到前面吃尾气。典型例子就是 Sora,假设 OpenAI 不是出于阻击竞争对手秀一下肌肉,大家都没无看法到原来这个方向是可以走这么远的,但当看法到这一点后,只需你专注地卷一个方向,方向明白且资源聚焦,是或许赶超 OpenAI 的,目前国际外各种视频生成模型有些甚至或许曾经比 Sora 好了,Sora 至今依然是期货形态,关键 OpenAI 想做的方向太多,资源扩散造成分到详细一个方向的资源不够用,所以越往后开展期货形态的方向越多,也让人感觉尽显疲态。
OpenAI o1 等于给大家又指出了一个前景黑暗的方向,预计前面大家又开局都往这个方向卷。我感觉卷这个方向比去卷 GPT 4o 和视频生成要好,虽然详细怎样做的都不知道,然而慷慨向清楚且成果基本获取证实,过半年必需头部几家都能摸清详细技术追过去,宿愿能再次让 OpenAI 吃尾气。而且这个方向看上去资源消耗应该不会特意大,倾向算法和数据一些,数据量规模预计不会特意渺小,卷起来貌似老本低一些。这是个卷的好方向。
粗分的话,大言语模型最基础的才干有三种:言语了解和表白才干、环球常识存储和查问才干以及逻辑推理才干(包括数学、Coding、推理等文科才干,这里 Coding 有必定的不凡性,是言语才干和逻辑掺杂在一同的混合才干,Coding 从言语角度可以看成一种受限的人造言语,然而混同着复杂的内在逻辑疑问。从言语角度看,Coding 貌似是容易处置的,从逻辑角度看又相对难处置。总之,Coding 目前看是除了言语了解外,大模型做得最好的方向)。
言语了解和表白是 LLM 最强的才干,初版 ChatGPT 就可以齐全胜任各种纯言语交流的义务,基本到达人类水准,目前即使是小模型,在这方面比大模型才干也不弱;环球常识才干虽说随着模型规模越大成果越好,但幻觉疑问目前不可根治,这是制约各种运行的硬伤之一;逻辑推理才干不时都是 LLM 的弱项,也是最难优化的方面,从 GPT 4 开局往后,如何有效并大幅优化 LLM 的逻辑推理才干是表现不同大模型差异和长处的最外围疑问。所以,大模型最关键的一个是环球常识方面如何有效消弭幻觉,一个是如何大幅优化复杂逻辑推理才干。言语才干已不是疑问。
从大模型的基础才干,咱们再说回曾经被谈滥了的大模型 Scaling law。如今广泛以为经过参与数据和模型规模来优化大模型成果的 Scaling law 形式,其增长速度在放缓。其实咱们对照下大模型的三个基础才干的才干来源,基本就能看进去这是为啥(以下是我猜的,不保真):
实质上大模型的才干来源都来自训练数据,蕴含能表现这方面才干的训练数据越多,则这种才干越强。言语才干不用说了,恣意一份预训练数据,其中都蕴含相当比例的言语的词法句法等成分,所以训练数据中表现言语才干的数据是最多的,这也是为何大模型的言语才干最强的要素。
而数据中蕴含的环球常识含量,基本是和训练数据量成正比的,显著数据量越多,蕴含的环球常识越多,Scaling law 是数据中蕴含的环球常识含量相关的一个表现,然而这里有个疑问,大模型见过越少数据,则新数据外面蕴含的新常识比例越小,由于很多常识在之前的数据里都见过了,所以随着数据规模增大,遇到的新常识比例就越低,谢环球常识方面就表现出 Scaling law 的减缓现象。
为啥逻辑推理才干最难优化?由于能表现这方面的人造数据(代码、数学题、物理题、迷信论文等)在训练数据中比例太低,人造大模型就学不好,虽然经过不时参与数据,能参与逻辑推理方面数据的相对数量,但由于占比太少,这方面优化的成果和参与的总体数据规模就不成比例,成果也不会太显著,就体如今逻辑推理才干 Scaling law 看上去的放缓。这是很人造的。这也是为何如今为了提高模型逻辑才干,往往在预训练阶段和 Post-training 阶段,大幅参与逻辑推理数据占比的要素,且是有功效的。
所以目前大模型的外围才干优化,聚焦到不时经过火解数据等方式结构更多比例的逻辑推理数据过去。然而大局部逻辑推理数据的方式是 < 疑问,正确答案 >,缺了两边的详细推理步骤,而 o1 实质上是让大模型学会智能寻觅从疑问到正确答案的两边步骤,以此来增强复杂疑问的处置才干。
OpenAI o1 提到了关于 RL 在训练和推理时刻的 Scaling law,并指出这与预训练时刻的 Scaling law 具备不同个性。很显著,假设 o1 走的是 MCTS 搜查技术路途,那么把 COT 拆分的越细(参与搜查树的深度),或提出更多的或许选用(节点的分支增多,就是说树的宽度越宽),则搜查空间越大,找到好 COT 门路或许性越大,成果越好,而训练和推理的时刻须要算力必需越大。看上去有着成果随着算力增长而增长的态势,也就是所谓的 RL 的 Scaling law。这其实是树搜查原本应有之义,我倒感觉把这个称为 RL 的 Scaling law 有点徒有虚名。