OpenAI震撼颁布o1大模型！强化学习打破LLM推理极限刚刚

2024-11-14

大模型畛域的技术开展，当天起再次「从 1 开局」了。

大言语模型还能向上打破，OpenAI 再次证实了自己的实力。

北京时期 9 月 13 日午夜，OpenAI 正式地下一系列全新 AI 大模型，旨在专门处置难题。这是一个严重打破，新模型可以成功复杂推理，一个通用模型处置比此前的迷信、代码和数学模型能做到的更难的疑问。

OpenAI 称，当天在 ChatGPT 和大模型 API 中新颁布的是该系列中的第一款模型，而且还只是预览版 ——o1-preview。除了 o1，OpenAI 还展现了目前正在开发的下次降级的评价。

o1 模型一举发明了很多历史记载。

首先，o1 就是此前 OpenAI 从山姆・奥特曼到迷信家们不时在「高调宣传」的草莓大模型。它领有真正的通用推理才干。在一系列高难基准测试中展现出了超强实力，相比 GPT-4o 有渺小优化，让大模型的下限从「没法看」间接回升到低劣水平，不专门训练间接数学奥赛金牌，甚至能在博士级别的迷信识答环节上逾越人类专家。

奥特曼示意，只管 o1 的体现依然存在毛病，不过你在第一次性经常使用它的时刻依然会感到震撼。

其次，o1 给大模型规模裁减 vs 性能的曲线带来了一次性上翘。它在大模型畛域重现了当年 AlphaGo 强化学习的成功 —— 给越多算力，就输入越多智能，不时到逾越人类水平。

也就是从方法上，o1 大模型初次证实了言语模型可以启动真正的强化学习。

开收回首个 AI 软件工程师 Devin 的 Cognition AI 示意，过去几周不时与 OpenAI 亲密协作，经常使用 Devin 评价 o1 的推理才干。结果发现，与 GPT-4o 相比，o1 系列模型关于处置代码的智能体系统来说是一个严重提高。

最后在通常中，o1 上线之后，如今 ChatGPT 可以在回答疑问前先细心理考，而不是立刻信口开河答案。就像人类大脑的系统 1 和系统 2，ChatGPT 曾经从仅经常使用系统 1（极速、智能、直观、易出错）退化到了可经常使用系统 2 思想（缓慢、深思熟虑、无看法、牢靠）。这让它能够处置以前不可处置的疑问。

从当天 ChatGPT 的用户体验来看，这是向前迈进一小步。在便捷的 Prompt 下，用户或许不会留意到太大的差异，但假设问一些辣手的数学或许代码疑问，区别就开局清楚了。更关键的是，未来开展的路线曾经开局浮现。

总而言之，今晚 OpenAI 丢出的这个重磅炸弹，曾经让整个 AI 社区震撼，纷繁示意 tql、睡不着觉，深夜曾经开局抓紧学习。接上去，就让咱们看下 OpenAI o1 大模型的技术细节。

OpenAI o1 上班原理

在技术博客《Learning to Reason with LLMs》中，OpenAI 对 o1 系列言语模型做了具体的技术引见。

OpenAI o1 是经过强化学习训练来口头复杂推理义务的新型言语模型。特点就是，o1 在回答之前会思索 —— 它可以在响运行户之前发生一个很长的外部思想链。

也就是该模型在作出反响之前，须要像人类一样，花更多时期思索疑问。经过训练，它们学会完善自己的思想环节，尝试不同的战略，并看法到自己的失误。

在 OpenAI 的测试中，该系列后续降级的模型在物理、化学和动物学这些具有应战性的基准义务上的体现与博士生相似。OpenAI 还发现它在数学和编码方面体现杰出。

在国内数学奥林匹克（IMO）资历考试中，GPT-4o 仅正确解答了 13% 的疑问，而 o1 模型正确解答了 83% 的疑问。

模型的编码才干也在较量中失掉了评价，在 Codeforces 较量中排名 89%。

OpenAI 示意，作为早期模型，它还不具有 ChatGPT 的许多适用配置，例如阅读网页失掉信息以及上行文件和图片。

但关于复杂的推理义务来说，这是一个严重提高，代表了人工智能才干的新水平。鉴于此，OpenAI 将计数重视置为 1，并将该系列模型命名为 OpenAI o1。

重点在于，OpenAI 的大规模强化学习算法，教会模型如何在数据高度有效的训练环节中应用其思想链启动高效思索。换言之，相似于强化学习的 Scaling Law。

OpenAI 发现，随着更多的强化学习（训练时计算）和更多的思索时期（测试时计算），o1 的性能继续提高。而且裁减这种方法的限度与大模型预训练的限度有很大不同，OpenAI 也还在继续钻研。

1.评价

为了突出相关于 GPT-4o 的推理性能改良，OpenAI 在一系列不同的人类考试和机器学习基准测试中测试了 o1 模型。试验结果标明，在绝大少数推理义务中，o1 的体现清楚优于 GPT-4o。

o1 在具有应战性的推理基准上比 GPT-4o 有了很大的改良。

o1 在宽泛的基准测试上比 GPT-4o 有所改良，包括 54/57 MMLU 子类别，图示出了 7 个以供说明。

在许多推理密集型基准测试中，o1 的体现可与人类专家相媲美。最近的前沿模型在 MATH 和 GSM8K 上体现得十分好，以致于这些基准测试在辨别模型方面不再有效。因此，OpenAI 在 AIME 上评价了数学效果，这是一项旨在测试美国最痴呆高中数学在校生的考试。

在一个官网演示中，o1-preview 解答了一个十分艰巨的推理疑问：当公主的年龄是王子的两倍时，公主的年龄与王子一样大，而公主的年龄是他们如往年龄总和的一半。王子和公主的年龄是多少？提供这个疑问的一切解。

在 2024 年 AIME 考试中，GPT-4o 平均只处置了 12% (1.8/15) 的疑问，而 o1 在每个疑问只要一个样本的状况下平均为 74% (11.1/15)，在 64 个样本之间达成分歧的状况下为 83% (12.5/15)，在经常使用学习的评分函数对 1000 个样本从新排序时为 93% (13.9/15)。13.9 分可以跻身全美前 500 名，并且高于美国数学奥林匹克竞赛分数线。

OpenAI 还在 GPQA Diamond 基准上评价了 o1，这是一个艰巨的智力基准，用于测试化学、物理和动物学方面的专业常识。为了将模型与人类启动比拟，OpenAI 延聘了领有博士学位的专家来回答 GPQA Diamond 基准疑问。

试验结果标明：o1 逾越了人类专家的体现，成为第一个在该基准测试中做到这一点的模型。

这些结果并不象征着 o1 在一切方面都比博士更有才干 —— 只是该模型更长于处置一些博士应该处置的疑问。在其余几个 ML 基准测试中，o1 成功了新的 SOTA。

启用视觉感知才干后，o1 在 MMMU 基准上得分为 78.2%，成为第一个与人类专家相当的模型。o1 还在 57 个 MMLU 子类别中的 54 个上优于 GPT-4o。

2.思想链（CoT）

与人类在回答难题之前会长时期思索相似，o1 在尝试处置疑问时会经常使用思想链。经过强化学习，o1 学会磨难其思想链并改良其经常使用的战略。o1 学会了识别和纠正失误，并可以将辣手的步骤合成为更便捷的步骤。o1 还学会了在以前方法不起作用时尝试不同的方法。这个环节极大地提高了模型的推理才干。

3.编程才干

基于 o1 启动了初始化并进一步训练了其编程技艺后，OpenAI 训练失掉了一个十分弱小的编程模型（o1-ioi）。该模型在 2024 年国内信息学奥林匹克竞赛（IOI）赛题上失掉了 213 分，到达了排名前 49% 的水平。并且该模型介入竞赛的条件与 2024 IOI 的人类参赛者一样：须要在 10 个小时内解答 6 个高难度算法疑问，并且每个疑问仅能提交 50 次答案。

针对每个疑问，这个经过专门训练的 o1 模型会采样许多候选答案，而后基于一个测试时选取战略提交其中 50 个答案。选取规范包括在 IOI 公共测试案例、模型生成的测试案例以及一个学习失掉的评分函数上的性能。

钻研标明，这个战略是有效的。由于假设间接随机提交一个答案，则平均得分仅有 156。这说明在该竞赛条件下，这个战略至少值 60 分。

OpenAI 发现，假设放宽提交限度条件，则模型性能更是能大幅优化。假设每个疑问准许提交 1 万次答案，即使不经常使用上述测试时选取战略，该模型也能失掉 362.14 分——可以得金牌了。

最后，OpenAI 模拟了 Codeforces 主办的竞争性编程竞赛，以展现该模型的编码技艺。驳回的评价与竞赛规定十分凑近，准许提交 10 份代码。GPT-4o 的 Elo 评分为 808，在人类竞争对手中处于前 11% 的水平。该模型远远超越了 GPT-4o 和 o1——它的 Elo 评分为 1807，体现优于 93% 的竞争对手。

在编程竞赛上进一步微调使得 o1 才干又增，并在 2024 年国内信息学奥林匹克竞赛（IOI）规定下排名前 49%。

上方这个官网示例直观地展现了 o1-preview 的编程才干：一段提醒词就让其写出了一个完整可运转的游戏。

4.人类偏好评价

除了考试和学术基准之外，OpenAI 还在更多畛域的具有应战性的放开式提醒上评价了人类对 o1-preview 和 GPT-4o 的偏好。

在这次评价中，人类训练者对 o1-preview 和 GPT-4o 的提醒启动匿名回答，并投票选出他们更喜爱的回答。在数据剖析、编程和数学等推理才干较强的类别中，o1-preview 的受欢迎水平远远高于 GPT-4o。但是，o1-preview 在某些人造言语义务上并不受欢迎，这标明它并不适宜一切用例。

在须要更弱小推理才干的畛域，人们更青眼 o1-preview。

5.安保

思想链（CoT）推理为安保和对齐提供了新的思绪。OpenAI 发现，将模型行为战略整合到推理模型的思想链中，可以高效、持重地教诲人类价值观和准则。经过向模型教诲自己的安保规定以及如何在高低文中推理它们，OpenAI 发现推理才干间接无利于模型持重性的证据：o1-preview 在关键越狱评价和用于评价模型安保拒绝边界的最严厉外部基准上取得了清楚的改良。

OpenAI 以为，经常使用思想链可以为安保和对齐带来严重提高，由于 1）它能够以明晰的方式观察模型思想，并且 2）关于安保规定的模型推理关于散布外场景更具持重性。

为了对自己的改良启动压力测试， OpenAI 在部署之前依据自己的安保预备框架启动了一系列安保测试和红队测试。结果发现，思想链推理有助于在整个评价环节中提高才干。尤其值得留意的是，OpenAI 观察到了幽默的鼓励黑客攻打实例。

安保预备框架链接：

6.暗藏思想链

OpenAI 以为暗藏思想链为监控模型提供了共同的时机。假定它是虔诚且明晰的，暗藏思想链使得能够「读懂」模型的思想并了解其思想环节。例如，人们未来或许宿愿监控思想链以寻觅操控用户的迹象。

但要做到这一点，模型必定能够自在地以未扭转的方式表白其思想，因此不能在思想链方面训练启动任何政策合规性或用户偏好性训练。OpenAI 也不想让用户间接看到不分歧的思想链。

因此，在掂量用户体验、竞争优点和谋求思想链监控的选项等多种起因后，OpenAI 选择不向用户展现原始的思想链。OpenAI 抵赖这个选择有不好的中央，因此致力经过教诲模型在答案中重现思想链中的任何有用想法来局部补偿。同时，关于 o1 模型系列，OpenAI 展现了模型生成的思想链摘要。

可以说，o1 清楚优化了 AI 推理的最新水平。OpenAI 方案在不时迭代的环节中颁布此模型的改良版本，并希冀这些新的推理才干将提高将模型与人类价值观和准则相联合的才干。OpenAI 置信 o1 及其后续产品将在迷信、编程、数学和关系畛域为 AI 解锁更多新用例。

OpenAI o1-mini

o1 是一个系列模型。这次 OpenAI 还一并颁布了一个 mini 版 OpenAI o1-mini。该公司在博客中给出了 preview 和 mini 版的不同定义：「为了给开发者提供更高效的处置方案，咱们也颁布了 OpenAI o1-mini，这是一个尤其长于编程的更快、更廉价的推理模型。」全体来看，o1-mini 的老本比 o1-preview 低 80%。

由于 o1 等大型言语模型是在少量文本数据集上预训练，只管具有宽泛环球常识，但关于实践运行来说，或许老本高昂且速度慢。

相比之下，o1-mini 是一个较小的模型，在预训练时期针对 STEM 推理启动了优化。在经常使用与 o1 相反的高计算强化学习 (RL) pipeline 启动训练后， o1-mini 在许多有用的推理义务上成功了相媲美的性能，同时老本效率清楚提高。

比如在须要智能和推理的基准测试中，与 o1-preview 和 o1 相比，o1-mini 体现良好。但它在须要非 STEM 理想常识的义务上体现较差。

数学才干：在高中 AIME 数学竞赛中，o1-mini (70.0%) 与 o1 (74.4%) 不相高低，但多少钱却廉价很多，并且优于 o1-preview (44.6%)。o1-mini 的得分（约 11/15 个疑问）大概位于美国前 500 名高中生之列。

编码才干：在 Codeforces 竞赛网站上，o1-mini 的 Elo 得分为 1650，与 o1 (1673) 不相高低，并且高于 o1-preview (1258)。此外，o1-mini 在 HumanEval 编码基准和高中网络安保夺旗应战 (CTF) 中也体现杰出。

STEM：在一些须要推理的学术基准上，例如 GPQA（迷信）和 MATH-500，o1-mini 的体现优于 GPT-4o。o1-mini 在 MMLU 等义务上的体现则不如 GPT-4o，并且由于不足宽泛的环球常识而在 GPQA 基准上落后于 o1-preview。

人类偏好评价：OpenAI 让人类评分员在各个畛域具有应战性的放开式提醒上比拟 o1-mini 和 GPT-4o。与 o1-preview 相似，在推理密集型畛域，o1-mini 比 GPT-4o 更受欢迎；但在以言语为中心的畛域，o1-mini 并不比 GPT-4o 更受欢迎。

在速度层面，OpenAI 比拟了 GPT-4o、o1-mini 和 o1-preview 对一个单词推理疑问的回答。结果显示，GPT-4o 回答不正确，而 o1-mini 和 o1-preview 均回答正确，并且 o1-mini 得出答案的速度快了大概 3-5 倍。

如何经常使用 OpenAI o1？

ChatGPT Plus 和 Team（团体付费版与团队版）用户马上就可以在该公司的聊天机器人产品 ChatGPT 中开局经常使用 o1 模型了。你可以手动选取经常使用 o1-preview 或 o1-mini。不过，用户的经常使用量有限。

目前，每位用户每周仅能给 o1-preview 发送 30 条信息，给 o1-mini 发送 50 条信息。

是的，很少！不过 OpenAI 示意正在致力优化用户的可经常使用次数，并让 ChatGPT 能智能针对给定提醒词选用经常使用适宜的模型。

至于企业版和教育版用户，要到下周才干开局经常使用这两个模型。

至于经过 API 访问的用户，OpenAI 示意到达了 5 级 API 经常使用量的开发者可以即刻开局经常使用这两个模型开局开发运行原型，但雷同也被限了速：20 RPM。什么是 5 级 API 经常使用量？便捷来说，就是曾经生产了 1000 美元以上并且曾经是超越 1 个月的付费用户。请看下图：

OpenAI 示意对这两个模型的 API 调用并不蕴含函数调用、流式传输（streaming）、系统支持信息等配置。雷同，OpenAI 示意正在致力优化这些限度。

未来

OpenAI 示意，未来除了模型降级之外，还将参与网络阅读、文件和图像上行等配置，以让这些模型变得愈加有用。

「除了新的 o1 系列模型，咱们方案继续开发和颁布咱们的 GPT 系列模型。」

大模型 OpenAI o1 ChatGPT

<<o1复现名目进度报告上交大颁布首个OpenAI 满满的阅历洞察

为什么人们依然对云安保感到困惑>>

OpenAI震撼颁布o1大模型！强化学习打破LLM推理极限 刚刚