o1复现名目进度报告上交大颁布首个OpenAI 满满的阅历洞察

2024-11-14

团队引见：本名目的外围开发团队关键由上海交通大学 GAIR 钻研组的本科三年级、四年级在校生以及直博一年级钻研生组成。名目获取了来自 NYU 等一线大型言语模型畛域顶尖钻研迷信家的指点。

在人工默认畛域掀起巨浪的 OpenAI o1 模型颁布三周后，一支由高校年轻钻研者组成的团队当天颁布了题为 "o1 Replication Journey: A Strategic Progress Report (o1 探求之旅：战略进度报告)" 的钻研进度报告。这份报告的共同之处在于（1）不只提出并验证了 “旅程学习” 的技术的渺小后劲（钻研者也以为是 o1 取得成功的关键技术）：经过 327 条训练样本，处罚模型学会反思、纠错、回溯，其在复杂数学标题上 体现相对功能就超越了传统监视学习 8% 以上，相对功能优化超越 20% ;（2）并且，其史无前例的透明度和即时性，不只详细记载了团队在复现环节中的发现、应战、试错和翻新方法，更关键的是，它提倡了一种全新的 AI 钻研范式。钻研团队担任人示意：" 咱们的关键目的不是到达与 OpenAI 的 o1 相当的功能 —— 思索到可用资源有限，这是一个极具应战性的义务。雷同，咱们的使命是透明地记载和分享咱们的探求环节，聚焦于咱们遇到的基本疑问，发现新的迷信识题，并识别造成 o1 的成功的关键要素，并与更宽泛的 AI 社辨别享咱们的试错阅历。 o1技术无疑会成为环球各大 AI 科技公司争相复现的目的。假设咱们能够及早分享一些复现环节中的阅历经验，就能协助其余公司缩小不用要的试错，从而降低环球范围内o1 技术复现的总体老本和期间。这不只要利于推进技术的极速开展，也能促成整个 AI 行业的共同提高。 ”

团队提出的模型在同一道数学题上，与 OpenAI 的 o1-preview （答对）及 GPT-4o（答错）的比拟实例，证实旅程学习始终试错、反思、自我纠正的才干在复杂推理义务场景上十分关键。

从 “"捷径学习"” 到 “旅程学习”，从 “浮光剪影” 到 “深耕细作”

图：从 "捷径学习" 到 "旅程学习" 的范式转变。这是一个用于推理义务的搜查树。关于数学识题处置义务，根节点代表初始疑问，而叶节点则是最终论断。绿色节点示意正确答案，白色节点示意失误答案。传统上，学习关键集中在对间接从根到叶的捷径门路启动监视训练。但是，本钻研探求了对整个探求门路启动监视学习，这包括了试错和纠正的环节。

团队以为，大少数现有的机器学习或大模型训练方法（如监视式微调）都可以被归类为 "捷径学习" (Shortcut Learning) ，即模型学习抵达正确答案的间接门路。这种传统范式虽然在特定、明白定义的义务中或者有效，但在面对复杂、灵活和放开性疑问时显示出清楚的局限性。捷径学习具有以下几个关键特色：(1) 注重极速结果：强调在短期间内到达特定的功能目的或成功特定义务。(2) 高度依赖数据：功能改良通常依赖于参与训练数据量，而非改良学习算法自身。(3) 泛化才干有限：在训练数据散布之外的场景中，功能或者会急剧降低。(4) 不足自我纠正才干：这些系统通常不足识别和纠正自身失误的才干。虽然捷径学习推进了人工默认的许多提高，但它难以发生真正默认和牢靠的人工默认系统，不可应答事实环球应战的复杂性。随着咱们谋求更初级方式的人工默认甚至超级默认，这种方法的局限性变得越来越清楚。

意识到这些缺陷，本文提出了一种名为 "旅程学习"（Journey Learning) 的新范式。旅程学习旨在使人工默认系统能够经过学习、反思、回溯和顺应始终提高，就像人类一样，从而展现出更高水平的默认。

图："捷径学习"(Shortcut Learning) 和 "历程学习"(Journey Learning) 在 MATH500（Lightman 等人，2024 年）上的体现。

如图所示，团队提出了 "旅程学习" 范式，它处罚模型不只学习捷径，还要学习完整的探求环节，包括试错、反思和回溯。仅经常使用 327 个训练样本，不借助任何额外训练技巧， 旅程学习在 MATH 数据集上的体现就超越了传统监视学习 8% 以上，展现了其极端弱小的后劲。作者也以为这是 o1 技术中最关键的组成局部 。

表：捷径学习和旅程学习的多维度比拟

技术细节是什么？o1 技术探求之旅

团队担任人分享：“ 假设咱们能够及早分享一些复现环节中的阅历经验，就能协助其余公司缩小不用要的试错，从而降低环球范围内 o1 技术复现的总体老本和期间。这不只要利于推进技术的极速开展，也能促成整个 AI 行业的共同提高。 ”

如图所示，从 OpenAI o1 9 月 12 日颁布的过去三周内，该团队对 o1 技术曾经成功了系统化、多阶段的探求。这个环节始于经常使用 OlympicArena 数据集对 o1 启动初步评价（如下表格），旨在片面了解其在多个学科畛域的认知才干。钻研的外围集中在 o1 思想结构的剖析上，特意关注 "长思想" 这一关键概念。整个探求技术触及多个复杂的步骤，包括处罚模型的开发、在战略推理树的构建，以及将这些元素整合为连接的长思想环节。整个钻研环节驳回了迭代和并行的方法。启动了屡次尝试，始终调整和完善技术和方法。评价环节包括定量和定性剖析，结合人工审核和专门的剖析工具，以确保钻研的准确性和有效性。

团队强调了探求环节的关键性，而不只仅关注最终结果。这种注重科研探求环节的思绪与团推提出的 "旅程学习" 范式相分歧，强调了在复杂、灵活环境中始终试错、纠错的继续学习和顺应的关键性。经过这个环节，不只取得了关于 o1 技术的深化了解，还开发了一套探求未知 AI 技术的系统方法。钻研环节触及决策剖析、应战识别以及翻新处置方案的开发。最终，这项钻研不只仅是对 o1 技术的探求，更是对先进 AI 系统钻研方法的一次性通常和验证。经过火享钻研环节，包括成功和失败的阅历，旨在为 AI 钻研社区提供有价值的见地，促成该畛域的群体提高。

这个探求环节展现了放开、协作的 AI 钻研在推进技术边界方面的关键性，为未来更复杂的 AI 系统钻研提供了有益的参考和指点。

详细地，团队凝炼了复现 o1 环节中的几个关键疑问，并做了十分粗疏的探求分享：

Q1: o1 的思想链是什么样子的？

表：基于对 OpenAI 提供的 o1 思想示例的详细剖析而创立的其中包括八个用于处置复杂义务的推理步骤或 "思想" 实例。细心审核了每个示例，提取了相关特色，如标志数、行数和关键词。

为了了解 OpenAI 的 o1 的思想环节，团队让两位博士水平在校生细心审查 OpenAI 的 o1 在处置数学识题时经常使用的推理环节。经过他们的详细审核，他们提取了反映 o1 如何处置和推理复杂方程的底层思想链。这个结构化的思想图在图中有所展现。

图：OpenAI o1 实在推理环节的结构化方式实质是一颗搜查树（数学题）

图：OpenAI o1 实在推理环节的结构化方式实质是一颗搜查树（破译标题）

经过这些探求，团队确定须要构建的长思想数据应具有以下特色：

这是团队以为关键的疑问。但是，在的钻研阶段，该团队仅仅提出了猜想。团队以为还没有足够的阅历证据来验证它们的准确性，这也是未来须要重点开展的上班。

o1 长思想方法的清楚成功可以归因于在上述中引见的旅程学习 (Journey Learning) 。与传统的捷径学习 (Shortcut Learning) 不同，旅程学习准许模型探求 整个决策轨迹 ，模拟人类的疑问处置环节。这种片面的探求使 o1 能够思索 多种处置方案门路，从失误中学习，并了解完整的疑问处置环节 。经过阅历正确和失误的门路，模型开展出弱小的失误处置和自我纠正才干，增强了其顺应新应战的才干。 这种方法造就了对疑问畛域更深化的了解，不只仅是知道正确答案，而是了解为什么以及如何得出答案 。旅程学习环节亲密模拟人类的认知环节，蕴含试错、反思和调整。这大大参与了模型输入内容的可解释性，由于 o1 可以提供详细的处置步骤并解释其推理环节，包括如何从失误中复原。因此，基于旅程学习的 o1 长思想环节不只仅是计算期间的裁减，还代表了一种彻底的、人类般的推理探求。这种方法使 o1 能够处置更复杂的疑问，提供更牢靠和可解释的答案，并在面对新应战时体现出更大的顺应性，从而解释了它在各种义务中的出色体现。

尝试 1：基于 LLM 和处罚的树搜查 依据在 Q1 中对长思想的观察，其最清楚的特色是在推理发生失误时或遇到冗余的推理步骤时尝试反思和回溯。这相似于在推理树上搜查疑问的处置方案，在失误节点处回溯，直到找到正确的处置门路。为成功这一点，须要构建一棵推理树，其中根节点代表疑问，其余每个节点代表一个推理步骤。从根就任何节点的门路代表从疑问到该论断的推理环节。此外，回溯和反思必定基于失误的推理步骤，这须要一个更细粒度的处罚模型（即环节级）来批示树中每个节点的正确性。经过在具有环节级处罚的推理树上口头搜查算法，可以将失误步骤整合到思想链中，从而构建蕴含回溯和反思等行为的长思想。

尝试 1 经过基于预约义规定在树上口头搜查来构建长思想，但这限度了回溯和反思等行为的自在度。因此，团队尝试让模型选用自己的行为。团队构建了一个提议 - 批判循环，其中为模型预约义了一些或者的行为（即继续、回溯、反思、中断），并让模型自身选用行为来构建推理树。假设树没有到达最终答案，可以将这个负面信号告知模型，疏导它反思和纠正其方法。

基于推理树构建长思想存在几个应战，包括存在许多冗余的有效节点，以及存在不依赖于反思行为的推理步骤，从而惹起构建的长思想逻辑不分歧。为处置这个疑问，团队设计了一个应用多默认体答辩的算法，其中一个默认体充任战略模型，继续推理，而另一个默认体充任评论模型，批示战略模型能否应该继续推理或口头回溯等行为。两个默认体启动继续对话，在找到正确答案时人造构建长思想数据集。

尝试 4：完整的人类思想环节注释 当人类处置推理疑问时，他们通常不会始终地向前推理直到处置疑问或失败；雷同，他们在不可继续时会反思、回溯和重写推理。这种行为与长思想的特色高度分歧。因此，可以虔诚且片面地记载人类处置推理义务的环节，从而发生高品质的长思想。

经常使用处罚模型的第一步是定义粒度。团队的目的不只仅是关注最终结果，而是专门提高 LLMs 在反思、回溯和相关认知环节方面的才干。因此，团队将评价粒度定义在步骤层面。详细来说，团队经常使用来自 Abel 的微调数据，经过行号使处置方案变得明晰可辨。

成功处罚模型的环节可以经常使用开源模型或是调用闭源模型的 api。团队比拟了不同处罚模型在 PRM800K 和 MR-GSM8K 子集上的元评价体现。如下表格展现了却果，其中，o1-mini 在不同数据集上体现最佳，证实其是一个良好的处罚模型。

构建推理树须要一个能够口头单步推理的战略模型。给定一个疑问及其相应的最终答案，战略模型从疑问作为根节点开局，始终向树中参与新节点。它首先生成 w 个或者的第一步推理步骤作为根节点的子节点。而后，它迭代地启动前向推理，为每个节点（如第一步推理）生成 w 个或者的后续推理步骤作为该节点的子节点。这个环节重复启动，直抵到达预设的最大深度或一切叶节点到达最终答案。

构建推理树须要明晰定义推理步骤。为此，团队驳回 Abel 提出的数据格局，将数学识题处置方案转化为具有明晰步骤的方式，将答案分红多行，每行以行号开局，并蕴含该行内的推理。因此，经常使用 Abel 数据集对 DeepSeekMath-7B-Base 启动微调，获取 Abel-DSMath，作为战略模型。在这种特定格局数据上微调的模型可以繁难地控制单个推理步骤的生成。

上述提出的树生成算法计算老本高昂。当设置后续推理步骤数目为 3 和深度为 10 时，最后一次性迭代须要生成 3 的 10 次方个推理步骤。因此，经常使用处罚模型来剪除失误的推理步骤，提高操作效率。详细来说，团队驳回束搜查，在每次迭代中只选用大批候选项保管到下一轮。依据经常使用的处罚模型，剪枝成功的细节有所不同。团队尝试了两个处罚模型：math-shepherd 和 o1-mini。

Math-shepherd 为每个步骤提供一个介于 0 和 1 之间的实数，示意步骤正确的概率。在树生成的每次迭代中，对一切推理步骤启动评分，并选用得分最高的前 K 个进入下一次性迭代。这将总生成次数启动剪枝。但是，math-shepherd 在评价艰巨疑问的推理步骤时存在艰巨，须要一个更弱小的处罚模型，能够为每个步骤提供高准确度的正确性批示。因此，最终经常使用 o1-mini 为每个步骤提供处罚，间接批示每个推理步骤能否正确。此时，在树生成的每次迭代中，应用来自 o1-mini 的处罚，选用最多 K 个正确的推理步骤进入下一次性迭代。

Q6: 如何从推理树中推导出长思想？

一旦构建了推理树，目的就变为探求如何从推理树转换为蕴含试错环节的长思想。在该团队的框架中，推理树的每个节点都被处罚模型标注，批示该步骤能否正确或失误。详细的分解步骤如下：

为进一步简化环节，运行了一个额外的解放：正确门路上的每个节点最多准许 K 次试错 —— 一次性在失误门路上的试错和一次性在正确门路上的探求。这些解放确保 DFS 遍历专一有意义的试错探求，同时防止适度探求失误门路。在未来的试验中，方案移除或调整这些解放，以钻研试错门路长度与最终模型功能之间的相关。

Q7: 如何评价咱们的尝试方法？

图：经过可交互的数据剖析平台可视化构建的搜查树

除了经常使用特定评价目的在基准测试上测试准确率分数外，人工审查实践案例（输入输入）是评价数据和模型的关键步骤。因此，为了提供一种更直观的方式来评价模型在特定疑问上的体现，团队构建了一个可视化数据剖析平台。

详细来说，可视化平台包括分解树及其对应长思想的可视化，以及训练模型的输入。此外，在可视化结果时，支持详细的条件过滤，例如过滤正确或失误回答的疑问，或输入能否蕴含示意反思或犹疑的关键词（如 "wait"）。另外，可视化平台支持不同迭代轮次的分解数据和模型输入之间的比拟，这使得团队可以十分直观地验证新一轮的数据或模型能否有效。

团队试验经常使用预训练言语模型 deepseek-math-7b-base（更多其余模型曾经在期待列表中）。训练环节分为两个关键阶段：监视微调（SFT）和间接偏好学习（DPO）。

第二阶段：间接偏好学习（DPO）

在这个阶段，经常使用核采样（top_p = 0.95 和温度 T = 0.7）从 MATH Train 数据集为每个疑问生成 20 个回复。这 20 个回复依据最终答案的正确性分类为侧面和负面照应。从中，随机选用 5 个侧面照应和 5 个负面照应来创立 5 对偏好对。而后，经常使用这些偏好对和 DPO 损失来训练模型，使其能够从正确和失误答案的比拟中学习。

Q9: 什么是人类和 AI 协同标注的有效战略？

团队开发了一种人类和 AI 协作的数据标注流程，用于生成基于 MATH 数据集的高品质、长文本推理数据。经过这个流程，咱们将短短几行人类标注的解题方案裁减为蕴含数千个 token 的、合乎 “旅程学习” 范式的详细推理环节。在构建流程的环节中，咱们发现了上方几种有效的标注技巧：

遵照以上两个关键要素，人类专家即可成功数据标注，这些数据精简但准确，十分利于大模型做进一步增强。下一阶段，经过设计复杂的提醒词，咱们经过大言语模型成功了数据裁减和增强。咱们的提醒词蕴含以下关键点：

为什么迷信进度报告很关键？

钻研团队示意：传统发论文方不可顺应新的科研范式，人工默认技术的极速发开展创了一个新的钻研范式时代，其特点是 常年的、基于团队的努力 ，通常继续六个月或更常年间。这种转变虽然无利于打破性翻新，但有意中给迷信环节带来了新的应战。常年团队协作的外向性经常 造成向更宽泛迷信界消息流动的缩小 。此外，这些名目的常年性质往往造成 钻研人员满足感的提前，或者在整个钻研环节中造就焦虑和动力削弱 。另外，大规模团队名目的复杂性使得认可团体奉献变得复杂，或者腐蚀传统的学术处罚结构。团队的进度报告方法 旨在经过增强透明度、促成实时反应和认可，以及处罚对常年钻研方案的继续承诺来处置这些新发生的应战 。在这样的背景下，团队以为 ”Scientific Progress Report“ （科研进度报告）是一种比如今”Scentific Paper“ （科研论文）更有价值的科研产出和成绩分享的组织方式。团队迷信探求环节的粗疏记载，尤其在 AI 才干极速开展的背景下，具有深远意义。经过片面记载探求环节，包括成功和失败，团队正在培育一个共同而贵重的数据集。这份片面的记载关于训练真歪了解迷信方法的 AI 模型至关关键。o1 的成功强调了 AI 系统不只要学习结果，还要学习完整的迷信探求环节，包括试错的关键性。经过科研进度报告，不只可以捕捉技术细节，还包括决策理由、灵感来源和思想环节。这些 "人类要素" 关于训练能够启动实在迷信发现的 AI 模型至关关键。

团队依据的钻研期间线和取得的进度，确定了几个未来探求和开展的关键方向：

经过谋求这些途径，不只推进咱们对 o1 才干的了解和复制，还要推进 AI 钻研方法的边界。

团队借本名目正式引出 “核桃方案” (，团队成员示意：“对 o1 技术路途的探求及复现上班，仅仅是咱们核桃方案的一局部。核桃方案旨在成为人工默认复杂推理和深度思索才干钻研的放开先锋，努力于推进 AI 从繁难的消息处置工具演化为具有 "牛顿" 和 "爱因斯坦" 级别深度思索才干的默认系统。咱们将着眼于更久远的钻研，最终的平凡愿景是让未来可以出现 AI 驱动的科研范式，即 AI 齐全具有介入人类科研的水准，从而更好地服务人类、扭转环球。”

大模型训练

<<特朗普都中招 15亿条纽约房产记载暴露马斯克

OpenAI震撼颁布o1大模型！强化学习打破LLM推理极限刚刚>>

o1复现名目进度报告 上交大颁布首个OpenAI 满满的阅历洞察

从 “"捷径学习"” 到 “旅程学习”，从 “浮光剪影” 到 “深耕细作”

技术细节是什么？o1 技术探求之旅

为什么迷信进度报告很关键？

您可能还会对下面的文章感兴趣：

随便看看

o1复现名目进度报告上交大颁布首个OpenAI 满满的阅历洞察