技术差距拉开 OpenAI震撼颁布o1大模型！RL深度思索

2024-11-14

openai加大招了，是奥特曼在推上宣传了很久的草莓真身，这次它真的来了。

又给大家带来一点小小的震撼，国际大模型老板们也不再迷茫了，4o的多模态的还没赶上呢，这下怎样又回到纯文本了，不是说大家都搞得差不多了吗？

奥特曼示意，虽然 o1 的体现依然存在毛病，不过你在第一次性经常使用它的时刻依然会感到震撼。

这对从业者相对是一件大善报，老板们发现饼还比拟大，还可以让资本继续投钱，百万洗数据槽工衣食所系！

间接延伸了从愚笨之巅到悲观之谷的来到。

OpenAI o1究竟有多强？

这次颁布的大模型关键针对的义务是复杂义务推理，比如比赛难度的编程疑问，奥赛难度的数学识题等。并且成果获取了极大的优化，大略从高中生优化到了博士生。比如写代码的水平：

该模型在 2024 年国际消息学奥林匹克比赛（IOI）赛题上获取了 213 分，到达了排名前 49% 的水平。

在最难的数学，code，物理化在校动物等benchmark上遥遥上游。在全美高中生数学比赛AIME上，o1能到达74分（GPT4-o仅有12分），假设采样1000次，结合reward model加权投票能到93分，能排进全国前500名，超越USA Mathematical Olympiad的晋级分数线；在GPQA，一个关于物理，化学和动物的智力测试上，OpenAI招募了一群关系畛域有博士学位的专家和o1同台竞技， o1能够在GPQA-diamond questions.上超越这群专家。在视觉感知才干前方面，o1 在 MMMU 上取得了 78.2% 的分数，成为第一个与人类专家媲美的模型。

值得留意的是，OpenAI在o1的基础上增强了模型的代码才干，以o1为初始化又训了一个o1-IOI，用于加入2024年的国际奥林匹克消息比赛（2024 International Olympiad in Informatics），在和人类选手相反的条件下，在10h内处置6道十分难的比赛疑问，每个疑问最多准许提交50次。最终，o1-IOI能取得一个216分的分数，在开放提交次数后，o1-IOI能取得362.14，超越了金牌线。这种和人类顶尖选手同台竞技，才是最能反映模型才干的benchmark吧。在CodeForce上，打出了惊人的1807分。

并且安保性得分上也遥遥上游；

普通的LLM训练，对齐，推理三个阶段的耗时通常是：

这次，o1的耗时散布就变得很神奇。

并且咱们能发现一个便捷的例子须要消耗690多个token，5秒多。

OpenAI宣称，训练阶段，会经过强化学习，让o1完善其思想链并优化所经常使用的战略。例如：识别并纠正失误，将复杂步骤拆分为便捷步骤，以前方法不work时，换一种方法在推理阶段，模型雷同会在出现给用户的cot之外，做一个更深的的所谓的long internal chain of thought，所以推理期间会更长，相当于COT套娃了，给COT再加一个COT。

但训练技术上怎样成功的呢？

知乎作者白苏苏给了一个关于推理阶段外在思想连优化功能的案例：

思想链：

外在思想链：

但详细是怎样训练来的，openai只提到了强化学习几个字，从推理速渡过去看，模型在推理时刻应该是输入了很多两边token，到了某个触发词{output}

这个才干怎样来的，网友MoonCancer宣布了不同见地：

假设用的是惯例的预训练数据集，两边的CoT局部齐全是经过RL训练出来，齐全原生的，那么很好，LLM推理这个畛域基本上完结了，咱们离AGI又近了一步。

假设是用4o之类的模型分解少量粗疏的CoT数据，而后启动模拟，再学习把过于粗疏的局部暗藏起来，那么奉献基本下同等于把模型scale 10倍，是一种很好的模型增强方法。

假设是专门请人写了少量CoT数据而后强行给模型finetune出来，那真的是“有多少人工就有多少默认”。

LLM RL CoT

<<控制和智能化 Data Fabric 经常使用成功数据发现

安保要挟情报有效经常使用的基础>>

技术差距拉开 OpenAI震撼颁布o1大模型！RL深度思索

OpenAI o1究竟有多强？

您可能还会对下面的文章感兴趣：

随便看看