技术差距拉开 OpenAI震撼颁布o1大模型!RL深度思索
openai加大招了,是奥特曼在推上宣传了很久的草莓真身,这次它真的来了。
又给大家带来一点小小的震撼,国际大模型老板们也不再迷茫了,4o的多模态的还没赶上呢,这下怎样又回到纯文本了,不是说大家都搞得差不多了吗?
奥特曼示意,虽然 o1 的体现依然存在毛病,不过你在第一次性经常使用它的时刻依然会感到震撼。
这对从业者相对是一件大善报,老板们发现饼还比拟大,还可以让资本继续投钱,百万洗数据槽工衣食所系!
间接延伸了从愚笨之巅到悲观之谷的来到。
OpenAI o1究竟有多强?
这次颁布的大模型关键针对的义务是复杂义务推理,比如比赛难度的编程疑问,奥赛难度的数学识题等。并且成果获取了极大的优化,大略从高中生优化到了博士生。比如写代码的水平:
该模型在 2024 年国际消息学奥林匹克比赛(IOI)赛题上获取了 213 分,到达了排名前 49% 的水平。
在最难的数学,code,物理化在校动物等benchmark上遥遥上游。在全美高中生数学比赛AIME上,o1能到达74分(GPT4-o仅有12分),假设采样1000次,结合reward model加权投票能到93分,能排进全国前500名,超越USA Mathematical Olympiad的晋级分数线;在GPQA,一个关于物理,化学和动物的智力测试上,OpenAI招募了一群关系畛域有博士学位的专家和o1同台竞技, o1能够在GPQA-diamond questions.上超越这群专家。在视觉感知才干前方面,o1 在 MMMU 上取得了 78.2% 的分数,成为第一个与人类专家媲美的模型。
值得留意的是,OpenAI在o1的基础上增强了模型的代码才干,以o1为初始化又训了一个o1-IOI,用于加入2024年的国际奥林匹克消息比赛(2024 International Olympiad in Informatics), 在和人类选手相反的条件下,在10h内处置6道十分难的比赛疑问,每个疑问最多准许提交50次。最终,o1-IOI能取得一个216分的分数,在开放提交次数后,o1-IOI能取得362.14,超越了金牌线。这种和人类顶尖选手同台竞技,才是最能反映模型才干的benchmark吧。在CodeForce上,打出了惊人的1807分。
并且安保性得分上也遥遥上游;
普通的LLM训练,对齐,推理三个阶段的耗时通常是:
这次,o1的耗时散布就变得很神奇。
并且咱们能发现一个便捷的例子须要消耗690多个token,5秒多。
OpenAI宣称,训练阶段,会经过强化学习,让o1完善其思想链并优化所经常使用的战略。例如:识别并纠正失误,将复杂步骤拆分为便捷步骤,以前方法不work时,换一种方法在推理阶段,模型雷同会在出现给用户的cot之外,做一个更深的的所谓的long internal chain of thought,所以推理期间会更长,相当于COT套娃了,给COT再加一个COT。
但训练技术上怎样成功的呢?
知乎作者白苏苏给了一个关于推理阶段外在思想连优化功能的案例:
思想链:
外在思想链:
但详细是怎样训练来的,openai只提到了强化学习几个字,从推理速渡过去看,模型在推理时刻应该是输入了很多两边token,到了某个触发词{output}
这个才干怎样来的,网友MoonCancer宣布了不同见地:
假设用的是惯例的预训练数据集,两边的CoT局部齐全是经过RL训练出来,齐全原生的,那么很好,LLM推理这个畛域基本上完结了,咱们离AGI又近了一步。
假设是用4o之类的模型分解少量粗疏的CoT数据,而后启动模拟,再学习把过于粗疏的局部暗藏起来,那么奉献基本下同等于把模型scale 10倍,是一种很好的模型增强方法。
假设是专门请人写了少量CoT数据而后强行给模型finetune出来,那真的是“有多少人工就有多少默认”。