IOI金牌水平博士物理92.8分突发！OpenAI颁布最强模型o1

2024-11-14

来了来了！刚刚，OpenAI新模型无预警上新：

o1系列 ，可以启动通用复杂推理，每次回答要破费更常年间思索。

在处置 博士水平的物理疑问 时，GPT-4o还是“不迭格”59.5分，o1一跃到来“低劣档”，间接干到 92.8分 ！

没错，传说中的「草莓」，终于来与大家见面了！

CEO奥特曼称它是一种 新范式的开局 ：可以启动通用复杂推理的人工智能。

详细来说，o1系列是OpenAI首个经过强化学习训练的模型， 在输入回答之前，会在发生一个很长的思想链 ，以此增强模型的才干。

换句话说，外部思想链越长，o1思索得越久，模型在推理义务上的体现就越好。

o1有多强呢？CEO奥特曼直给了答案：

在刚刚完结的 2024 IOI信息学奥赛 标题中，o1的微调版本在每题尝试50次条件下取得了213分，属于人类选手中前49%的效果。

假设准许它每道题尝试10000次，就能取得362.14分， 高于金牌选手门槛，可取得金牌 。

另外它还在 竞争性编程疑问 (Codeforces)中排名前89%，在 美国数学奥林匹克 (AIME) 预选赛标题中跻身美国前500名在校生之列。

与GPT-4o相比，o1在 数理化生、英语法律经济 等各种科目都有不同效果改良。

汇总官方颁布的各种信息来看，这次突然颁布的o1系列又分为三个型号：

，新的大模型天花板，过于弱小目前不繁难对当地下。

o1-preiview ，o1的早期版本， 可以立刻提供应ChatGPT付费用户和API用户 。

，速度更快、性价比更高，实用于须要推理和无需宽泛环球常识的义务。

不少OpenAI员工都区分用“系统1”和“系统2”思索来科普o1系列与之前模型的区别。

连常年休假中的总裁Brockman都“诈尸”回归了。

思想链提醒方法的原作者Jason Wei示意，这一次性不是纯正经过提醒来成功思想链，而是经常使用强化学习训练模型以更好地口头链式思索。

在深度学习的历史中，人们不时试图裁减训练阶段的计算，但思想链是自顺应计算的一种方式，如今也可以在推理时裁减。

o1：AI才干新天花板

经过训练，o1模型学会完善自己的思想环节，尝试不同的战略，并看法到自己的失误。

不过作为早期模型，它尚不具有ChatGPT的许多有用配置，例如联网搜查以及上行文件和图像。

但关于复杂的推理义务来说，这是一个严重提高，OpenAI称代表了人工智能的最高水平。

鉴于此，他们选择 将计数重视置，并将该系列模型命名为OpenAI o1 。

随着更多的强化学习（训练时计算）和更多的思索期间（测试时计算），o1 的性能继续提高， 新的Scaling Law降生了 。

不过这种方法的Scaling遭到的限度与个别预训练有很大不同，OpenAI正在继续钻研它们。

o1思索起来是什么样子？可以从官方示例中的编写Bash脚本的编程义务一窥终究。

首先作为对比， GPT-4o会间接就开局写代码，遗憾获取失误结果 。

而o1-preiview会先用自己的了解 复述一遍要求 ，而后开局 拆解要求 ， 明白最终指标 。

接上去它会给自己 定义义务 、 剖析限度条件 、 列出须要用到的方法 。

进一步把 义务拆解 成明白的数个小步骤。

最后才入手编写代码，并保障一次性性获取正确结果。

OpenAI示意，o1系列可以帮医疗保健钻研人员来注释细胞测序数据，协助物理学家可以生成量子光学所需的复杂数学公式，一切畛域的开发人员可以经常使用o1来构建和口头多步骤上班流程。

而且不是说说而已，OpenAI曾经约请关系的人类专家学者试用了一波。

马克思普朗克钻研所的量子物理学者 Mario Krenn ，展现了GPT-4o不能回答但o1-preview正确成功计算的复杂量子物理疑问。

除了考试和学术基准之外，团队还评价了人们对o1-preview与GPT-4o在放开疑问上的偏好。

在数据剖析、编码和数学等推理密集型类别中，o1-preview显著优于gpt-4o。

但是o1-preview在某些人造言语义务上并不是首选，这标明它并不适宜一切场景。

OpenAI迷信家Noam Brown分享了更详细的团体测试结果。

在上个月的ACL会议上有一个一得过后大模型都不可处置的逻辑难题。o1-preview能够做对，o1满血版简直每次尝试都能做对。

目前o1破费在思索上的期间是几秒到十几秒，但OpenAI未来的改良方向不是缩短，反而是致力参与这个期间，

谁可以访问o1？

依据OpenAI官方说法，ChatGPT Plus和Team用户最早可在几个小时内可以体验到o1系列模型。

在颁布时，o1-preview限度为每周30条信息，o1-mini每周50条。

API访问权限将首先给Tier 5级用户，也就是曾经在OpenAI API上破费超越1000美元的人。

OpenAI正在致力提高这些速率，并使ChatGPT能够针对给定的提醒智能选用适宜的模型。

快关上ChatGPT看看你是不是第一波吃草莓的人吧

模型 ChatGPT AI

<<小扎等科技大佬齐聚 AI史上最关键闭门会议！马斯克开源讨论AI未来

集成o1的GitHub Copilot让网友直呼要回归别Cursor了>>

IOI金牌水平 博士物理92.8分 突发！OpenAI颁布最强模型o1

o1：AI才干新天花板

谁可以访问o1？

您可能还会对下面的文章感兴趣：

随便看看

IOI金牌水平博士物理92.8分突发！OpenAI颁布最强模型o1