Leetcode刷题准确率竟这么高 全方位评价OpenAI o1 280页PDF
OpenAI 的 o1-preview 模型曾经颁布两周了,网上也有了很多零星的测评。不过,大局部测评都并重于某一个方面,关于 o1-preview 的系统评价目前还比拟匮乏。
在一篇长达 280 页的论文中,来自加拿大阿尔伯塔大学等机构的钻研者报告了他们对 o1-preview 的系统评价结果,十分具备参考价值。
详细来说,这项综合钻研评价了 o1-preview 在各种复杂推理义务中的性能,涵盖多个畛域,包括计算机迷信、数学、人造迷信、医学、言语学和社会迷信。经过严厉的测试,o1-preview 展现了特殊的才干。
虽然 o1-preview 在一些便捷的疑问上偶然会产生失误,并且在某些高度专业的概念背地遇到了应战,但总体结果标明,该模型在向通用人工智能(AGI)迈进的环节中取得了清楚停顿。
评价不只突显了 o1-preview 目前的好处和局限性,还指出了未来开展的关键畛域,如多模态集成、特定畛域的验证和实践运行中的伦理思索。这些发现为大型言语模型在泛滥畛域的后劲提供了贵重的见地,并为 AI 钻研和运行的进一步开展铺平了路线。
以下是论文中的局部结果展现。
为了评价 o1-preview 的编码才干,作者在 Leetcode 比赛环境中对其性能启动了裁减测试。
如表 2 所示,o1-preview 成功经过了 12 个疑问中的 10 个,经过率高达 83.3%。该模型在 Weekly Contest 413 中只答错了一个疑问,在 Biweekly Contest 138 中又答错了一个疑问。值得留意的是,这两个疑问都被归类为「hard」级别。虽然花了几分钟才干生成处置方案,但 o1-preview 不可在三次提交尝试中经过这些应战。
虽然存在这些应战,但与顶级人类竞争者相比,01 -preview 展现了相当或更快的代码生成速度。这说明 01 -preview 具备较强的推理才干,可以有效处置大局部的编码义务。但是,在特意复杂或计算密集的状况下,模型的性能依然有限,正如在这些艰巨的疑问中观察到的那样。
图 3 和图 4 演示了编码评价中的两个示例。在图 3 中,01 -preview 展现了它有效处置便捷疑问的才干,用起码的计算期间成功义务并成功经过一切测试用例。但是,如图 4 所示,该模型遇到了一个难题。在这个失败案例中,01 -preview 最后生成了一个正确的处置方案,但是处置方案超出了期间限度。在第一次性提交之后,模型堕入了试图优化代码期间复杂度的循环中,这在随后的尝试中造成了不正确的处置方案。这个例子突出了该模型在处置须要清楚优化的复杂疑问时的挣扎,它为提高效率所做的致力造成了重复的失误。
为了评价 o1-preview 的医学报告生成才干,作者经常使用了来自中南大学湘雅二医院的中文喷射学报告数据集 SXY。它蕴含 317,339 份喷射学报告,分为五个类别:胸部报告、腹部报告、肌肉骨骼报告、头部报告和头颈面部报告。
作者经过比拟 o1-preview 与基线模型(如 gpt-4-turbo、gpt-4o 等)的 ROUGE 目的,评价了 o1-preview 生成医学报告的才干。表 3 提供了 o1-preview 与另外五种模型的详细性能对比。
如表 3 所示,与医生撰写的报告相比,o1-preview 生成的报告的 ROUGE 评分为:R-1: 0.3019, R-2: 0.0448, R-L: 0.2841,在 6 种模型中排名最高。值得留意的是,o1-preview 的平均报告生成期间也最长,为 15.051 秒。
图 5 和图 6 展现了两个例子,说明了作者对喷射学报告生成的评价结果。在评价环节中,o1-preview 展现了在零样本状况下极速生成牢靠喷射学报告的才干,突显了其弱小的推理和常识迁徙才干,以及在医疗畛域的后劲。作者观察到,o1-preview 的报告与人类写作形式高度分歧,结构明晰,言语繁复。虽然其余模型未能到达最高的相似度分数,但大少数模型能够遵照指令并成功义务。
在本节中,作者评价 o1-preview 在人造言语推理(NLI)义务上的体现。NLI 义务触及确定两个句子之间的逻辑相关,结构化为一个分类义务,其中第二个句子要么从第一个句子逻辑上推导进去,要么与第一个句子矛盾,要么是中立的(或者是实在的)。
作者从每个数据集的测试集中随机抽取两个测试样本,共启动 10 个测试用例。表 4 给出了每个数据集的示例,其中 01 -preview 准确地剖析了逻辑相关,展现了初级推理才干和特定于畛域的常识。这展现了它在各种复杂场景中的实践运行的后劲。
o1-preview 在芯片设计中的试验涵盖工程助手聊天机器人、EDA 脚本生成和失误总结剖析三大关键义务,展现了其在技术咨询、代码生成和失误检测方面的弱小才干。这些运行不只要望彻底扭转半导体行业,缩小期间和失误老本,优化设计性能,还标记着向成功通用人工智能(AGI)的关键迈进,证实了 AI 在处置复杂、高危险专业义务中的后劲。
在评价 o1-preview 作为工程助手聊天机器人的体现时,作者发现其在多个义务中展现出比 ChipNeMo 更初级的处置疑问才干。比如在第一个例子中(图 21),征询如何经常使用 testgen 框架运转多个随机测试种子。ChipNeMo 的回应虽然性能正确,但较为基础,缺乏对大规模模拟优化的深化见地。相比之下,o1-preview 不只笼罩了基本色能步骤,还详细解释了如何并行化测试环节,确保测试的随机性和可裁减性,展现了更高水平的专业常识,特意是在处置大规模模拟中的随机数生成完整性和失误处置等关键疑问上。
在 EDA 脚本生成义务中,作者测试了 o1-preview 和 ChipNeMo 生成 EDA 工具脚本的才干。
在图 24 所示的第一个例子中,义务是编写 TOOL1 代码来统计给定矩形边界内的触发器单元数量,这是物理设计中经常出现的操作,用于确定逻辑散布和优化规划。ChipNeMo 的回应提供了一个基本的处置方案,涵盖了如何遍历设计档次结构并在指定区域内计数触发器的基本机制。虽然其结构和性能正确,但灵敏性有限,未触及处置边缘状况(如堆叠区域或边界条件)或优化搜查算法以顺应更大设计的初级个性,这些在消费环境中是至关关键的。
相比之下,o1-preview 的回应更为粗疏。除了提供外围代码外,o1-preview 还探讨了潜在的优化战略,如如何高效遍历大型设计和更优雅地处置边界条件。此外,o1-preview 还包括了裁减性能的注释和倡导,如增加计数其余类型单元的性能或将脚本集成到更大的设计规定审核智能化流程中。这一回应展现了对实践 EDA 环境中复杂性的深入了解,强调了灵敏性和可裁减性的关键性。o1-preview 能够预感工程师在大规模设计中部署此脚本时或者遇到的疑问,使其回应在专业环境中更具适用性。
在 Bug Summary & Analysis 义务中,作者测试了 o1-preview 和 ChipNeMo 剖析与芯片布线电流测量相关的失误报告的才干,这是一个在芯片功率优化中至关关键的义务。半导体设计中的失误剖析不只触及识别疑问的基本要素,还须要以一种使团队能够高效优先处置和处置的形式总结疑问。
ChipNeMo 的技术总结详细列出了功耗测量的条件,如测试模块的优惠百分比和所需的电压角。治理总结仅传播了用户之间的探讨,没有深化剖析或提供明白的执行方案。ChipNeMo 的回应关键集中在总结失误报告的即时理想,缺乏对功耗测量对未来设计影响的深化剖析,也没有提出将硅数据与预硅预计相关联的战略。
相比之下,o1-preview 不只涵盖了与 ChipNeMo 相反的技术和治理方面,还深化剖析了功耗测量的更宽泛影响。它探讨了布线功耗数据如何影响未来的芯片设计,特意是优化功耗密度和提高面积效率,这些要素在现代芯片开发中至关关键。
此外,o1-preview 提供了更详细的恳求解读,倡导经常使用更精细的隔离技术和数据合成方法。它还提供了一个更明晰的义务调配框架,确保工程团队能够优先处置义务,并设定详细的期间表和里程碑,以隔离和测量布线宏单元的功耗。
为了考查 o1-preview 的数学性能,作者设计了一系列涵盖不同难度级别的测试。本节首先从高中数学比赛标题开局,随后在下一节中触及大学水平的数学识题,以便观察模型在不同复杂度档次上的逻辑推理才干。
在本节中,作者选用了两个关键的数学畛域:代数和计数与概率。选用这两个畛域是由于它们高度依赖于疑问处置技艺,并且罕用于评价逻辑和形象思想。
详细来说,作者启动了 10 项测试,包括 5 个代数疑问和 5 个计数与概率疑问,难度等级从 1 到 5 不等。o1-preview 体现出色,一切 10 个测试案例均到达了 100% 的准确率。这一稳固的体现标明,它能够处置从便捷到复杂的各类数学识题。除了提供正确的最终答案外,o1-preview 的处置方案还详细地展现了每一步的推理环节,这些步骤与参考答案中的关键步骤分歧。这种详细的解答形式标明,模型在数学畛域的逻辑推理才干已凑近人类水平。
本节中的疑问由作者手动创立。这些疑问因其高度的形象性和所需的复杂推理而特意具备应战性。这些疑问可以大抵分为以下几类:
表 5 列出了 o1-preview 在各类疑问中的答题状况。
总的来看,o1-preview 在大学数学推理中体现出了以下好处:
但同时,他们也观察到了一些局限性:
作者在论文中针对很多疑问都给出了详细剖析。
作者对 o1-preview 在不同畛域的片面评价提醒了几个关键观念:
更多详细消息请参见原论文。