OpenAI开源SimpleQA!轻松检测 校准大模型才干 刚刚
当天清晨,OpenAI开源了最新基准测试集SimpleQA,可以协助开发者轻松检测、校准大模型的实在性才干。
目前,很多大模型会产生一本正派胡言乱语的疑问,例如,你提问NBA历史上得分最多的是谁,它回答是迈克尔乔丹,实践上是勒布朗詹姆斯。包括OpenAI自己颁布的GPT-4o、o1-preview、o1mini等前沿模型都有这些“幻觉”难题。
所以,SimpleQA关于开发者来说,可以精准测试大模型能否输入正确的答案,并对模型的说谎才干启动校准而后启动大幅度优化完善模型才干。
开源地址:
有网友示意,看了SimpleQA的测试数据才发现,o1-mini和o1-preview的性能差距这么大,o1-mini连GPT-4o都打不过。
令人惊讶的是,SimpleQA 被无心设计用来应战像 GPT-4 这样的初级模型,其中只包括至少有一次性模型尝试失败的疑问。这种反抗性的基准测试方法觉得像是一种大胆的转变,旨在提醒模型的局限性并推进模型的开展。
多整开源这是善报。别忘了你名字的初衷啊~
这很幽默,会看到更多的模型被测试,以及它们与我在提供的文本上启动的虚拟/幻觉基准测试结果的比拟。
很想看看o1模型的完整版测试。
齐全赞同理想性在人工自动中的关键性。SimpleQA 的引入可以清楚优化咱们对言语模型在这一畛域体现的了解。这是一项及时的动作,准确的数据关于信赖人工自动系统至关关键。等候看到这个基准测试的影响。
这很关键,由于确保大模型的理想性关于防止失误消息的流传至关关键,而 SimpleQA 提供了一种规范化的方法来评价和改良模型牢靠性的这一关键方面。
很棒,关键的降级!
SimpleQA便捷引见
在数据搜集阶段,SimpleQA的疑问参考答案由两名独立的 AI 训练员确定,并且训练员在创立疑问时被需要提供支持答案的网页链接,以确保答案有牢靠的依据。
例如,关于 “谁是苹果公司的开创人之一” 这样知识性疑问,训练员会依据历史资料和官网消息确定答案为 史蒂夫乔布斯等,并附上如苹果公司官网网站等关系链接作为证据。
同时,疑问的设计使得预测答案易于评价,只准许有一个明白且无可争议的答案,防止了含糊性和歧义性。比如 “哪一年 iPhone 初次颁布”,答案明白为“2007 年”,而不是一个范围或含糊的表述。
SimpleQA的评价疑问和答案都十分冗长,这使得运转速度快且操作便捷。在评价模型回答时,经过 OpenAI API启动评分也十分迅速。 数据集中蕴含4326个疑问,能够在必定水平上降落不同次运转之间的方差,使评价结果愈加稳固牢靠 。
例如,在对多个模型启动测试时,不会由于数据集自身的不稳固性而造成结果产生较大动摇,从而能够更准确地比拟模型之间的性能差异。
SimpleQA的评价集十分多元化。涵盖历史、迷信技术、艺术、天文、电视节目等多个畛域。这种多样性使得评价结果更具广泛性和代表性,能够片面地测验模型在不同知识畛域的理想性回答才干。
另一个好处是它的校准测量配置。 经过征询模型对其答案的信念,钻研者可以了解模型能否知道它们知道什么,这是一个很关键的校准现象 。 假设一个模型能够准确地评价自己的信念水平,那么它就是一个校准良好的模型 。
OpenAI经过SimpleQA对GPT-4o、o1-preview、o1mini、Claude-3-haiku、Claude-3-sonnet等前沿模型启动了综合测试。结果显示,较大模型理论具备更高的性能,但即使是前沿模型在SimpleQA 上的体现也并非完美。
例如,GPT - 4o 在回答一些疑问时能够给出较高比例的正确答案,但仍有局部失误回答和未尝试回答的状况。同时,经过测量模型的校准状况,发现模型只管有必定的信念概念,但广泛存在高估自己信念的疑问,模型的信念水平与实践回答的准确性之间存在差距。
原文链接: