OpenAI开源SimpleQA！轻松检测校准大模型才干刚刚

2024-11-15

当天清晨，OpenAI开源了最新基准测试集SimpleQA，可以协助开发者轻松检测、校准大模型的实在性才干。

目前，很多大模型会产生一本正派胡言乱语的疑问，例如，你提问NBA历史上得分最多的是谁，它回答是迈克尔乔丹，实践上是勒布朗詹姆斯。包括OpenAI自己颁布的GPT-4o、o1-preview、o1mini等前沿模型都有这些“幻觉”难题。

所以，SimpleQA关于开发者来说，可以精准测试大模型能否输入正确的答案，并对模型的说谎才干启动校准而后启动大幅度优化完善模型才干。

开源地址：

有网友示意，看了SimpleQA的测试数据才发现，o1-mini和o1-preview的性能差距这么大，o1-mini连GPT-4o都打不过。

令人惊讶的是，SimpleQA 被无心设计用来应战像 GPT-4 这样的初级模型，其中只包括至少有一次性模型尝试失败的疑问。这种反抗性的基准测试方法觉得像是一种大胆的转变，旨在提醒模型的局限性并推进模型的开展。

多整开源这是善报。别忘了你名字的初衷啊~

这很幽默，会看到更多的模型被测试，以及它们与我在提供的文本上启动的虚拟/幻觉基准测试结果的比拟。

很想看看o1模型的完整版测试。

齐全赞同理想性在人工自动中的关键性。SimpleQA 的引入可以清楚优化咱们对言语模型在这一畛域体现的了解。这是一项及时的动作，准确的数据关于信赖人工自动系统至关关键。等候看到这个基准测试的影响。

这很关键，由于确保大模型的理想性关于防止失误消息的流传至关关键，而 SimpleQA 提供了一种规范化的方法来评价和改良模型牢靠性的这一关键方面。

很棒，关键的降级！

SimpleQA便捷引见

在数据搜集阶段，SimpleQA的疑问参考答案由两名独立的 AI 训练员确定，并且训练员在创立疑问时被需要提供支持答案的网页链接，以确保答案有牢靠的依据。

例如，关于 “谁是苹果公司的开创人之一” 这样知识性疑问，训练员会依据历史资料和官网消息确定答案为史蒂夫乔布斯等，并附上如苹果公司官网网站等关系链接作为证据。

同时，疑问的设计使得预测答案易于评价，只准许有一个明白且无可争议的答案，防止了含糊性和歧义性。比如 “哪一年 iPhone 初次颁布”，答案明白为“2007 年”，而不是一个范围或含糊的表述。

SimpleQA的评价疑问和答案都十分冗长，这使得运转速度快且操作便捷。在评价模型回答时，经过 OpenAI API启动评分也十分迅速。 数据集中蕴含4326个疑问，能够在必定水平上降落不同次运转之间的方差，使评价结果愈加稳固牢靠 。

例如，在对多个模型启动测试时，不会由于数据集自身的不稳固性而造成结果产生较大动摇，从而能够更准确地比拟模型之间的性能差异。

SimpleQA的评价集十分多元化。涵盖历史、迷信技术、艺术、天文、电视节目等多个畛域。这种多样性使得评价结果更具广泛性和代表性，能够片面地测验模型在不同知识畛域的理想性回答才干。

另一个好处是它的校准测量配置。 经过征询模型对其答案的信念，钻研者可以了解模型能否知道它们知道什么，这是一个很关键的校准现象 。 假设一个模型能够准确地评价自己的信念水平，那么它就是一个校准良好的模型 。

OpenAI经过SimpleQA对GPT-4o、o1-preview、o1mini、Claude-3-haiku、Claude-3-sonnet等前沿模型启动了综合测试。结果显示，较大模型理论具备更高的性能，但即使是前沿模型在SimpleQA 上的体现也并非完美。

例如，GPT - 4o 在回答一些疑问时能够给出较高比例的正确答案，但仍有局部失误回答和未尝试回答的状况。同时，经过测量模型的校准状况，发现模型只管有必定的信念概念，但广泛存在高估自己信念的疑问，模型的信念水平与实践回答的准确性之间存在差距。

原文链接:

OpenAI开源SimpleQA！轻松检测 校准大模型才干 刚刚