最强开源Llama 新测试基准颁布 3难堪了

2024-11-15

假设试题太繁难，学霸和学渣都能考90分，拉不开差距……

随着Claude 3、Llama 3甚至之后GPT-5等更强模型颁布，业界急需一款 更难、更有辨别度的基准测试 。

大模型竞技场面前组织LMSYS推出下一代基准测试 Arena-Hard ，惹起宽泛关注。

Llama 3的两个指令微调版本实力究竟如何，也有了最新参考。

与之前大家分数都相近的MT Bench相比，Arena-Hard 辨别度从22.6%优化到87.4% ，孰强孰弱了如指掌。

Arena-Hard应用竞技场实时人类数据构建， 与人类偏好分歧率也高达89.1% 。

除了下面两个目的都到达SOTA之外，还有一个额外的好处：

实时降级的测试数据蕴含人类新想出的、AI在训练阶段从未见过的揭示词， 减轻潜在的数据暴露 。

并且新模型颁布后，无需再期待一周左右期间让人类用户介入投票，只有破费25美元极速运转测试管线，即可获取结果。

有网友评价， 经常使用实在用户揭示词而不是高中考试来测试，真的很关键。

新基准测试如何运作？

繁难来说，经过大模型竞技场20万个用户查问中，筛选500个高品质揭示词作为测试集。

首先，筛选环节中确保 多样性 ，也就是测试集应涵盖宽泛的事实环球话题。

为了确保这一点，团队驳回BERTopic中主题建模管道，首先经常使用OpenAI的嵌入模型（text-embedding-3-small）转换每个揭示，经常使用 UMAP 降落维度，并经常使用基于档次结构的模型聚类算法(HDBSCAN)来识别聚类，最后经常使用GPT-4-turbo启动汇总。

同时确保中选的揭示词具备 高品质 ，有七个关键目的来权衡：

经常使用GPT-3.5-Turbo和GPT-4-Turbo对每个揭示启动从 0 到 7 的注释，判别满足多少个条件。而后依据揭示的平均得分给每个聚类评分。

高品质的疑问理论与有应战性的话题或义务关系，比如游戏开发或数学证实。

Arena-Hard目前还有一个弱点：经常使用GPT-4做裁判更偏好自己的输入。官网也给出了相应揭示。

可以看出，最新两个版本的GPT-4分数高过Claude 3 Opus一大截，但在人类投票分数中差距并没有那么显著。

其实关于这一点，最近曾经有钻研论证， 前沿模型都会偏好自己的输入 。

钻研团队还发现，AI天生就可以判别出一段文字是不是自己写的，经过微调后自我识别的才干还能增强，并且 自我识别才干与自我偏好线性关系 。

那么经常使用Claude 3来打分会使结果发生什么变动？LMSYS也做了关系试验。

首先，Claude系列的分数确实会提高。

但令人惊讶的是，它更青睐几种开明模型如Mixtral和零一万物Yi，甚至对GPT-3.5的评分都有显著提高。

总体而言，经常使用Claude 3打分的辨别度和与人类结果的分歧性都不如GPT-4。

所以也有很多网友倡导， 经常使用多个大模型来综合打分 。

除此之外，团队还做了更多消融试验来验证新基准测试的有效性。

比如在揭示词中添加“让答案尽或者详尽”，平均输入长度更高，分数确实会提高。

但把揭示词换成“青睐闲谈”，平均输入长度也有提高，但分数优化就不显著。

此内在试验环节中还有很多无心思的发现。

比如GPT-4来打分十分严厉，假设回答中有失误解狠狠扣分；而Claude 3即使识别出小失误也会严惩办置。

关于代码疑问，Claude 3偏差于提供繁难结构、不依赖外部代码库，能协助人类学习编程的答案；而GPT-4-Turbo更偏差最适用的答案，不论其教育价值如何。

另外即使设置温度为0，GPT-4-Turbo也或者发生略有不同的判别。

从档次结构可视化的前64个聚类中也可以看出，大模型竞技场用户的提问品质和多样性确实是高。

这外面兴许就有你的奉献。

Arena-Hard GitHub： Arena-Hard HuggingFace：大模型竞技场：

原文链接: