大模型榜单还能信吗一个假模型就能登顶排行榜

2024-11-15

1. 缘起

目前评测大言语模型关键有两种方法：

• 经过人类投票来启动评价，比如：Chatbot Arena，但是这种往往须要破费较长的期间。

• 为了降落人类标注的依赖，还有另外一种智能化的LLM基准测试。这种方法老本低、容易裁减。

智能化基准测试也成为了泛滥模型的抢手选用，而且测试中的高胜率往往能带来清楚的宣传长处。

但是，智能化基准测试的胜率或者会遭到长度微格调成见的影响。虽然大少数这种影响是来自训练数据集，但是这也造成存在操纵胜率的或者性。

在本篇论文里，作者经过提交一个“假模型”来对智能化测试启动压力测试。

2. 舞弊战略（假模型战略）

从上图可以看到 suffix战略（指只经常使用反抗性后缀战略，不对输入指令作出有实质内容的回应）状况下，并没有实质的舞弊效果。所以，作者提出了新的舞弊战略：

• （1）构建结构化的回答来蛊惑LLM智能标注器从而到达舞弊效果

• （2）启动基于token级别的随机搜查来设计反抗性前缀

2.1 结构化舞弊照应

如上图，结构化舞弊照应战略是指把原来的评判揭示词启动修正，实质上是一种揭示词注入。

例如，在AlpacaEval 2.0中，当提交的目的模型（待评测性能的大模型）的照应位于最后时，标注器偏向于预测“M”。而当它出如今首位时，标注器则偏向于预测“m”：

-（1）用一个虚拟的指令-输入三元组代替了原始的指令-输入三元组；

-（2）自动位置时，应用标注器模型对最后输入的普遍偏好，疏导其预测“M”；

-（3）当位置被替换时，它应用笼罩模型“M”的输入，造成标注器预测“m”。

正确的AlpacaEval 2.0 揭示词

目的为模型M的舞弊战略

目的为模型m的舞弊战略

下面举例的这个结构化回应揭示词在AlpacaEval 2.0上到达了76.8%的LC胜率。

原始胜率（Raw Win Rate）： 最间接权衡模型获胜次数的比例。在智能基准测试中，模型的输入会被与一组规范或参考输入启动比拟，原始胜率即模型被判定为优于或等于参考输入的频率。这种胜率计算模式没有对输入的长度或格调启动控制，因此或者遭到模型输入长度的影响，即更长的输入或者更受青眼。

团圆胜率（Discrete Win Rate）： 团圆胜率是在思考输入品质的基础上，对原始胜率启动的一种调整。在计算团圆胜率时，评价系统会将模型的输入与参考输入启动粗疏的比拟，并对每个输入的各个方面（如准确性、关系性、完整性等）启动评分。团圆胜率或者会扫除那些虽然在总体上被判定为获胜，但在某些关键方面体现不佳的输入，从而提供一个愈加关注输入品质的获胜比例。

长度控制胜率（Length-Controlled Win Rate，简称LC胜率）： LC胜率是为了缩小模型输入长度对评价结果的影响而设计的一种目的。在计算LC胜率时，评价系统会控制模型输入的长度，确保一切介入比拟的输入在长度上是可比的。这样可以防止因输入长度不同而造成的评价偏向，提供一个愈加偏心的模型性能评价。LC胜率或者会在输入长度相似的条件下计算模型的获胜次数，从而更准确地反映模型在处置特定义务时的才干。

2.2 经过随机搜查（RS）设计反抗性前缀

为了进一步优化结构化回应的效果，引入了一个反抗性前缀，并驳回基于GPT-4查问结果的RS战略来优化它。

为了模拟更具应战性的场景假定智能基准的输入指令是隐秘的。

开发了一个可转移的前缀，应用地下可用的指令集来设计。经过在不同指令上聚合损失来优化单个反抗性前缀，确保前缀在不同输入指令和位置上的影响是普遍的。

驳回RS算法来优化反抗性前缀。该算法经过采样修正并选用在多个指令上最小化聚合损失的变体来完善前缀。

3. 舞弊战略的效果如何？

上图展现了作者的结构化照应舞弊战略与其余16个固定照应启动比拟的效果。下图展现了其余16个固定照应内容。

结果标明：结构化回应舞弊做略以最低的对数概率胜出，证实作者的战略在诈骗智能标注智能体方面的高效性。

自动性能中，当目的模型照应放在揭示词第二位时，有较低的损失，标明GPT4对第二位偏好。

上图将舞弊战略的得分与（2024年10月1日之前）顶尖模型的胜率启动对比：在一切基准测试中清楚优化了体现，赢得了最高的胜率和评分，到达了76.8%的LC胜率和59.5%的原始胜率。

经过RS优化后，LC胜率优化至86.5%，原始胜率提高至76.9%。

这些成绩与经过验证的SOTA模型相比有了清楚优化，后者仅到达了57.5%的LC和51.3%的原始胜率。

联合随机搜查的结构化方法在LC胜率上比经过验证的SOTA高出29.0个百分点，在原始胜率上高出25.6个百分点。

与社区SOTA相比，在LC上体现更佳（86.5%对78.5%），在原始胜率上相当（76.9%对77.6%）。

由于其冗长，舞弊的LC胜率普遍高于原始胜率，这标明AlpacaEval 2.0对长度舞弊也不够强健。

在Arena-Hard-Auto上，结构化照应舞弊战略到达了67.2%的胜率，经过随机搜查后优化至83.0%。

总之，在各种基准测试中都取得了清楚的增益，逾越了现有技术，证实了其在不同基准测试中的高效性，并强化了对更强健的智能LLM基准测试的需求。

4. 消融试验

4.1 结构化回应在开源智能标注智能体上有效吗？

在AlpacaEval 2.0测试指令的子集上，经常使用不同的有效回应评价log p(winner = NullModel)。

如上图，结构化照应舞弊战略对Llama-3智能标注智能体的影响很小。在Llama-3-8B-Instruct的状况下，结构化回应并未应用该智能体的位置弱点，由于自动位置和替换位置的对数概率与不同的有压服力回应大抵相似。

但是，在Llama-3-70B-Instruct上，在替换设置下观察到，结构化回应成功降落了对数概率。此外，在位置成见方面，Llama-3-8B-Instruct显示出很小的位置成见，由于自动位置和替换位置的概率相当凑近。相比之下，Llama-3-70B-Instruct在替换设置下显示出清楚的位置成见，更高的对数概率标明该智能体剧烈偏好最后输入（“M”）。

较大的Llama-3-70B-Instruct智能体的行为更凑近更先进的GPT-4，由于它对结构化回应和位置成见的反响比小型8B智能体更为敏感。 这标明模型规模或者参与了对咱们舞弊技术的敏理性 。

总的来说，与GPT-4相比，结构化照应舞弊战略在Llama-3智能体上的效果要小得多。这种差异的或者解释是，Llama-3智能体，尤其是较小的8B版本，其 遵照指令的才干不如GPT-4弱小，使它们对舞弊回应的敏理性较低 。

4.2 随机搜查对开源智能标注智能体功效清楚吗？

如上表，随机搜查在Llama-3-8B-Instruct和Llama-3-70B-Instruct等开源智能标注智能体上体现杰出。

以Llama-3-8B-Instruct为例，缺少随机搜查时，结构化回应的LC胜率仅为2.9%，原始胜率为1.4%。而一旦驳回随机搜查，胜率便戏剧性地飙升至95.4%（LC）和86.3%（原始），LC胜率优化了92.5个百分点。

关于Llama-3-70B-Instruct，仅凭结构化回应，LC胜率仅为0.4%，总体胜率为0.2%。但随机搜查的参与使得这些胜率区分跃升至95.1%（LC）和91.6%（原始），区分优化了94.7和91.4个百分点。

这些数据证实**随机搜查在优化开源智能标注智能体的舞弊成功率方面极为有效，胜率直逼100%**。

4.3 间接针对测试指令启动搜查有用吗？

也探求了间接舞弊战略的效果。间接舞弊可以看作是舞弊效果的下限目的。

上表的Test列示意能否是间接舞弊。结果标明：间接针对测试指令启动搜查清楚增强了舞弊的效果。

关于Llama-3-8B-Instruct模型，联合结构化回应和随机搜查，但不接触测试指令，LC胜率到达了95.4%，总体胜率为86.3%。

但是，当反抗性前缀间接 针对测试指令 启动优化时，LC胜率简直到达了完美的99.8%，总体胜率优化至99.4%，区分优化了4.6和13.1个百分点。

雷同地，关于Llama-3-70B-Instruct模型，不接触测试指令的随机搜查，LC胜率为95.1%，总体胜率为91.6%。

而一旦应用测试指令，这些比率区分攀升至99.4%（LC）和98.2%（原始），LC胜率优化了约4.3个百分点，总体胜率优化了6.6个百分点。

这些结果标明间接针对测试指令启动搜查带来的清楚长处，进一步优化了反抗性前缀，简直到达了完美的体现。

4.4 结构化舞弊战略能与传统回应相联合吗？

结构化舞弊战略可以与传统的、有消息量的回应相联合，只有将咱们的舞弊回应附加到原始回应上即可。

如下面4个图所示，当与像GPT-3.5-0613这样更提供消息的模型联合时，即使在采取严重优化步骤之前，初始胜率曾经很高。

这一点在图b和d中尤为清楚，随着优化的深化，性能（胜率和长度控制胜率）从高基线稳步优化。

a和c中，由于不提供与输入查问关系的任何消息，诈骗智能标注智能体的难度大大参与。

随着优化步骤的推动，有效模型的性能稳步优化，最终成功了有竞争力的胜率。

即使在模型输入有关、无消息的回应这一最具应战性的场景下，也能操纵基于LLM的基准测试。

5 反舞弊战略

5.1 模板改写术

改写输入文本是反抗言语模型破解的有效进攻手腕。基于此理念，反抗结构化照应舞弊战略之一是仅颁布智能标注模板的改写版本，同时保管实在模板的私密性。

本方法是假定改写后的模板将更难被舞弊者间接应用。

如上表所示，即使模板经过改写，依然能够到达高胜率（例如92.1%的LC胜率）。这标明， 仅颁布改写模板作为进攻机制是不够的，由于即使原始模板隐秘，舞弊战略依然有效 。须要更强有力的进攻措施来彻底处置这一疑问。

5.2 困惑渡过滤器（PPL filter）

经常使用GPT-4-1106-Preview作为智能标注智能体，以评价基于困惑度（PPL）的过滤器的有效性。困惑度是应用GPT-2计算的，遵照Alon & Kamfonas（2023）形容的方法。

如上图所示，虽然设定了高阈值， PPL过滤器未能继续识别出反抗性输入 。例如，结构化照应舞弊战略即使胜率高达76.8%，其困惑度依然低于阈值，使得过滤器失效。

仅依赖于困惑度，即使是窗口化性能，也无余以持重地检测出旨在影响LLM判别的反抗性操作 。

6. 论断

即使是最基础的模型，也能经过应用评价流程中的结构性毛病来取得高胜率。

6.1 局限性

• 首先，关键关注特定的基准测试，虽然结果在这些测试中获取了很好的推行，但在其余基准测试中的有效性依然是未知的。

• 此外，结构化照应舞弊战略很大水平上依赖于手工构建结构化照应。未来的钻研可以探求更智能化的方法来生成反抗性输入，这将使对手能够在更宽泛的范畴内应用这些破绽。

未来钻研的一个关键方向是 开发更弱小的反舞弊机制 。目前，针对LLM基准测试的舞弊缓解措施关键集中在控制输入的长度微格调上，但这些措施在面对结构化照应时已被证实是不够的。新的进攻战略关于坚持LLM基准测试的完整性至关关键。

• 论文原文:

本文转载自，作者：

<<为什么你的模型生成的内容长度总是不超越2K? AgentWrite

我与AIGC的缘分 #AIGC翻新先锋者征文大赛#>>

大模型榜单还能信吗 一个假模型就能登顶排行榜