大言语模型评价基准数据暴露疑问剖析报告

2024-11-14

1. 钻研背景与动机

近年来，大言语模型（Large Language Models, LLMs）在人工自动畛域取得了渺小的停顿。为了评价这些模型的才干，钻研人员开发了许多评价基准。但是，随着这些基准的宽泛经常使用，人们对其适当性和偏心性发生了越来越多的担心。

本钻研的关键动机包括：

例如，GPT-3在训练环节中发现其预训练语料库蕴含了Children's Book Test数据集，而LLaMA-2则提到BoolQ数据集中的高低文是间接从网页中提取的，这些网页或者曾经蕴含在地下可用的语料库中。这些状况都或者造成评价结果的偏向。

2. 基准数据暴露的实证钻研

为了钻研基准数据暴露的影响，钻研人员设计了三种数据暴露场景：

钻研者选用了四种不同规模的言语模型启动评价：

评价基准包括：

试验结果显示，数据暴露清楚优化了模型在关系基准上的体现。以下是局部结果的示例：

模型	训练设置
GPT-Neo (1.3B)	无
GPT-Neo (1.3B)	+一切训练集
GPT-Neo (1.3B)	+一切训练集+测试揭示

这些结果清楚地标明，即使是较小的模型（如1.3B参数的模型）在数据暴露的状况下也能清楚提高功能，有时甚至超越了未经暴露数据训练的更大模型。

3. 基准数据暴露的潜在危险

钻研还讨论了基准数据暴露或者带来的其余危险：

3.1 对其余义务功能的负面影响

钻研者选用了三个未蕴含在暴露数据中的义务来评价影响：

结果显示，在暴露数据上训练后，模型在这些义务上的功能普遍降低。例如：

模型	训练设置
LLaMA-2 (7B)	无
LLaMA-2 (7B)	+暴露

这标明，仅在暴露数据上训练或者会造成模型在其余惯例义务上的功能降低。

3.2 降低模型的顺应才干

钻研者还讨论了数据暴露对模型后续顺应性的影响。他们经常使用Alpaca和CodeAlpaca数据集对模型启动指令微调，而后评价其功能。结果显示：

模型	训练设置
LLaMA-2 (7B)	+指令微调
LLaMA-2 (7B)	+暴露+指令微调

这标明，在暴露数据上训练的模型在后续顺应新义务时或者面临更大的艰巨。

4. 讨论与倡导

基于钻研发现，论文提出了以下倡导：

4.1 通用倡导

4.2 对LLM开发者的倡导

4.3 对基准保养者的倡导

5. 局限性与未来上班

本钻研存在一些局限性：

未来上班可以focus在这些方向上，启动更系统、更片面的钻研。

6. 论断

本钻研深化讨论了大言语模型评价中的基准数据暴露疑问，得出以下关键论断：

这项钻研为偏心、牢靠地评价大言语模型提供了贵重的见地和适用倡导，关于推进LLM评价畛域的开展具备关键意义。

论文原文：《Don’t Make Your LLM an Evaluation Benchmark Cheater》

本文转载自，作者：

<<大言语模型在不同人造言语处置义务中的揭示工程方法综述

1.5开源来袭 Jamba前生今世>>