大言语模型评价基准数据暴露疑问剖析报告

1. 钻研背景与动机

近年来,大言语模型(Large Language Models, LLMs)在人工自动畛域取得了渺小的停顿。为了评价这些模型的才干,钻研人员开发了许多评价基准。但是,随着这些基准的宽泛经常使用,人们对其适当性和偏心性发生了越来越多的担心。

本钻研的关键动机包括:

例如,GPT-3在训练环节中发现其预训练语料库蕴含了Children's Book Test数据集,而LLaMA-2则提到BoolQ数据集中的高低文是间接从网页中提取的,这些网页或者曾经蕴含在地下可用的语料库中。这些状况都或者造成评价结果的偏向。

2. 基准数据暴露的实证钻研

为了钻研基准数据暴露的影响,钻研人员设计了三种数据暴露场景:

钻研者选用了四种不同规模的言语模型启动评价:

评价基准包括:

试验结果显示,数据暴露清楚优化了模型在关系基准上的体现。以下是局部结果的示例:

模型

训练设置

GPT-Neo (1.3B)

GPT-Neo (1.3B)

+一切训练集

GPT-Neo (1.3B)

+一切训练集+测试揭示

这些结果清楚地标明,即使是较小的模型(如1.3B参数的模型)在数据暴露的状况下也能清楚提高功能,有时甚至超越了未经暴露数据训练的更大模型。

3. 基准数据暴露的潜在危险

钻研还讨论了基准数据暴露或者带来的其余危险:

3.1 对其余义务功能的负面影响

钻研者选用了三个未蕴含在暴露数据中的义务来评价影响:

结果显示,在暴露数据上训练后,模型在这些义务上的功能普遍降低。例如:

模型

训练设置

LLaMA-2 (7B)

LLaMA-2 (7B)

+暴露

这标明,仅在暴露数据上训练或者会造成模型在其余惯例义务上的功能降低。

3.2 降低模型的顺应才干

钻研者还讨论了数据暴露对模型后续顺应性的影响。他们经常使用Alpaca和CodeAlpaca数据集对模型启动指令微调,而后评价其功能。结果显示:

模型

训练设置

LLaMA-2 (7B)

+指令微调

LLaMA-2 (7B)

+暴露+指令微调

这标明,在暴露数据上训练的模型在后续顺应新义务时或者面临更大的艰巨。

4. 讨论与倡导

基于钻研发现,论文提出了以下倡导:

4.1 通用倡导

4.2 对LLM开发者的倡导

4.3 对基准保养者的倡导

5. 局限性与未来上班

本钻研存在一些局限性:

未来上班可以focus在这些方向上,启动更系统、更片面的钻研。

6. 论断

本钻研深化讨论了大言语模型评价中的基准数据暴露疑问,得出以下关键论断:

这项钻研为偏心、牢靠地评价大言语模型提供了贵重的见地和适用倡导,关于推进LLM评价畛域的开展具备关键意义。

论文原文:《Don’t Make Your LLM an Evaluation Benchmark Cheater》

本文转载自​​,作者:

您可能还会对下面的文章感兴趣: