如何评价大言语模型生成结果的多样性
1、论文的背景
对于大型言语模型(LLM)的一个开明性疑问是,这些模型从预训练数据中学习了哪些形式,以及这些形式能否能够在下游义务和数据集中广泛实用。虽然先前的钻研重要集中在生成品质上,最近也开局关注文本生成的陈腐性,但对LLM学习到的形式类型的特色形容还很有限。对于评价大型言语模型(LLM)生成文本多样性的钻研重要集中在词级特色上。本文提供了一种句法特色剖析方法,用以形容模型中的广泛重复现象,逾越了n-gram的范围。
例如,思考图1中OLMoInstruct生成的文本,这是从一个生成的电影评论摘要语料库中采样的。这是经过揭示模型总结一组人工撰写的电影评论而发生的:"《旧金山的最后一个黑人》是一部感人的、拍摄精巧的电影[...] 发明了一种共同而剧烈的观影体验[...]"。在这个例子中,论文发现总共有35个重复的词性(POS)标签序列,长度为n = 5到8。虽然生成的文本在OLMo的训练数据中并未发生,但论文发现35个序列中有33个(95%)出如今预训练数据中。因此,虽然生成的文本自身是陈腐的,但它依赖于从训练数据中学习到的经常出现句法序列。
2、论文的方法
论文量化并测量了大型言语模型(LLM)在文本生成中经常使用重复序列的状况。论文引入并聚焦于句法模板,即词性(POS)序列,这是一种能展现多样化形式集的句法形象。论文首先建设了训练数据中频繁模板与模型在生成环节中依赖这些模板之间的咨询。应用这一发现,论文间接衔接了训练数据模板统计和模型生成这些模板的偏差。而后,论文评价了几个敞开源模型及其偏差于生成的句法模板,这让论文了解了它们训练数据的属性。
论文首先引见句法模板,并定义在生成文本中检测和测量这些模板的方法。基于这个定义,论文试图回答以下疑问:
RQ1 指令微调的LLM生成的输入有多大水平上是模板化的?
RQ2 论文能否在(预)训练数据中定位模型生成的模板?
RQ3 句法模板能否用于检测数据记忆?
3、论文的成果
论文发现模型生成文本中的大局部(76%)模板可以在预训练数据中找到(相比之下,人类撰写的文本仅有35%),而且这些模板在RLHF等微调环节中并未被笼罩。这种与预训练数据的咨询使论文能够剖析那些论文不可失掉预训练数据的模型中的句法模板。论文还发现,作为特色的模板能够辨别不同的模型、义务和畛域,并且对定性评价经常出现模型结构很有用。
最后,论文展现了论文的目的也可以用作记忆的一种更软性版本。例如,虽然Carlini等人(2022)预计有1%的文本被记忆,但论文发现相比逐字记忆,有0.8-3.1%更多的软记忆文本,理论是经过交流数字和生成同义词成功的。
表2显示了两个额外义务的模板率:与Dolma相比(82.6%, 0.012),经常使用Dolma Cosmopedia启动分解数据生成和数据生成的模板发生率(99.1%)和每个标志的模板数(0.014)更高。
图2显示了各模型审核点的平均困惑度。论文发现模板学习得很快 - 在第一个模型审核点(已训练40亿个标志)就曾经发生。非模板标志的平均困惑度降低到约500,而模板的困惑度降低到约200。这些发现令人惊讶,标明模板是在预训练早期就被学习,而不是在微调环节中学习的。在残余的训练环节中,模板标志的平均困惑度不时坚持较低水平
本文转载自,作者: