EMNLP 应用LLM分解数据训练模型有哪些坑 2023

2024-11-14

大家好，我是HxShine

当天咱们将引见EMNLP2023的一篇 大模型（LLMs）生成文本分类义务分解数据 的文章，题目是《Synthetic> 实践落地中，高品质训练数据的搜集和挑选既消耗期间又老本低廉，钻研人员探求经常使用LLMs生成分解数据作为代替方法 。但是， LLMs生成的分解数据在允许不同文本分类义务的模型训练上成果有好有差 。本文试图剖析不同要素如何影响LLMs生成分解数据的有效性。

这篇论文钻研了大型言语模型（LLMs）生成分解数据集用于文本分类模型训练的后劲和限度。 剖析发现，义务的客观性（标注分歧性越差）越高，应用分解数据来训练模型成果也越差。另外分解数据成果好不好的关键影响要素在于生成数据的多样性如何，few-shot方式可以提高生成样本的多样性，经过few-shot方式生成的样本成果也普通优于zero-shot的样本。

•Synthetic>•

•Zhuoyan Li, Hangxiao Zhu, Zhuoran Lu, Ming Yin

大家好，我是HxShine

当天咱们将引见EMNLP2023的一篇 大模型（LLMs）生成文本分类义务分解数据 的文章，题目是《Synthetic> 实践落地中，高品质训练数据的搜集和挑选既消耗期间又老本低廉，钻研人员探求经常使用LLMs生成分解数据作为代替方法 。但是， LLMs生成的分解数据在允许不同文本分类义务的模型训练上成果有好有差 。本文试图剖析不同要素如何影响LLMs生成分解数据的有效性。

这篇论文钻研了大型言语模型（LLMs）生成分解数据集用于文本分类模型训练的后劲和限度。 剖析发现，义务的客观性（标注分歧性越差）越高，应用分解数据来训练模型成果也越差。另外分解数据成果好不好的关键影响要素在于生成数据的多样性如何，few-shot方式可以提高生成样本的多样性，经过few-shot方式生成的样本成果也普通优于zero-shot的样本。

•Synthetic>•

•Zhuoyan Li, Hangxiao Zhu, Zhuoran Lu, Ming Yin

1 Motivation

背景： 钻研者最近探求了经常使用大型言语模型（LLMs）生成分解数据集作为一种代替方法。但是 在不同的分类义务中，LLM生成的分解数据在允许模型训练方面的有效性并不分歧。

方法： 论文经过驳回两种数据生成战略，10个文本分类义务数据集，应用BERT和RoBERTa作为基座模型，在多个角度对生成的数据启动了剖析，从而推导出关于LLMs在分解数据生成中的后劲和局限性，最后经过对比剖析获取了 分解数据在模型训练中的体现与义务和实例的客观性负相关（标注分歧性越低、客观性越高） 的论断。

试验和评价方法总结:

试验方法：

1. 数据生成 ：

• 零样本（Zero-shot） ：在没有实在环球数据的状况下，经常使用LLM间接生成文本实例。这触及到构建高低文揭示来设定生成环境，而后提供数据生成揭示来指点LLM生成具有特定标签的文本。

• 少样本（Few-shot） ：在有大批实在环球数据的状况下，这些数据作为例子指点LLM生成新的文本实例。这种方法旨在 让LLM学习实在数据的形式，并在此基础上生成分解数据。

2. 数据集选用 ：选用了10个不同的文本分类义务数据集，这些 数据集涵盖了从低到高不同水平的客观性，以便钻研客观性对模型功能的影响。

3. 模型训练 ：经常使用BERT和RoBERTa预训练模型作为编码器，训练分类模型。训练环节中，区分经常使用实在环球数据、零样本分解数据和少样本分解数据。

评价方法：

1. 功能目的 ：评价模型功能的关键目的是 Macro-F1分数和准确率（Accuracy Score） 。这些目的用于权衡模型在测试集上的体现，并与金规范标签启动比拟。

2. 客观性评价 ：经过众包钻研搜集义务和实例级的客观性判别。 义务客观性经过比拟义务对的客观性来确定，而实例级客观性则经过标注人员对文本实例标签的分歧性来权衡（标注分歧性）。

3. 数据多样性剖析 ： 经常使用Remote Clique Score和Chamfer Distance Score来量化数据集的多样性 ，以探求模型功能差异的潜在要素。

4. 实例级功能剖析 ：钻研了模型在 不同客观性水平的义务虚例上的功能差异，即经过扭转实例级标注人员分歧性阈值来观察模型准确率的变动。

5. 试验重复性 ：为了确保结果的持重性，一切试验都启动了屡次重复，并报告了平均功能。

3 Conclusion

•钻研结果标明， 分类义务的客观性越大（标注分歧性也越差），经常使用LLM生成分解数据训练的模型的成果越差，这在义务级别和实例级别都获取了印证。

Table 1: Comparing the performance of classification models trained on the LLM-generated synthetic>二、具体内容

1 具体试验方案设置

本文的试验设置关键围绕经常使用大型言语模型（LLMs）生成分解数据以允许文本分类模型的训练。 讨论了LLM生成的分解数据在不同分类义务中的有效性，并特意关注了义务的客观性如何影响模型功能。 以下是试验的关键设置：

1. 数据生成设置 ：

• 零样本（Zero-shot） ：在这种设置下，假定没有实在环球的数据（即“文本-标签对”）存在。钻研者们构建了两个延续的揭示（prompts），间接提供应预训练的大型言语模型（如GPT-3.5-Turbo），以生成特定格调的文本和标签。

• 少样本（Few-shot） ：在这种设置下，假定 有大批实在环球数据可用于文本分类义务 。这些数据点作为例子，指点LLM生成分解数据。在生成文本之前，每次都会提供几个随机抽样的实在环球数据实例（包括文本和标签）作为例子。

2. 义务和数据集 ：

•试验涵盖了 10种代表性的数据集，笼罩了各种文本分类义务 ，如资讯分类、电影评论情感剖析、短信渣滓邮件过滤等。这些数据集被选中是为了涵盖宽泛的义务客观性。

•关于每个义务，钻研者们 经常使用预训练的BERT和RoBERTa模型作为编码器 ，并经常使用这些模型最后一层的示意嵌入作为分类模型的输入。

3. 模型训练和评价 ：

•在零样本和少样本设置下，区分 生成了3000个分解数据，用于训练分类模型。

• 三类数据训练的模型启动对比： 经常使用实在环球数据训练的模型、零样本设置下生成的分解数据训练的模型以及少样本设置下生成的分解数据训练的模型启动比拟。

•模型功能经过Macro-F1和准确率（Accuracy）分数来评价，并与测试集中的金规范标签启动比拟。

4. 客观性评价 ：

•为了确定不同文本分类义务的客观性水平， 应用众包搜集了人群对义务客观性的判别。

•经过比拟义务之间的客观性，构建了一个有向图，并应 用拓扑排序算法来取得义务客观性的线性排序。

5. 数据多样性剖析 ：

•为了探求模型功能差异的潜在要素，钻研者们对训练数据的多样性启动了探求性剖析， 经常使用了远程小集团得分（Remote Clique Score）和Chamfer距离得分（Chamfer Distance Score）来量化数据集的多样性。

6. 实例级客观性评价 ：

•关于每个义务，钻研者们还 讨论了义务虚例的客观性如何影响模型功能。 经过众包钻研搜集了实例级注释，并计算了每个义务虚例的客观性水平。

2 试验论断

Table 1: Comparing the performance of classification models trained on the LLM-generated synthetic>1. 数据集和义务 ：表中列出了10个不同的文本分类义务，包括AG资讯、IMDB评论、短信渣滓邮件、金融短语库、Reddit心情、推特讥刺、推特心情、讥刺资讯、风趣演讲等。

2. 义务客观性 ：表中经过 星号（⋆）的数量来示意义务的客观性水平，星号越多示意义务越客观。

3. 模型功能 ：关于每个义务，表中展现了经常使用BERT和RoBERTa模型在实在环球数据、零样本设置下的分解数据和少样本设置下的分解数据上训练的模型的功能。

4. 功能比拟 ：表中的数据展现了在不同数据集上，经常使用分解数据训练的模型与经常使用实在环球数据训练的模型之间的功能差异。功能差异以百分比如式示意，负值示意分解数据训练的模型功能低于实在数据训练的模型。

5. 关键论断 ：

• 经常使用实在环球数据训练的模型在简直一切义务上都优于经常使用分解数据训练的模型 ，无论是零样本还是少样本设置。

•在少样本设置下，模型的功能理论优于零样本设置，这标明 经常使用实在环球数据作为例子可以提高分解数据的有效性。

•关于 客观性较低的义务（如资讯分类、相关分类、IMDB评论和短信渣滓邮件），分解数据训练的模型与实在数据训练的模型之间的功能差异相对较小。

•关于 客观性较高的义务（如风趣或讥刺检测），经常使用分解数据训练的模型功能降低更为清楚。

这些论断标明， 义务的客观性是影响LLM生成分解数据有效性的一个关键要素。关于高度客观的义务，LLM生成的分解数据或者无余以允许有效的模型训练。

3 实在数据与分解数据的多样性剖析

Figure 1 在文档中提供了关于 实在环球数据与LLM生成的分解数据多样性的比拟。 这个比拟是经过两个目的来量化的：Remote Clique Score（远程小集团得分）和Chamfer Distance Score（Chamfer距离得分）。 这两个目的用于权衡数据集中实例之间的多样性，其中较高的值示意更大的数据多样性。

Remote Clique Score 是数据实例到其余实例的平均平均距离，而 Chamfer Distance Score 是数据实例到其余实例的平均最小距离。在这两个目的中，较高的值象征着数据实例之间的差异更大，即数据集的多样性更高。

Figure 1 论断：

1. 数据多样性 ： 实在环球数据理论比少样本设置下生成的分解数据更具多样性，而少样本分解数据又比零样本设置下生成的分解数据更具多样性。

2. 义务客观性与数据多样性 ：在高客观性义务（如风趣检测、讥刺检测等）中，实在环球数据与分解数据之间的多样性差异更为清楚，特意是在Chamfer Distance Score上。这标明 关于须要了解复杂人类情感和语境的义务，LLM或者不可生成能够笼罩实在生存场景全貌的数据实例。

3. 模型功能与数据多样性 ：数据多样性的差异或者局部解释了为什么在实在环球数据和少样本分解数据上训练的模型理论优于在零样本分解数据上训练的模型。 多样性更高的数据集或者有助于模型学习到更宽泛的特色和形式，从而提高模型的泛化才干。

4 不同文本分类义务虚例级客观性的量化评价

Table 2: The average instance-level annotation agreement for different types of tasks

Table 2 在文档中提供了不同文本分类义务虚例级客观性的量化评价，以及这些义务的平均标注人员的分歧性。这些数据有助于了解义务虚例的客观性如何影响模型在这些实例上的功能。表中蕴含以下内容和论断：

1. 义务虚例级客观性 ：表中列出了不同文本分类义务，如AG资讯、相关分类、IMDB评论等，并提供了每个义务虚例的平均标注人员的分歧性（平均赞同度 a）和Krippendorff’s α（一种权衡标注人员间分歧性的统计量）。

2. 标注人员的分歧性 ： 平均赞同度 a 和 Krippendorff’s α 的值越高，示意标注人员在给定义务虚例的标签上达成分歧的或者性越大，即义务虚例的客观性较低。

3. 义务客观性水平 ：表中还提供了义务的客观性水平，用星号（⋆）的数量示意。星号越多，示意义务的客观性越高。

4. 关键论断 ：

• 义务虚例的平均标注人员的分歧性与Krippendorff’s α值严密相关，这标明平均赞同度 a（标注分歧性）可以作为义务虚例客观性的正当代理。

• 关于客观性较高的义务，如风趣检测和讥刺检测，标注人员在标签上的分歧性较低，这或者象征着这些义务的实例更具客观性，从而对模型训练导致应战。

• 在同一类型的义务中，模型在客观性较低的义务虚例上（即标注人员在这些实例上达成较高分歧性的实例）理论体现更好。

这些论断强调了义务虚例的客观性对模型功能的影响，特意是在经常使用LLM生成的分解数据启动训练时。关于高度客观的义务虚例，即使是在少样本设置下，模型的功能也或者遭到限度，由于这些实例或者难以经过火解数据获取充沛的示意。

5 准确率随标注分歧性的变动状况

Figure 2: Changes in the accuracy of the BERT model trained on zero-shot synthetic>Figure 2 在文档中展现了BERT模型在零样本分解数据上训练时，模型准确率随着实例级标注人员分歧性阈值（γ）变动的状况。

1. 模型准确率与实例级标注人员分歧性 ：关于大少数义务（除了Sarcasm News和Financial Phrasebank数据集），模型准确率与实例级标注人员分歧性阈值之间存在剧烈的干燥递增相关。这象征着随着阈值的参与（即过滤掉更多客观性较高的义务虚例），模型的准确率理论会提高。

2. 相关性和拟合度 ：每个子图中的实线示意数据的线性回归拟合，R-squared分数量化了拟合的好坏。Spearman’s ρ评价了实例级标注人员分歧性阈值与模型准确率之间的排名相关性的强度。现实状况下，R-squared和Spearman’s ρ的值凑近1，标明实例级客观性与模型准确率之间存在剧烈的干燥相关。

3. 关键论断 ：

• 关于大少数义务，模型在客观性较低的义务虚例上体现更好。

•这种趋向在实在环球数据训练的模型中也存在，但理论比分解数据训练的模型体现得要弱。这或者象征着 分解数据或者不可齐全捕捉到实在环球数据的复杂性和多样性。

三、总结

这篇论文 讨论了应用LLM生成分解数据带来的后劲以及其在文本分类义务运行中的局限性。 钻研标明， 当触及到客观性较高的义务时，分解数据或者无余以允许高功能模型的训练。 这项上班关于那些正在应用或方案经常使用LLM生成数据的钻研人员来说十分关键，它提供了对分解数据有效性的深化了解，并指点了未来或者须要采取的方向和改良。

论断：

• 关于低客观性义务（标注分歧性好），LLM生成的分解数据可以有效地允许模型训练。

• 关于高客观性义务（标注分歧性差），分解数据或者无余以允许有效的模型训练。

• 分解数据成果不好的关键影响要素在于多样性比实在数据差，few-shot方式可以提高生成样本的多样性。

• 义务客观性与众包标注人员的分歧性强相关，标注分歧性可以作为义务虚例客观性的正当示意。

本文转载自，作者：

<<Graph 要素解析 Llamaindex推出workflow应答复杂LLM运行构建转向事情驱动以及技术成功从图 EDA

如何改良RAG模型的性能>>