今天arXiv最热NLP大模型论文 Github万星！北航颁布零代码大模型微调平台LlamaFactory

2024-11-15

引言：大言语模型的高效微调及其在多样化义务中的运行

在人工智能畛域，大言语模型（LLMs）已成为推进技术提高的关键力气。它们无了解和生成人造言语方面展现出了出色的才干，从而在问答系统、机器翻译、消息提取等多样化义务中施展着关键作用。但是，要将这些模型适配到特定的下游义务中，理论须要启动微调（fine-tuning），这是一个资源密集型的环节。高效的微调方法因此成为了钻研的热点，旨在缩小训练老本，同时坚持或优化模型性能。

虽然如此，成功这些方法在不同模型上的运行依然须要特殊的致力。为了处置这一疑问，钻研者们开发了各种框架来简化微调流程，提高资源应用率，并经过友好的用户界面降低技术门槛。这些框架的产生，使得更多的钻研者和开发者能够应用LLMs，推进了人工智能技术的独裁化。

LLAMA FACTORY是一个旨在遍及LLMs微调的框架。它经过可裁减的模块一致了多种高效微调方法，使得数百种言语模型能够在资源有限的状况下启动高吞吐量的微调。此外，该框架还简化了罕用的训练方法，如生成式预训练、监视式微调、基于人类反应的强化学习以及间接偏好优化等。用户可以经过命令行或Web界面，以最小或无需编码的模式自定义和微调他们的言语模型。

LLAMA FACTORY的有效性和效率已经过言语建模和文本生成义务获取实证验证。该框架已在GitHub上颁布，并取得了超越13,000个星标和1,600个分支。

论文题目 :LLAMAFACTORY: Unified Efficient Fine-Tuning of 100+ Language Models

论文链接 :

名目链接 ：

LLAMA FACTORY框架的外围组成

下图显示了LLAMA FACTORY由三个关键模块组成：模型加载器（Model Loader）、数据上班者（Data Worker）和训练器（Trainer）。

1. 模型加载器：支持100+言语模型的预备上班

LLAMA FACTORY框架的模型加载器是其外围组件之一，担任预备和加载超越100种不同的言语模型。这一模块经过建设模型注册表，准确地为预训练模型附加适配器，识别并处置模型的各个档次。此外，模型加载器还担任模型的初始化、模型补丁、模型量化和适配器附加等关键义务，确保了框架能够灵敏地裁减到数百种模型和数据集。

2. 数据上班器：处置和规范化不同义务的数据集

数据上班器是LLAMA FACTORY框架的另一个关键模块，它经过一系列的数据处置流程，包括数据加载、数据对齐、数据兼并和数据预处置，来处置和规范化不同义务的数据集。该模块应用数据形容规范（下表）来一致不同格局的数据集，使其能够顺应各种义务。例如，关于文本生成模型的训练，数据上班器提供了多种聊天模板，这些模板可以依据模型类型智能选用，并经过剖析器编码句子。

3. 训练器：整合多种高效微调方法

训练器是LLAMA FACTORY框架的第三个外围模块，它整合了多种高效的微调方法，如LoRA+和GaLore，经过交流自动组件来顺应不同的义务和数据集。这些训练方法与训练器相互独立，易于运行于各种义务。训练器还支持散布式训练，可以与DeepSpeed等工具联合经常使用，进一步降低内存消耗。

高效微调技术的分类与运行

高效的LLM微调技术可以分为两个关键类别：一类专一于优化，另一类旨在计算。

1. 高效优化技术：缩小参数调整老本

高效优化技术的关键目的是在坚持老本最低的同时调整LLMs的参数。LLAMA FACTORY框架中蕴含的高效优化技术（下表）有freeze-tuning（解冻大局部参数，仅微调大批解码器层的参数）、GaLore（将梯度投影到低维空间，以内存高效的模式启动全参数学习）、LoRA（解冻一切预训练权重，引入可训练的低秩矩阵）以及DoRA（将预训练权重分解为幅度和方向组件，仅对方向组件运行LoRA）等。

2. 高效计算技术：降低计算所需的期间或空间

高效计算技术旨在缩小LLMs所需的计算期间或空间。LLAMA FACTORY框架整合了一系列高效计算技术（上表），如混合精度训练、激活审核点、flash attention（一种配件友好的留意力计算方法）、S2 attention（处置块稠密留意力中高低文裁减的应战）以及各种量化战略（经常使用低精度示意权重以缩小内存要求）。此外，Unsloth技术经过Triton成功LoRA的反向流传，缩小了梯度降低环节中的浮点运算，减速了LoRA训练。

LLAMA FACTORY的适用工具和个性

在当今大数据时代，高效地调整和优化LLMs关于成功其在下游义务中的最佳性能至关关键。 LLAMA FACTORY 框架应运而生，为广阔钻研者和开发者提供了一个一致、高效的LLM微调平台。以下是LLAMA FACTORY的一些外围工具和个性：

1. 减速推理：提供高吞吐量的并发推理服务

LLAMA FACTORY经过集成先进的计算技术，如混合精度训练、激活审核点以及特定的留意力机制优化（例如Flash Attention和S2 Attention），清楚提高了模型的推理速度。这些技术独特作用，使得在启动大规模模型推理时，能够以更低的内存占用和更高的吞吐量口头，从而减速了模型的部署和运行。

2. 综合评价：蕴含多种评价LLMs的目的

为了片面评价微调后模型的性能，LLAMA FACTORY集成了一系列评价目的，包括多项选用义务的评价（如MMLU、CMMLU和C-Eval）以及文本相似度评分（如BLEU-4和ROUGE）。这些综合评价工具不只支持智能评价模型的性能，还能经过人工评价提供愈加深化的洞察，协助用户从多个维度了解模型的长处和局限。

LLAMABOARD：用户友好的界面

为了降低LLM微调的门槛，LLAMA FACTORY提供了 LLAMABOARD ，一个基于Gradio构建的用户友好界面，使得用户无需编写任何代码即可轻松地启动模型的性能、训练和评价（下图）。

1. 易于性能：无需编码即可自定义微调参数

经过LLAMABOARD，用户可以经过方便的图形界面来性能微调参数，如学习率、批次大小等。该界面为用户提供了自动的参数值介绍，同时也准许用户依据自己的需求启动自定义，极大地简化了模型微调的性能环节。

2. 可监控训练：实时可视化训练日志和损失曲线

在模型训练环节中，LLAMABOARD实时降级并可视化训练日志和损失曲线，经常使用户能够实时监控训练进展和模型性能。这一个性为用户提供了及时调整训练战略的依据，有助于提高模型微调的效率和成果。

3. 灵敏评价：支持智能和人工评价模型性能

LLAMABOARD支持在数据集上智能计算文本相似度分数来评价模型性能，同时也提供了与模型交互的界面，准许用户经过与模型的对话来启动人工评价。这种灵敏的评价模式经常使用户能够从不同角度片面了解模型的性能，为进一步优化模型提供了贵重的反应。

经过这些适用的工具和个性，LLAMA FACTORY为广阔钻研者和开发者提供了一个高效、方便的平台，以促成LLMs在各种运行场景中的开展和运行。

实证钻研：框架的训练效率和义务顺应性验证

1. 训练效率的试验设置和结果剖析

在LLAMA FACTORY框架的训练效率试验中，钻研者们选用了PubMed数据集作为训练资料，该数据集蕴含超越3600万条动物医学文献记载。从这些文献的摘要中提取了约40万个token作为训练样本。试验触及了多种不同的高效微调方法，包括全参数微调（Full-tuning）、解冻微调（Freeze-tuning）、GaLore、LoRA以及4位QLoRA。试验中，钻研者们经常使用了Gemma-2B、Llama2-7B和Llama2-13B模型，并经过计算在训练样本上的困惑度（Perplexity, PPL）来评价不同方法的效率。

试验结果显示（下表，粗体字是最佳结果），QLoRA在内存占用上分歧体现最佳，这得益于其在低精度下示意预训练权重。而LoRA则在吞吐量上体现更优，这是因为经常使用了Unsloth对LoRA层启动的优化。在大型模型上，GaLore在降低PPL方面体现更好，而在较小的模型上，LoRA则具备长处。这些结果凸显了高效微调方法在顺应特定义务时的有效性。

2. 在下游义务上的微调成果评价

为了评价不同高效微调方法的义务顺应性，钻研者们在多个下游义务上启动了试验。这些义务包括CNN/DM、XSum和AdGen，区分代表了文本摘要和广告文案生成等文本生成义务。试验当选取了多个指令调优模型，并驳回序列到序列的义务启动微调。比拟了全参数微调（FT）、GaLore、LoRA和4位QLoRA的成果，并在每个义务的测试集上计算了ROUGE得分。

试验结果标明（下表，粗体字是最佳结果），除了Llama2-7B和ChatGLM3-6B模型在CNN/DM和AdGen数据集上，LoRA和QLoRA在大少数状况下都取得了最佳性能。这标明这些高效微调方法在特定义务上具备良好的顺应性。此外，Mistral-7B模型在英文数据集上体现更好，而Qwen1.5-7B模型在中文数据集上得分更高，这标明微调后模型的性能也与其在特定言语上的固有才干无关。

论断与未来上班：总结LLAMA FACTORY的奉献和展望

LLAMA FACTORY框架经过模块化设计，最小化了模型、数据集和训练方法之间的依赖性，并提供了一个集成化的方法，可以经常使用多种高效微调技术对超越100种言语模型启动微调。此外，该框架还提供了一个灵敏的Web UI LLAMABOARD，经常使用户能够在无需编码的状况下自定义微和谐评价言语模型。经过在言语建模和文本生成义务上的实证验证，证实了框架的效率和有效性。

未来，钻研者们方案继续将LLAMA FACTORY与最新的模型和高效微调技术坚持同步，并欢迎开源社区的奉献。在未来的版本中，钻研者们将探求更先进的并行训练战略和多模态高效微调言语模型。

本文转载自夕小瑶科技说，作者：

原文链接：

<<30秒生成建模师级Mesh！最大可生成面数优化至1600 GitHub揽星1.9k名目颁布V2版本

击败GPT>>