一文详解大言语模型的盛行架构与训练技术

2024-11-15

这篇博客片面引见了大型言语模型（LLMs）的构建流程，从盛行架构的选用到实践建模的每个关键步骤。文章首先讨论了LLMs的模型架构，而后详细论述了数据预备环节，包括数据的搜集、荡涤和去重，接着是关于如何启动有效标志化的讨论。在模型构建方面，博客详细解释了驳回自监视学习方法的预训练环节，以及对模型启动指令微和谐对齐的关键性。每个环节都被粗疏地解说，使读者能够深化了解LLMs的构建和优化环节。这篇博客为那些对LLMs上班方式感兴味的读者提供了一个指点。

训练流程表示 ：

1. 干流的LLM架构

Transformer

仅编码器架构

仅解码器架构

编码器-解码器架构

2. 数据清算

图：微观数据精炼的后续阶段剔除了最后在CommonCrawl中的近90%文档。

2.1 数据过滤

数据过滤的目的是提高训练数据的品质和训练数据的有效性。经常出现的数据过滤技术包括:

2.2 数据去重

3 分词

3.1 BytePairEncoding（字节对编码）

3.2 WordPieceEncoding（词片编码）

3.3 SentencePieceEncoding（句子片编码）

4. 位置嵌入

4.1 相对位置嵌入（Absolute Positional Embeddings, APE）

4.2 相对位置嵌入（Relative Positional Embeddings, RPE）

4.3 旋转位置嵌入（Rotary Position Embeddings, RoPE）

4.4 相对位置偏置（Relative Positional Bias）

5. 模型预训练

预训练是大型言语模型训练流程的第一步，协助LLMs取得基本的言语了解才干，适用于宽泛的言语关系义务。在预训练时期，LLM通常在少量（通常是未标志的）文本上以自监视的方式启动训练。预训练的方法有多种，包括下一句预测，最经常出现的两种包括下一个标志预测（自回归言语建模）和遮盖言语建模。

5.1 自回归言语建模

5.2 遮盖言语建模

5.3 专家混合（Mixture of Experts, MoE）

图：Switch Transformer编码器块示用意。它们用稠密Switch FFN层（浅蓝色）交流了Transformer中的密集前馈网络（FFN）层。

6. 微和谐指令微调

微和谐指令微调是大型言语模型训练流程中的关键步骤，这些技术展现了微和谐指令微调在提高LLMs功能、优化模型顺应特定义务和遵照指令的才干方面的关键作用。

6.1 微调

6.2 指令微调

6.3 Self-Instruct方法

7. 对齐

7.1 对齐

AI对齐是指疏导AI系统朝向人类的指标、偏好和准则的环节。预训练的LLMs，虽然针对词预测，但经常会展现出非预期行为，如生成有毒、有害、误导性和带有成见的内容。

7.2 指令微调

指令微调是使LLMs更凑近对齐的一步。但是，在许多状况下，还须要进一步的步骤来改善模型的对齐，防止非预期行为。最新钻研标明，除SFT外的进一步对齐关键改善至少7B参数的模型。关于较小的模型，SFT已足够。以下是最盛行的对齐方法：

7.3 RLHF和RLAIF

图：DPO优化人类偏好，防止强化学习。现有方法首先对人类反应数据集中的揭示和对照应答的人类偏好启动鼓励模型拟合，而后经常使用RL找到最大化学习鼓励的战略。相比之下，DPO间接针对最佳满足偏好的战略启动优化，具备便捷的分类指标，无需显式鼓励函数或RL。

图：LLM对齐触及监视微调，而后优化以人为中心的损失（HALO）。但是，现有方法须要的成对偏好数据难以失掉。相比之下，KTO经常使用一种愈加丰盛的数据类型，使其无理想环球中更易于经常使用。

8. 解码战略

解码是支经常使用预训练的LLMs启动文本生成的环节。在处置输入揭示后，标志器将文本中的每个标志转换为相应的标志ID。言语模型随后经常使用这些ID预测下一个最或者的标志或标志序列。最后，模型发生逻辑值，经过softmax函数转换为概率。曾经开发了多种解码战略，包括Greedy Search、Beam Search以及Top-K和Top-P (Nucleus sampling)等采样技术。

8.1 Greedy Search

8.2 Beam Search

8.3 Top-K采样

8.4 Top-P采样

9. 费效比优化训练/推理/顺应/紧缩

在这局部中，咱们回忆了一些用于更经济、更高效计算地训练和经常使用LLMs的盛行方法。

9.1 优化训练

为了更经济、更高效地训练LLMs，曾经开发了许多框架。这些优化训练框架有助于更经济高效地训练和经常使用LLMs，降落老本的同时坚持或优化功能。这里咱们引见一些关键的框架。

RWKV架构

RWKV与不同Transformers的时期复杂度比拟

9.2 低秩顺应（LoRA）

图：LoRA的重参数化环节。

9.3 常识蒸馏

图：具备在校生和老师的通用常识蒸馏框架。

9.4 量化

量化是缩小模型大小和优化运算速度的关键技术。在深度学习的外围，是一系列运行于具备特定精度的模型权重的数学函数。降落权重的精度可以用于减小模型大小，并使其运算更快。例如，与Int-8操作相比，Float-32操作更慢。量化可以在不同阶段运行。

关键量化方法：

完结语

到这里关于LLMs的盛行架构与训练技术的引见就要凑近序幕了，这个博客是大言语模型教程系列的第六篇，之后会陆续把大言语模型关系的常识点做更多的整顿，在本次大言语模型的探求之旅的序幕，感谢每位好友的陪伴，我是@APlayBoy，等候与您一同在AI的环球里始终生长！

原文链接:

<<LangChain 优雅谈大模型 Vs. LlamaIndex

CEO 零 Cohere 只卖模型的利润有多少>>