大模型系列之解读MoE

2024-11-14

Mixtral 8x7B 的推出，使咱们开局更多地关注基于MoE 的大模型架构，那么，什么是MoE呢？

1. MoE溯源

MoE的概念来源于 1991 年的论文 Adaptive Mixture of Local Experts（~hinton/absps/jjnh91.pdf）。这个概念与集成学习方法相似，旨在为由多个独自网络组成的系统并建设一个监管机制。在这种系统中，每个网络处置训练样本的不同子集，专一于输入空间的特定区域。

起初，论文（）探求了将 MoE 作为更深层网络的一个组件。这种方法准许将 MoE 嵌入到多层网络中的某一层，使得模型既大又高效。而且，由钻研开局探求基于输入令牌灵活激活或停用网络组件的方法。2017年，论文（）将这一律念运行于 137B 的 LSTM ，经过引入稀疏性，这项上班在坚持高规模的同时成功了极速的推理速度。

总之，MoE 的引入使得训练具有数千亿甚至万亿参数的模型成为或者。

2.什么是MoE？

从溯源中可以看到，MoE 的基本思维在于“人多力气大”，这象征着应用多个专家网络，每个专家网络专门处置数据的不同方面，以取得更好的性能。其目的是创立一个灵活系统，在这个系统中，可以依据输入数据应用各种专家的优点，从而比繁多模型能够成功的预测愈加灵敏和准确。

在技术上，MoE是一种集成学习方法，把一个大义务分解成更小的局部，让不同的专家处置每个局部。而后，有一个痴呆的决策者，会依据状况选择采用哪位专家的倡导，一切这些倡导都被混合在一同。

这种方法有四个关键步骤:1. 把大疑问分红小块;2. 为每一块训练一个超级痴呆的专家。3. 引入一个决策者，也就是妇孺皆知的门控模型，来选用应该由哪位专家带头。4. 搜集专家的意见和决策者的选用，提出最终的预测。

典型地，MoE 是一类transformer模型，经常使用“稀疏”方法，其中每个输入只经常使用模型组件的一个子集。这种设置准许更有效的预训练和更快的推理，同时治理一个更大的模型大小。每个专家模型普通都是一个神经网络，通常是一个前馈网络(FFN) ，专门处置输入数据的不同方面，使模型能够更有效地处置范围更广的义务。

MoE的优点在于更少的计算上班使得模型的预训练更快，与为更多步骤训练更小的模型相比，为更少步骤训练更大的模型可以发生更好的结果。在推理环节中，与其余大模型相比，参数数目相反的 MoE 模型体现出更快的推理速度。虽然有许多参数，但只经常使用了一个子集，从而造成更快的预测。

3. MoE的组成

在MoE系统中，传统 Transformer 模型中的每个前馈网络 (FFN) 层交流为 MoE 层，其中 MoE 层由两个外围局部组成: 一个门控网络和若干数量的专家。

同时，token在封装输入数据中的特色和信息方面施展着关键作用。token示意为高维向量，作为一种综合的结构化格局，用于编码输入的相关特色。每个token由多个维度组成，每个维度示意数据的特定特色或方面。经过以高维向量格局组织信息，系统可以有效地捕捉输入数据中的复杂性和纤细差异，为进一步剖析提供丰盛的数据来源。

token的高维示意使系统内的专家能够从数据中提取详细的见地和形式。经过将token作为高维向量处置，专家模型可以应用先进的算法和技术来发现暗藏的相关性和相关，提高MoE系统的全体剖析才干。

3.1 专家模型

专家模型是针对较小疑问创立的模型，不只仅局限于神经网络，也可以是任何类型的模型。对每个专家模型启动训练，使其能够在输入空间的指定区域内专门预测数据点。当然，可以神经网络来同时表演决策者和专家的角色，这时普通会称为“混合密度网络”。一切这些专家都失掉了相反的数据集，都会尝试在此基础上做出预测。

“专家”通常指的是模型的一个组成局部，专一于数据中特定类型的义务或形式(如代码生成、推理、汇总) 。其专业化水平取决于他们接受的训练数据和模型自身的结构，更多的是关于计算义务的实质(例如，识别特定的形式，处置特定类型的输入) ，而不是特定畛域的常识。

MoE 模型中，每个专家模型普通是一个经过训练的神经网络，能够很好地处置整个数据或义务的子集。这些专家之前的独特主干网络充任特色提取器，将原始输入转化为专家可以更有效地上班的初级示意。这种设置准许每个专家关注它最适宜处置的形式或数据特色，从而成功愈加粗疏和准确的预测。

3.2 门控模型

在给定的状况下，咱们须要一个决策者来选择遵照哪位专家的倡导，这个决策者被称为门控模型。门控模型选择了关于给定的输入应该经常使用哪个专家模型的预测。门控模型学习将输入路由到最适宜的专家当门控模型是一个神经网络的时刻，有时也称为门控网络。门控网络基本上起到决策者的作用，依据不同专家的熟练水平和与输入数据的相关性为他们调配权重。也就是说，门控网络依据给出的信息灵活调整专家模型的权重。

门控网络是 MoE 区别于一个便捷的模型汇合的关键。它是一个可训练的组件，学会依据输入数据为每个专家的输入调配适当的留意力(或权重)。这种调配不是恣意的; 它是由门控网络对哪位专家最有或者为给定输入发生正确输入的评价选择的。门控机制有效地疏导汇合，将输入导向最相关的专家，并将他们的输入分解为一个内聚预测。这种灵活路由配置准许 MoE 模型具有高度的顺应性和高效性，并为每个义务应用最适当的资源。

当经常使用神经网络模型时，门控网络和专家模型一同训练，这种训练就像是教他们如何像一个团队一样上班。过去，用一种叫做“希冀最大化”的方法来处置这个疑问。门控网络或者会给每个专家一个看起来像概率的分数，标明它对每个专家的预测有如许信赖。

随着Softmax和噪声top-k 门机制的引入，MoE模型有了长足的停顿。Softmax是一种盛行的选用，以确定每个专家模型的奉献模型的预测。它依据每个专家与输入数据的相关性为其调配权重，较高的权重给予更相关的专家。噪声 Top-k 门控机制经过选用一个Top-k 专家子集启动预测来引入随机性。这种随机元素有助于在专家选用环节中引入多样性，提高模型的鲁棒性和泛化才干。

4. MoE 的成功

成功MoE系统的关键在于体系结构的设计，其中一个比拟前沿的方法触及到应用Switch Transformer结构来集成混合的专家模型层。该体系结构使系统能够应用多个专家模型在作出选择和预测方面的综合专门常识。

在构建Switch Transformer体系结构时，必定保障专家混合层的无缝集成。这些层担任从不同的角度处置和剖析数据，使系统能够依据各种不同的见地作出理智的选择。典型的成功步骤如下：

成功MoE系统的另一个关键点是灵活路由和负载均。此战略确保token在整个系统中有效散布，优化性能和资源应用率。灵活路由触及到依据上班量和信息的复杂性实时调配义务和数据给不同的专家模型。经过灵活路由token，系统能够顺应始终变动的需求，在运转环节中坚持最佳效率。负载平衡关于在专家之间平均调配计算义务和数据处置起着至关关键的作用。这可以防止瓶颈和资源糜费，最终提高系统的全体性能。普通的战略成功方式如下：

上方这些开源名目可以用于训练MoE:

5. MoE 的训练

MoE模型的训练是一个巧妙的环节，其中每个专家在特定类型的推理中变得更好。它不像间接在特定义务或畛域中训练一个专家那样便捷。

5.1 MoE 系统训练的特点

由于模型的体系结构和它所泄露的数据组合，MoE 模型中专家的专业化通常在训练环节中人造出现，特点如下：

专家模型通常不会只专一于一个狭窄的义务类型，“专业常识”应该被了解为某些类型的数据或义务的效率或有效性的相对提高，而不是严厉的畛域限度。

5.2 联结训练

优化MoE模型的一个关键战略是对门控网络与其余组件启动联结训练。在联结训练环节中，门控网络的参数经过整个模型的反向流传启动降级。这个环节准许门控网络依据从专家模型收到的反应来调整其路由决策。该模型经过对一切组件启动集成优化，可以更好地平衡不同专家的奉献，优化路由机制，到达最优结果。

5.3 指令调优

指令调优方法雷同可用于训练MoE系统。这些方法着重于调整路由机制和专家模型，以提高模型在不同义务和输入数据散布中的性能。经常出现的微调战略包括：

6. MoE 的典型运行

MoE 架构曾经被用来为言语模型建设大型的、计算效率高的神经网络。它们可以处置计算形式或义务，如代码生成、推理和汇总。MoE曾经运行于强化学习疑问，每个专家都可以专门处置环境的不同方面。在迁徙学习中，MoE可以用来将在一个畛域学到的常识运行到另一个相关畛域。

另外，MoE正在共性化介绍系统方面取得长足停顿，它们可以经过让不同的专家介入不同类型的内容或用户简介来迎合用户的不同偏好。这种基于输入数据启动顺应和专门化的才干使得 MoE 关于未来的运行程序特意有吸引力。

举例而言，谷歌的 Gemini 1.5采用了MoE架构，这种架构使Gemini 1.5更有效的训练和服务。它将您的恳求路由到一组较小的“专家”神经网络，这样照应速度更快，品质更高。Gemini 1.5 Pro，这是一个中等大小的多模态模型，针对不同义务的缩放启动了优化。它的性能与1.0 Ultra 相当，后者或者是迄今为止谷歌最关键的模型。Gemini 1.5 Pro 还在长语境了解方面引入了一个打破性的试验特性。它提供了一个规范的128,000 token 高低文窗口，但是有限的开发人员和企业客户可以经常使用最多100万token的高低文窗口来启动尝试。

另一个运行示例是Mixtral 8x7B ，它经常使用稀疏混合专家架构(SMoE)。它的架构与Mixtral 7B 相反，不同之处在于每一层蕴含八个前馈网络。关于每一个token，在每一层，门控网络选用两个专家来处置形态并兼并他们的输入。因此，每个令牌都可以访问47B 参数，但是在推理时期只经常使用13B 优惠参数。Mistral 8x7B 在一切评价的基准测试中都优于或婚配 Llama 270B 和 GPT-3.5。特意爹，Mixtral 在数学、代码生成和多言语基准测试方面远远超越了Llama 270B 。

7. MoE 的便捷示例

MoE 模型通罕用于处置复杂的数据散布，并依据不同的专家子模型启动预测。上方经常使用 TensorFlow/Kera 成功一个基本的 MoE 模型步骤。

（1）定义专家模型, 可以是任何典型的神经网络结构

 numpy  np tensorflow  tf tensorflow  keras tensorflowkeraslayers  Dense Input Lambda Layer Softmax tensorflowkerasmodels  Modeldef create_expert_modelinput_dim output_dim:inputs  Inputshapeinput_dimx  Dense activatinotallowinputsx  Dense activatinotallowxoutputs  Denseoutput_dim activatinotallowxmodel  Modelinputsinputs outputsoutputs model

（2）定义门控网络，该网络接受输入并输入每个专家的门控系数(权重)，这些系数选择了每个专家对最终预测的奉献。

def create_gating_networkinput_dim num_experts:inputs  Inputshapeinput_dimx  Dense activatinotallowinputsx  Densenum_experts activatinotallowxoutputs  xmodel  Modelinputsinputs outputsoutputs model

（3）创立 MoE 模型，经常使用门控机制来计算专家模型预测的加权和

def create_moe_modelinput_dim output_dim num_experts:input_layer  Inputshapeinput_dimexpert_models  create_expert_modelinput_dim output_dim  _  rangenum_expertsgating_network  create_gating_networkinput_dim num_expertsexpert_outputs  expertinput_layer  expert  expert_modelsgating_coefficients  gating_networkinput_layerdef moe_functionargs:expert_outputs gating_coefficients  args tfreduce_sumexpert_outputs  tfexpand_dimsgating_coefficients axis axismoe_output  Lambdamoe_functionexpert_outputs gating_coefficientsmodel  Modelinputsinput_layer outputsmoe_output model

（4）选用适当的损失函数，编译模型并在数据集上对其启动训练

input_dim  X_trainshapeoutput_dim  npy_trainnum_experts  moe_model  create_moe_modelinput_dim output_dim num_expertsmoe_modelcompileloss optimizer metricsmoe_modelfitX_train y_train epochs batch_size

一句话小结

在复杂的门控机制指点下，默认地结合多个专家网络，基于MoE 系统的大模型提供了弱小的灵敏性、效率和准确性。

【参考文献】

系统 MoE 模型

<<疑似要挟人类 OpenAI奥秘Q*名目更多信息曝光 Lecun下场争论… 马斯克

揭示词控制大模型系列>>