MLLMs等畛域的模型兼并运行与时机通常方法 LLMs

2024-11-14

一、论断写在前面

论文题目：Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities

论文链接：

名目链接：

模型兼并是机器学习社区中一种高效的赋能技术，无需搜集原始训练数据，也不须要低廉的计算。随着模型兼并在各个畛域的日益遍及，片面了解现有的模型兼并技术变得至关关键。但是，文献中关于这些技术的系统性和彻底的综述存在清楚的空白。

论文片面概述了模型兼并的方法和通常、它们在各个畛域和场景中的运行，以及未来的钻研方向。详细而言，论文首先提出了一种新的分类方法，片面讨论了现有的模型兼并方法。其次，论文讨论了模型兼并技术在大规模言语模型、多模态大规模言语模型以及10多个机器学习子畛域（包括继续学习、多义务学习、小样本学习等）中的运行。最后，论文强调了模型兼并面临的应战，并讨论了未来的钻研方向。

总结起来，论文的关键奉献包括以下三个方面：

1.方法论概述：论文提供了模型兼并技术方面的片面总结。详细而言，论文提出了一种新的分类法，将现有的模型兼并方法分为两个阶段，并依据关键技术进一步细分每个阶段的方法。此外，论文还讨论了与模型兼并相关的通常剖析上班。

2.运行概述：论文提供了模型兼并运行方面的片面总结。详细而言，论文讨论了模型兼并在基础模型和10+个机器学习子畛域的运行，展现了模型兼并如何处置这些畛域的现有应战。

3.未来方向：论文指出了模型兼并的几个残余应战和未来方向。论文置信，未来须要从性能差距、通常剖析、可信保证、跨学科运行等方面进一步探求模型兼并。

二、论文的便捷引见

2.1 论文的背景

模型兼并，也称为模型融合，是一种有效技术，它经过兼并多个具备不同才干的独立模型的参数，构建一个通用模型，无需访问原始训练数据或低廉的计算。与模型兼并最相关的概念是集成学习，由于它们都促成了常识的融合和转移。如图1所示，它们之间的关键区别在于，集成学习必需保管一切集体模型，并在推理阶段融合多个模型的预测（或输入），而模型兼并间接在参数级别启动兼并，并且在推理阶段只要一个最终模型。这使得模型兼并具备更吸引人的特性。

虽然模型兼并是一个相对较新的主题，但它正在迅速开展，并已在多个畛域找到了运行。例如，在基础模型中，经过不同下游义务微调的模型被兼并，以加弱小型言语模型的才干，而具备不同格调的图像生成模型被兼并，以创立具备混合格调才干的新模型。特意是，近年来机器学习社区中预训练和微调的审核点数量呈指数级增长，包括Huggingface、torchvision 和timm等开源仓库，经常使用户能够轻松失掉才干各异的训练有素的专家模型。这些丰盛的模型仓库进一步推进了模型兼并方向的极速开展。

图1：集成学习范式与模型兼并范式的示用意。(a) T个独立模型用于T个义务，(b) 集成T个独立模型用于T个义务，(c) 一个兼并模型用于T个义务。

随着模型兼并在机器学习社区的各个畛域中变得越来越盛行，片面了解现有模型兼并技术的优势和局限性以及它们在不同畛域的运行变得至关关键。虽然社区曾经做出了一些致力，但仍有很大的空白须要填补。更详细地说，Mergekit 、MergeKit 和 FusionBench 是技术报告，其中 MergeKit 仅讨论了七种代表性方法，而 FusionBench 讨论了八种兼并方法。

此外，Zheng 等人 [214] 讨论了“从模型中学习”的主题，并且仅在整篇论文中以单个小节（仅一页）提及模型兼并。与“模型兼并”主题最相关的上班是 [96]，但在运行方面，它仅在三种场景中讨论模型兼并：联邦学习、微和谐蒸馏。由于模型兼并方向的极速开展，它也疏忽了许多最近宣布的文章。为了填补这些空白，本调查旨在说明模型兼并方向的方法、通常、运行和未来趋向，提供相关方法的片面分类。特意是，本文经过涵盖三个关键方面来增强对模型兼并的片面了解：

首先，现有的模型兼并方法是如何分类的？论文首先在图 2提出了一种新的分类法，将现有的模型兼并方法分为两个阶段：兼并前和兼并中。(i) 兼并前方法旨在为兼并发明更好的条件。它进一步分为经常使用线性化微调来成功权重空间和输入空间的解耦，启动架构转换以将异构模型转换为同构模型，以及对齐权重以将它们搁置在同一盆地中。(ii) 兼并中方法并重于设计复杂的技术将多个模型兼并为一个。这些方法在兼并模型时处置义务抵触和搅扰疑问。它们可以进一步分为基本兼并方法，口头最便捷的参数兼并战略；加权兼并方法，依据特定规则计算的关键性兼并多个模型；子空间兼并方法，将多个模型投影到稠密子空间启动兼并；基于路由的方法，依据推理时期的输入样本灵活兼并模型；以及基于后校准的方法，校对兼并模型。除了这些方法外，论文还讨论了模型兼并的通常或实证剖析。

其次，哪些运行能从模型兼并中受益？论文详细讨论了模型兼并在基础模型和机器学习十余个子畛域中的各种运行场景。如图 2（下部）所示，模型兼并可运行于多种基础模型，包括大型言语模型、多模态大型言语模型和图像生成模型。例如，大型言语模型中的模型兼并有助于缓解不实在和有毒输入、成功常识遗忘，并减速训练。此外，模型兼并也出如今不同的机器学习子畛域中，如继续学习、多义务/多域学习、小样本学习及其他畛域，以处置各种应战。例如，在继续学习中，模型兼并可以减轻对旧义务的劫难性遗忘。在多义务学习、多目的学习和多域学习中，它促成了常识迁徙。此外，在反抗学习中，模型兼并可用于攻打和进攻战略。

第三，模型兼并的残余应战和未来钻研时机是什么？虽然兼并方法取得了停顿并宽泛运行于多个畛域，但该畛域仍存在许多开明性应战和未来钻研方向。例如，随着义务数量的参与，现有方法与独立专家模型之间的性能差距逐渐清楚更大。此外，的模型兼并方法在兼并环节中发生了渺小的内存老本，并且缺乏信赖保证以及深化的通常剖析。处置这些差距须要钻研人员的渺小致力，以进一步推进该畛域的兴盛开展。

图2：机器学习中模型兼并的分类法。这一通用框架涵盖了先进的模型兼并方法和通常（上部分），以及模型兼并技术在基础模型和超越10个机器学习子畛域的实践运行（下部分）。

2.2 模型融合方法

论文首先在引见模型融合的符号表示和疑问定义。而后详细论述先进的模型融合方法（表1总结了每类方法的关键目的）。现有的模型融合技术大抵可以分为以下两类：(i) 兼并前方法(Before Merging Methods)：为模型融合提供更好的先验常识。(ii) 兼并中方法（During Merging Methods ）：经过各种战略处置义务抵触/搅扰，而后口头参数兼并操作。最后，论文总结了模型融合有效性的通常或解释。

表1：现有模型融合方法的总结。

2.2.1 符号表示和模型融合疑问定义

假定有 T 个相反架构的模型须要兼并，它们训练的参数Φ。

2.2.2 预兼并方法

为了为模型兼并提供更好的前提条件，一类上班专一于独立模型的微调步骤，例如微调线性化模型而非非线性模型。此外，当须要兼并的多个模型架构不分歧时，必需预先转换为相反架构。最后，另一类上班尝试在兼并前对齐权重/参数。

2.2.2.1 线性化微调

Ortiz-Jimenez 等人 [123] 提醒，有效模型兼并的一个必要条件是权重解耦。这象征着权重空间的不同方向对应于输入空间中不相交区域的性能变动。

为了成功权重解耦，Ortiz-Jimenez 等人 [123] 提出在微调阶段沿着预训练模型的切线空间 [68] 对线性化模型启动微调，而不是在非线性模型的原始空间中启动。但是，对一切参数启动线性化微调比非线性微调老本更高。为了减速这一环节，一些上班倡导仅对部分层启动线性化。此外，TAFT [105] 为 Transformer [169] 架构开发了一种高效的线性化方法，该方法间接为 Transformer 网络推导出敞开方式的线性化解。总之，在切线空间中启动微调使得更容易解耦输入空间和权重空间，从而缩小后续模型兼并时的搅扰。

2.2.2.2架构转换

在某些状况下，须要兼并的模型或者具备不同的架构，无法间接兼并。为了处置这个疑问，一些钻研 [10, 120, 171, 172] 提出在兼并行启动架构转换，即，将具备不同架构的多个模型转换为相反的架构，例如，将多个模型转换为指定的目的模型，即，将多个模型转换为相反的架构，以便进一步兼并。因此，转换后的 GAN 模型具备相反的结构和共享常识，便于进一步的模型兼并。

相似地，FuseChat [172] 提出兼并具备不同架构和规模的聊天大型言语模型（例如，NH2-Mixtral-8x7B [75]，NH2-Solar-10.7B [84]，OpenChat-3.5-7B [173]）。详细来说，FuseChat 首先经常使用常识蒸馏将一切架构转换为与 OpenChat-3.5-7B 婚配，而后口头模型兼并操作。与上述基于蒸馏的方法不同，CLAFusion [121] 向较小的模型参与层/块（权重设置为单位矩阵），以使其架构与较大的模型对齐。总之，兼并具备不同架构的模型须要首先将一切模型转换为通用架构，以便后续兼并。

2.2.2.3 权重对齐

深度神经网络的线性形式连通性（linear mode connectivity，LMC）特性标明，在多个部分最小值之间存在一条门路，沿着这条门路损失简直坚持不变。许多钻研[38, 43, 117]标明，从相反的预训练模型开局并经常使用不同超参数性能启动微调的两个独立模型通常满足LMC。

此外，Adilova等人[3]和Zhou等人[216]将LMC的钻研裁减到了层级。LMC特性象征着多个部分最小值在权重空间中或者是等价的，同一模型的不同权重性能或者代表相反的性能。受此启示，许多上班提出在兼并/插值两个独立模型时，将一个模型的权重启动置换以与另一个模型对齐，如图 3 (b) 所示

图3：(a) 一种架构转换的示用意，将多个异构模型转换为同构模型，使得后续可以间接启动参数级兼并操作。(b) 权重/参数对齐的示用意，即对神经网络模型6(1)启动置换，使其与模型对齐。

OTFusion [148] 和 Imfeld 等人 [66] 驳回最优传输来软对齐跨模型的神经元。NeuronAlignment [162] 引入了一种低老本的启示式算法来近似最优神经元对齐。CCAMerge [58] 经过最大化神经元线性组合之间的相关性来启动置换。值得留意的是，Git re-basin [5] 提出了三种方法——激活婚配、权重婚配和直通预计——来对齐（或置换）在不同义务上训练的模型的权重。基于 Git re-basin，Peia 等人 [125] 进一步结合基于 Sinkhorn 的投影来改良这些对齐方法。此外，MuDSC [189] 提出同时在权重和激活空间中启动模型对齐。与启示式对齐战略不同，Deep-Align [119] 提出了一种基于学习的方法来启动权重对齐，驳回了一种陈腐的可学习架构，该架构以两组权重作为输入，输入一个用于对齐的置换矩阵。

虽然这些对齐算法取得了清楚的改良，但Jordan等人[80]以为这些方法的成功依赖于模型中归一化层（如BatchNorm、LayerNorm等）的经常使用；没有这些层，婚配算法的性能会大幅降低。作者称此为“方差解体”疑问，并提出了REPAIR方法来处置它。此外，Crisostomi等人[27]指出，先前的成对陈列并不保证循环分歧性，使得对齐软弱。他们进一步提出在每一步同时全局优化一切层的陈列。总的来说，与间接兼并未对齐的模型相比，对齐的模型在兼并环节中遭到的搅扰或抵触要小得多。

2.2.3兼并方法

这里详细讨论如何兼并一组训练良好的模型。现有方法大抵可分为五类：基本兼并方法，基于权重的兼并方法，基于子空间的兼并方法，基于路由的兼并方法，以及后校准方法。

2.2.3.1 基本兼并方法

最间接的方法之一是对多个模型的参数启动间接加权平均[146, 168]。但是，便捷权重平均的性能通常不尽善尽美。最近，Task Arithmetic[65]引入了“义务向量”的概念（如图4(a)所示），表示在义务t上微调的模型参数减去预训练的模型参数。

换句话说，义务向量被以为是有意义地疏导神经网络行为的。例如，多义务学习（MTL）可以经过参与义务向量来成功，遗忘可以经过减去义务向量来成功，论文可以从预训练模型中减去相应的义务向量，如图 4 ( c )，即在图 4 ( b ) 中，lambda 是一个超参数。

相反，当论文宿愿预训练模型遗记一特性能时。如图 4 ( d ) 所示，论文还可以经过义务向量类比成功义务类比，从而成功新义务的零样本学习。雷同，PEMs [210] 经过将义务算术 [65] 裁减到参数高效的微调设置中，结合了具备不同才干的适配器。但是，基本兼并方法的性能在大少数状况下并不令人满意，尤其是当义务相互搅扰时。

图 4 ：义务算术的图示 [65]。（a）“义务向量”的定义，即微调模型与预训练模型之间的差异。（b）经过减去义务向量成功常识遗忘。（c）经过兼并多个义务向量启动多义务学习。（d）经常使用类比义务向量成功义务类比。

2.2.3.2 基于权重的兼并方法

妇孺皆知，不同的模型（或义务向量）代表不同的性能，直观上，不同的性能具备不同水平的关键性。因此，先进的基于权重的模型兼并方法设计了各种奇妙的规则来确定兼并系数，如图 5(a) 所示。但是，当模型数量庞大时，经常使用暴力网格搜查来寻觅最优兼并系数是不实际践的，由于触及低廉的搜查老本。

为了更有效地确定兼并系数，Evolutionary-model-merge [6] 和 Checkpoint Merging [100] 区分经常使用退化算法和贝叶斯优化来高效搜查兼并系数。AdaMerging [194] 应用梯度降低优化经过最小化未标志测试数据中的熵作为代理损失来学习兼并系数。MetaGPT [215] 将模型兼并疑问视为多义务学习（MTL）方式，其目的是最小化兼并模型的平均损失。

上述复杂的加权方法在模型（或义务）层面上操作。妇孺皆知，深度神经网络模型中的每一层甚至每个神经元都表演着清楚不同的角色，一些钻研曾经开发了更细粒度的加权兼并战略。例如，Layer-wise AdaMerging [194] 和 aTLAS [206] 自顺应地为每一层或模型兼并中，区分针对模型的线性层和非线性层启动处置。RegMean [78] 标明，关于模型兼并中的线性层，存在依赖于训练集提供的数据统计的闭式解，而非线性层则可以便捷地口头权重平均。其他上班应用 Fisher 消息矩阵 [40] 在兼并时评价参数的关键性。Fisher-Merging [113] 基于 t 的关键性启动模型兼并。Fisher-nodes-merging [164] 提出了基于 Fisher 消息矩阵的模型兼并方法。MaTS [155] 开发了 Fisher 兼并的块对角近似方法。Daheim 等人 [29] 将加权平均的不准确性与梯度不婚配咨询起来，并进一步提出了一种基于不确定性的算法来缩小婚配误差，最终基于二阶 Hessian 预计启动模型兼并。

图 5：(a) 基于权重的模型兼并方法示用意。(b) 基于子空间的兼并方法示用意，其中空白表示零值。(c) 基于路由的兼并方法示用意，该方法依据输入灵活口头模型兼并。

2.2.3.3 基于子空间的兼并方法

另一类先进的方法将模型转换为稠密子空间启动兼并，从而缓解义务间的搅扰。神经网络的过参数化特性和模型剪枝的成功 [22, 54] 标明，从模型中移除大部分参数简直不影响其准确性 [190]。这一洞察为模型兼并开拓了新的时机，使论文能够从单个模型中移除不关键的神经元，并在参数子空间内兼并多个稠密模型，如图 5 (b) 所示。

TIES-Merging [190] 提出基于参数大小对每个独自模型启动修剪，仅保管大小前20%的参数。进一步倡导消弭参数符号抵触以缩小搅扰，并最终经常使用义务算术兼并稠密模型。相似地，Drop And REscale (DARE) [200] 也经过参数大小启动稠密化，并强调了对稠密模型进一步启动重缩放的关键性。除了移除权重最小的尾部参数外，Model Breadcrumbs [30] 强调了移除具备最大权重的参数（离群值）以进一步缩小模型兼并中的噪声并增强对超参数的泛化才干的关键性。TALL-masks [176] 依据与独立模型相关的预约义阈值为每个义务创立特定的掩码矩阵。与经过模型兼并取得繁多模型的规范做法不同，EMR-Merging [62] 提出在多个义务之间保养一个共享模型以及一个稠密的义务特定模型。在这种方法中，共享模型在每个索引处的值是一切模型中参数值最大的。与上述启示式方法的掩码构建规则相反，Concrete [156] 将掩码构建和模型兼并框架化为一个可学习的双层优化疑问。外层优化掩码矩阵，而内层基于掩码矩阵兼并模型并经常使用未标志的测试样本对其启动优化。

2.2.3.4 基于路由的兼并方法

鉴于输入样本/义务之间存在差异，模型在处置不雷同本/义务时的才干或者会有所不同。如图5（c）所示，一些上班提出在推理阶段依据样本/义务灵活兼并模型（或层的子集）。

关于给定的输入，SMEAR [116]首先经常使用路由器输入到专家模块的散布来计算每个专家参数的加权平均。这种方法的优势是其计算老本与单个专家相似。Twin-Merging [108]也在推理阶段基于路由自顺应地结合义务共享和义务私有常识。相似地，WeightEnsembling MoE [159]提出了一种灵活兼并的Transformer架构。详细来说，他们观察到微调模型中线性层的参数变动比非线性层愈加猛烈，这也清楚影响了兼并性能。因此，他们经常使用规范加权平均来兼并除线性层外的一切模块。线性层在推理环节中依据路由网络（以样本特色作为路由输入，以兼并系数作为输入）灵活加权和兼并。PWE MoE [158]进一步将Weight-Ensembling MoE裁减到多目的优化设置，并经常使用偏好向量作为路由输入。

2.2.3.5 基于后校准的方法

近期，Yang等人[193]提出了一种后兼并方法来校准兼并后的模型。他们观察到，经过多种干流模型兼并方法失掉的兼并模型存在表示偏向，即独立模型与兼并模型提取的表示存在清楚差异，造成兼并模型的性能降低。为缓解这一疑问，他们提出了一种名为“表示手术”的模块，用以校准表示偏向。其外围理想是经过“表示手术”使兼并模型后的表示与独立模型的表示对齐。

2.2.4 模型兼并的通常与剖析

除了前面设计各种初级方法外，模型兼并的通常和有效性剖析雷同至关关键。目前，关于模型兼并的通常剖析上班有限。依据待兼并模型的起源，现有的通常剖析大抵可分为三类：（i）同一训练轨迹中不同审核点的模型兼并，（ii）在同一数据集上微调的不同模型的兼并，以及（iii）在不同数据集或义务上微调的不同模型的兼并。

首先，一些剖析针对单轨迹训练中的模型兼并，通常指的是随机加权平均（SWA）或指数移动平均（EMA）。例如，Jain等人[69]从通常上证实了在最小二乘回归的背景下，EMA的过拟合危险是偏向项和方差项的上界。偏向项依赖于参数的初始化形态，一旦模型开局平均，随着迭代次数的参与，偏向项呈指数级降低。方差项取决于数据中固有的噪声协方差，当经常使用模型平均时，方差项的衰减速度更快[8]。相似地，Rame等人[132]将偏向-方差分解运行于畛域泛化设置，以解释为什么模型平均能提高散布外性能。此外，Hardt等人[52]在凸假定下为SWA提供了稳固性边界，而Wang等人[177]进一步在凸和非凸状况下建设了泛化边界剖析。

其次，一些钻研从损失景观的连通性敌对整性角度解释了针对同一数据集启动不同超参数微调的多个模型的兼并现象。详细而言，部分上班运行了神经网络的线性形式连通性（LMC）通常 [37, 47, 162] 来解释模型兼并。LMC提醒了神经网络损失最小值在权重空间中并非孤立点。近期钻研 [38, 43, 117, 217] 标明，从相反预训练模型登程并驳回不同性能微调的两个独立模型通常满足LMC条件。换言之，LMC是一种普遍现象，通常出如今基于“预训练-微调”范式的微调模型中，这是机器学习社区的规范做法。因此，依据LMC启动权重对齐为模型兼并提供了强有力的有效性保证 [5, 80]。另一方面，其他钻研从更平整的损失景观角度解释模型兼并 [88]，以为在相反数据下对多个驳回不同优化性能微调的权重启动兼并通常会收敛到一个平整的部分区域。

最后，Ortiz-Jimenez等人 [123] 基于在不同数据集上微调的多个模型启动剖析，指出权重解耦是成功有效模型兼并的必要前提。更详细地，Ortiz-Jimenez等人 [123] 对神经正切核（NTK）启动了通常和实证剖析，并建设了义务算术 [65] 与NTK谱特性之间的有力咨询。

2.3 基础模型中模型兼并的运行

基础模型的出现，包括大型言语模型（LLMs）、多模态大型言语模型（MLLMs）和图像生成模型，是近年来人工智能畛域技术提高的关键标志。但是，虽然这些大型模型取得了停顿，它们仍面临诸多应战，例如LLMs发生有害内容、MLLMs在融合不同模态消息方面的艰巨以及图像生成模型难以生成混合格调图像的疑问。近期钻研标明，模型兼并技术为处置这些基础模型固有的应战提供了有前景的处置打算。表 2首先简明概述了模型兼并在基础模型中的运行。

表 2 ：基础模型中模型融合技术的运行总结。

2.3.1 大型言语模型中的模型融合

近年来，大型言语模型（LLMs），如GPT-4 [2]、Gemini [163]、PaLM [23]和LLaMA [166]，取得了清楚停顿，并宽泛运行于各种义务中。虽然在大少数基转义务上体现超群，LLMs仍面临诸多应战，包括生成违犯法律或伦理的有毒内容、训练环节中经常使用未经授权的数据、高昂的训练老本以及在特定畛域体现无余。模型融合技术为处置这些应战提供了有前景的时机。

2.3.1.1 LLMs的人类偏好对齐

人类关于美学、政治或偏心性往往持有不同观念。当LLMs服务于人类时，不同的人对模型有不同的希冀，例如，有些人希冀LLMs生成有害的回应，而另一些人则寻求幽默且欢快的互动[134]。因此，实践LLMs的开发通常分为三个阶段，以生成更有协助、更准确且更安保的回应[107]：在大规模无监视数据上启动预训练，在具备高品质标注的小数据集上启动监视微调（SFT），以及与人类互动以进一步优化LLM对齐（例如，间接偏好优化（DPO）[131]或从人类反应中启动强化学习（RLHF）[218]）与人类偏好、处罚或价值观。

一些钻研提出经过模型兼并来成功更好、更安保或更快的用户偏好对齐。例如，ExPO [213] 经过在一个小规模的人类偏好数据上经常使用DPO或RLiHF对齐的中等模型构建义务向量，并将其参与到一个未对齐的SFT模型中。经过设置适合的兼并系数，可以间接取得一个更弱小的对齐模型。在AlpacaEval 2.0基准测试 [97] 中，将一个在10%/20%偏好数据上对齐的模型与SFT模型融合，其性能可与在完整偏好数据上对齐的模型相媲美。

DogeRM [98] 提出将处罚模型与在不同下游畛域微调的LLMs兼并，以间接创立畛域专属的处罚模型。此外，Lu等人 [107] 提出了一种在线兼并优化器，该优化器在RLHF的每一步中插值SFT模型的梯度。这种方法激励RLHF向处罚最大化方向优化，同时防止LLMs因RLHF而遗忘通用常识。除了偏好对齐，还有多项钻研讨论了模型兼并对LLMs安保对齐的影响 [11, 51, 199]。例如，Hammoud等人 [51] 发现兼并两个安保对齐的模型或者会侵害安保性。因此，他们倡导在构建用于模型兼并的分解数据时，明白将安保对齐作为优化目的。

在通常中，用户往往领有多种偏好的组合，而非繁多偏好。由于偏好组合的有限性和高昂的训练老本，为每一种偏好组合独自训练模型是不理想的。因此，一些钻研倡导将具备不同处罚对齐的模型结合起来，创立一系列综合对齐的大型言语模型（LLMs）。例如，Rame等人[134]和Jang等人[72]区分提出了处罚汤（Reward Soups）和团体化汤（Personalized Soups），作为针对多样处罚的高效且灵敏的处置打算。详细而言，处罚汤首先为每种处罚训练一个专家模型，而后经过线性插值这些专家模型的权重，以近似多种处罚组合下的帕累托最优解集。这种方法老本效益高，由于它仅需为每种处罚训练独自的模型，即可组合任何种类的处罚。

2.3.1.2 LLMs的去毒化

LLMs在各种运行中因不实在性和毒性疑问而备受关注[60]，例如在回答某些疑问时出现羞辱、要挟和亵渎等。为了处置LLMs运行中的潜在安保危险，须要灵敏的技术来缩小有毒文本的生成，实质上是对LLMs启动去毒化。一个间接的处置打算是搜集额外的非毒性数据来微调言语模型[83]；但是，这种方法须要少量的计算资源，并可无能扰LLMs的普通才干。另一种方法是在解码阶段间接降低潜在有毒词汇的概率，这须要额外的指点消息[87]。近期钻研标明，经过模型融合缩小LLMs的有毒数据生成是一种便捷有效的打算[60, 65, 210]。

义务算术[65]经过对在有毒数据（Civil Comments [13]）上微调的GPT-2模型[130]的义务向量取反，标明这一操作有效降低了被分类为“有毒”数据的占比，同时在控制义务（WikiText-103）上言语流利性变动不大。此外，一些参数高效的模型经过操纵大批参数来疏导大型言语模型（LLMs）的非预期行为。PEM [210]经过取反在毒化数据上训练的LoRA [59]（以及(IA)3 [102]）模块，以坚持言语才干的同时降低言语模型输入的毒性。Ethos [46]和Ext-Sub [60]指出，虽然有毒数据上的义务向量无理想上是失误的，但它也蕴含了关于言语建模和逻辑叙事技艺的正确消息。因此，Ext-Sub将有毒义务向量分解为两个正交子空间，区分代表通用才干和破坏才干。而后经过仅移除代表破坏才干的重量来消弭LLM中的有毒常识。

2.3.1.3 大型言语模型的常识遗忘

大型言语模型或者有意中学习到受版权包全的资料，引发严重的法律和伦理疑问[1]，以及关于担任任AI经常使用的更宽泛疑问[36]。在此背景下，《加州生产者隐衷法案》[124]和欧盟的《通用数据包全条例》[57]规则了数据遗忘的权益。基础模型的常识必需顺应这些规则。但是，从头开局从新训练扫除受版权包全数据的老本是高昂的。例如，从头开局训练Llama-2-70B须要1,720,320 GPU小时[167]。传统方法通经常常使用梯度回升（GA）经过在特定要遗忘的数据上经常使用GA算法微调模型来成功遗忘[165, 196]。可怜的是，这种方法通常会劫难性地破坏模型其他部分的常识。也就是说，遗忘特定常识也会抹去其他应保管的常识。最近，许多基于模型兼并技术的钻研显示了在不侵害其他常识的状况下遗忘LLM特定常识的后劲[36, 60, 65]。

与基于遗传算法的方法不同，模型兼并方法无需额外数据来保养旧常识。为了成功遗忘，模型兼并通常将一个负向微调的模型融入目的模型中（即，从目的模型中减去特定义务的微调常识）。例如，义务算术[65]标明，否认义务向量会降低特定义务的性能，而对控制义务的影响不大。试验证实，模型兼并可以在不影响控制义务性能的状况下，使微调模型遗忘目的义务的常识。相似地，稳固序列遗忘（SSU）[36]将这种遗忘裁减到大型言语模型（LLMs）的序列遗忘设置中，其中必需在不同时期步遗忘不同的版权内容。常识遗忘还可以遗忘预训练时期代表不良行为的样本。例如，FuseToForget[205]驳回模型兼并作为去偏工具，以缩小言语模型中的隐衷疑问。FLearning[122]首先减去与要遗忘数据相关的参数，而后经常使用新数据对参数启动微调，以成功准确的常识降级。SKU[106]探求了在LLM中遗忘有害数据的方法，这是一个两阶段打算。首先，经常使用有害数据（如有害问答对）对LLM中与有害常识位置对应的参数启动微调（即义务向量），而后将义务向量从LLM中否认，以有效缓解LLM中的不良行为。总的来说，将相反（反专家）义务向量融入预训练模型中，可以有效成功机器遗忘的义务。

2.3.1.4 大言语模型的极速训练

训练大型言语模型须要在少量数据上启动屡次迭代，这使得训练环节极为低廉。例如，训练LLAMA2-70B模型经常使用2T令牌须要1,720,320 GPU小时[100]。减速LLM训练的方法包括混合精度训练、继续重训练和管道并行。另一种正交方法是训练轨迹中的审核点兼并，它提供了一种便捷有效的方法，既可以减速LLM训练，也可以在相反老本下提高训练性能。

第一类上班在LLM训练环节中，在繁多训练轨迹中参与审核点以减速模型训练。例如，LAWA [81] 展现了在模型训练的两边阶段兼并审核点可以放慢训练环节。例如，在ImageNet数据集上训练ResNet50模型缩小了68 GPU小时的训练时期，而在WikiText-103数据集上训练RoBERTa-Base模型节俭了30 GPU小时。Sanyal等人 [143] 进一步标明，预训练轨迹中的审核点平均和高学习率的结合有助于更快收敛。审核点兼并 [100] 片面评价了在Baichuan2 [191] LLM模型预训练环节的不同阶段模型兼并的有效性。第二类上班触及结合现有模型以创立更弱小的初始模型，从而减速学习速度并提上下游义务的准确性。例如，Fusing [21] 和ColD Fusion [35] 将多个现有的微调模型混协作为基础模型，并用于下游义务的微调，结果显示这种兼并模型优于单纯的预训练模型。

2.3.1.5 结合专家LLM的才干

LLM在普通义务中体现出弱小的泛化才干，但往往缺乏特定垂直畛域的常识。预训练的LLM通常须要在不同公司外部启动微调，以成为各个畛域的专家LLM。整合多位专家的专业常识关于处置更复杂的义务尤为关键。关于模型兼并技术的钻研标明，可以经过结合不同专家LLM的参数来创立复合LLM [6, 31, 171, 172, 201, 202, 215]。例如，Dekoninck等人 [31] 展现了经过兼并具备不同格调的多个LLM并运行共性化加权，可以灵敏控制文本生成的才干。Robust Weight Signatures [14] 提出了一种经过模型兼并增强模型对各种人造损坏的洁净数据版本的总体鲁棒性的“补丁”框架。总之，模型兼并提供了一种间接且有效的战略来增强LLM的才干。

2.3.2 多模态大型言语模型中的模型兼并

基础模型通常触及处置和交互来自不同模态的数据，如视频、图像、语音和文本。为了构建一个通用的大型模型，一个关键的阻碍是义务和模态的多样性和异质性。传统上，大少数现有方法为每种模态训练一个特定模态的模型。但是，这些方法存在局限性：一方面，它们须要为每种模态独自的模型；另一方面，联结训练一个大型多模态模型须要低廉的配对训练数据（图像、文本、视频、语音）搜集，并且在参与新模态时须要从新训练整个模型。

一个幽默的疑问是，论文能否可以兼并多个特定模态的模型，以取得一个繁多、有效且参数高效的无模态模型。论文的目的是经过兼并的一致模型编码来自不同模态的输入，学习跨模态交互，并坚持与经过良好训练的独立特定模态模型相当的性能。与传统的多模态学习相比，模型兼并技术提供了新的时机。这种模型兼并方法具备以下几个优势：（1）它消弭了搜集标志配对多模态训练示例的低廉且休息密集的环节，这是联结训练多模态模型所必需的；（2）它增强了多模态模型的顺应性，准许无缝集成新模态；（3）它充沛应用了多模态之间的常识协作，从而受益于跨模态常识转移。

2.3.2.1 多模态融合的模型兼并

最近，许多钻研集中在将不同模态的模型兼并为一个繁多模型，从而增强模态间常识的多样性。例如，JAM [4] 提出将两个专门（一个用于文本到图像，一个仅用于文本）的自回归、仅解码器的大型Transformer模型兼并，以无缝生成多模态输入。相似地，DAMC [16] 引入了一种方法，用于跨图像、音频、视频和点云模态融合多模态LLMIs，经过参数解耦和调整模态融合系数进一步缩小跨模态搅扰。

为了评价各种要素对模型兼并的影响，VL-Merging [154] 对多模态模型兼并启动了片面的实证剖析。整个框架包括三个步骤：独立模态微调、多模态兼并和下游义务微调。经过触及不同初始化、兼并方法和架构的多模态模型兼并试验，作者提出了以下指点准绳：（1）跨多个模态的模型应基于相反的预训练终点，以确保它们处于相反的吸引域 [5] 并共享更多消息。（2）便捷的模型平均能取得更好的性能，假设领有更多的计算和存储资源，可以启动更细粒度的兼并。（3）兼并整个模型而非仅部分层通常会失掉更令人满意的结果，由于仅微调部分层或者会限度单模态模型的才干。与上述基于特定架构开发的模型兼并方法不同，UnIVAL [147] 初次设计了一个一致架构，涵盖图像、视频、音频和言语四种模态。它将一切模态的义务转换为“序列到序列”格局，并将一切模态的训练目的转换为“下一个词预测”格局。这使得可以在一切模态上运行一致的特色提取器和分类器。此外，UnIVAL 为模型兼并提供了无利的架构条件，并证实在权重空间中线性插值经过多模态微调的模型，可以失掉一个在已见和未见义务上都体现良好的通用繁多模型。

2.3.2.2 跨模态常识转移的模型兼并

一些上班尝试经过模型兼并方法将常识从一个模态转移到另一个模态。例如，MAM [153] 钻研了Transformer [169] 的留意力层能否能跨不同模态泛化。详细来说，它调查了在高资源模态（如数据丰盛的图像和文本）上训练的Transformer模型所取得的常识能否可以转移到在低资源模态（如数据稠密的语音和音频）上训练的Transformer模型。本文展现了跨各种义务、模态和初始化的模型留意力兼并。最终结果显示，与规范微调范式相比，MAM在音频分类义务（经常使用ESC-50数据集 [126]）上成功了18.42%的分类失误率降低。

2.3.3 图像生成模型中的模型融合

图像生成模型，如生成反抗网络（GANs）、变分自编码器（VAEs）、正则化流（Flows）和去噪分散概率模型（Diffusions），旨在近似给定数据集面前的底层数据散布，以便生成更多具备相反散布的新样本。但是，图像生成模型仍面临以下应战：无法灵敏生成具备多种格调组合的样本、生成模型训练老本高昂，以及无法生成指令中指定的一切细节。这一困境促使人们关注专家模型，这些模型在不同的数据片段或散布上训练具备特定才干的一组专家，准许在推理时灵敏参与或移除某些格调的专家。思考到集成学习的部署难度和资源老本，模型融合提供了一种新的视角，无需额外内存和推理老本即可结合不同格调的技艺特定专家。

2.3.3.1 生成模型中的格调混合

现有的生成模型通常仅依据训练数据生成散布。但是，在实践部署中，不同用户或艺术家往往宿愿生成具备不同格调组合的艺术品。为这些混合散布搜集额外数据老本高昂，且微调模型或者造成遗忘其他才干。模型融合提供了灵敏组合多种格调的或者性。

Earl GAN Cocktail [10] 尝试兼并多个预训练的 GAN 模型。近期，基于分散的图像生成模型 [56, 139, 140] 因其出色的生成才干而比基于 GAN 的模型遭到更多关注。因此，大少数钻研集中在融合不同的分散模型上。详细而言，Diffusion Soup [12] 展现了能够线性兼并针对不同格调数据片段（例如，不同畛域/类别或不同用户提供的数据）微调的分散模型，成功混合格调的零样本生成。此外，Diffusion Soup 实证验证了模型融合具备抗记忆效应，即生成的图像不太或者复制训练数据，这无利于生成多样化的图像。与间接兼并模型参数的 Diffusion Soup 不同，MaxFusion [118] 遭到 Ziplt [151] 的启示，提出基于相反输入噪声兼并多个分散模型的两边特色，以生成满足多个条件的图像。但是，基于全参数微调兼并多个分散模型在义务数量庞大时老本高昂。为处置这一疑问，ZipLoRA [145] 和 MoLE [186] 旨在无缝兼并参数高效的 LoRA 模块。例如，ZipLoRA 提出兼并独立训练的内容/主题（例如，特定对象或人物）LoRA 与艺术格调（例如，绘画或绘图等）LoRA，使分散模型能够生成任何用户提供的主题微格调组合 [141]。这种方法经常使用户和艺术家能够轻松组合他们选用的地下可用主题微格调 LoRA。

2.3.3.2 降低生成模型的训练老本

无理想场景中，大规模训练数据通常来自不同畛域或由不同用户提供。鉴于须要参与新数据或移除过期数据，每次降级数据后从新训练繁多模型往往不实际践 [12]。例如，经常使用 8 块 A100 GPU [101] 训练一个 CM 模型 [150] 大概须要一周时期。这是由于现有方法仅在生成模型训练中运行最终收敛权重，而疏忽了两边训练轨迹。LCSC [101] 标明，经过退化算法便捷地组合分散模型两边的训练轨迹，可以清楚降低训练老本。详细而言，仅需大批迭代或小批量大小即可训练分散模型，到达与齐全训练的分散模型相媲美的图像品质。例如，在 CIFAR-10 数据集上，LCSC 区分将分歧性蒸馏和分歧性训练 [150] 的训练环节优化了 23 倍和 7 倍。其基本要素是，优化轨迹的每个部分审核点左近存在许多高品质盆地（即生成品质更好的区域），这些区域由于梯度预计的渺小方差而无法经过随机梯度降低抵达。但是，审核点插值提供了一种抵达这些盆地的时机。

2.3.3.3 提高生成模型的虔诚度

一些关于文本到图像（T2I）的钻研标明，虽然现有的 T2I 生成模型能够依据文本提醒生成高品质图像，但这些图像往往未能充沛捕捉和反映文本中的语义细节，例如生成多个主体或正确描述物体间的空间相关 [89]。为提高 T2I 生成模型的虔诚度，SELMA [89] 设计了一种陈腐的四阶段范式。在前两个阶段，经过现有大型言语模型的多样化提醒搜集一系列输入文本（对应不同技艺），并经常使用 T2I 模型生成相应的图像数据。第三阶段触及在不同技艺的图像上区分微调技艺特定的专家（即 LoRA）。在第四阶段，将具备不同技艺的专家模型兼并，以在推理时期取得最终模型。与多技艺联结学习的范式相比，这种在独立学习后兼并专家技艺的方法或者有助于缓解常识/技艺抵触，同时效率更高。

2.4 模型融合在不同机器学习子畛域的运行

模型融合是一种便捷且有效的技术，宽泛运行于机器学习的各个子畛域，如继续学习、多义务学习、畛域泛化、联邦学习、小样本学习和反抗进攻等。这里论文将片面讨论模型融合在不同机器学习子畛域的运行。表 3}提供了简明总结。

表 3：模型融合技术在不同机器学习子畛域运行的总结。

2.4.1 模型融合在继续学习中的运行

继续学习 (CL) 触及经常使用流式、非颠簸数据流训练模型。CL 中的关键应战是“劫难性遗忘” 疑问；即，CL 模型在训练新义务后对旧义务的预测准确性急剧降低。干流 CL 方法关键分为基于记忆回放的方法、基于架构裁减的方法、基于正则化的方法和基于子空间投影的方法 [178]。近年来，越来越多的人对经常使用模型融合来处置劫难性遗忘疑问感兴味。这种陈腐的方法提供了几个好处，例如防止与基于网络裁减的方法相关的额外参数和推理老本，并消弭基于记忆的方法所需缓存旧数据的须要。

2.4.1.1 模型融合缓解劫难性遗忘

受 Tangent Task Arithmetic [123] 的启示，Tangent Model Composition [104] 提出在预训练模型的切线空间中独立微调每个义务，而后线性微调这些模型以口头 CL。这种方法不依赖于 CL 的详细设置，可以轻松运行于义务、类别和畛域增量学习场景。此外，ITA [127 ] 强调微调模型必需在预训练模型的同一盆地中，以确保非线性模型的可组合性。它在传统的 CL 中引入了一个相似于 EWC [85] 的正则化项，以解放独立模型训练时微调权重和预训练权重之间的距离。WARP [135] 倡导经过在偏好数据集上经常使用 RLHF 对齐预训练 LLM 的权重与其对齐权重启动线性插值，从而缓解预训练 LLM 的常识遗忘。BAM经过兼并模型始终顺应 LLM 到新言语，同时保管通用才干。MagMax [112 ] 兼并修剪的义务向量，进一步缓解参数符号抵触和旧常识遗忘。Equifinality、PAINT [64] 和 LM-Cocktail [187] 插值微调模型和零样本模型的权重，以提上下游义务的准确性，而不会降低支持/通用义务的准确性。

与兼并完整模型不同，一些钻研专一于兼并参数高效的模块。Chi-tale等人[20]提出了一种基于义务算术[65]的继续学习（CL）方法。该方法首先为每个义务微调一个特定义务的低秩顺应（LoRA），而后依据微调模型与预训练模型之间的差异构建义务向量。多个义务向量随后被兼并，并经常使用大批数据（每类10个样本）对兼并后的模型启动微调。与传统的CL方法，特意是基于回放的方法相比，这种方法消弭了每次迭代时回放旧义务数据的须要，从而减速了模型训练。此外，经常使用类别平衡子集对兼并后的模型启动微调有助于减轻CL模型的偏向。相似地，DynaMMo[128]在医疗图像的CL设置中运行了轻量级模型兼并（即适配器）。与基于架构裁减的CL方法不同，这种方法不会随着义务数量的参与而造成参数数量线性参与。与DynaMMo的静态聚合参数高效微调（PEFT）模块不同，DAM[19]在推理环节中引入了灵活聚合PEFT模块以口头CL。AMM[17]提出兼并卷积层以促成增量新类发现并防止遗忘基本常识。Disperse-Then-Merge[44]倡导在大型言语模型（LLMs）的有监视微调环节中兼并针对不同数据分区训练的子模型，以缩小数据偏向并缓解对通用预训练常识的遗忘。

2.4.2 多义务/多目的/多畛域/辅佐学习中的模型兼并

在机器学习中，为了优化资源效率，论文通经常常使用繁多模型来处置具备不同散布的多个义务、目的或数据畛域。传统的多义务学习（MTL）、多目的学习（MOO）或多畛域学习（MD）范式要求搜集来自一切义务、目的或畛域的数据来协同训练模型，这造成了高昂的数据治理和模型训练老本。当引入新的义务、目的或畛域时，这种方法尤其低廉，由于从头开局经常使用一切可用数据从新训练一个片面的模型是资源密集型的。许多最近的钻研提出了经过间接兼并模型来跨义务、目的或畛域整合常识的高效方法。

2.4.2.1 多义务学习中的常识迁徙

多义务学习（MTL）的目的是使单个模型能够同时口头多个义务，从而促成这些义务之间的常识迁徙[18, 110, 144, 152, 192, 203]。如图 1 ( c ) 所示，为了防止联结训练的高老本，一种间接的方法是将多个在不同义务上独立训练的模型兼并，以成功MTL。

这里论文以一些代表性义务为例。关于计算机视觉中的MTL义务，Task Arithmetic [65]、Ties-Merging [190]、AdaMerging [194] 以及其他钻研[156, 193, 197]提出结合在不同视觉分类义务上训练的ViT模型，所取得的模型能够成功多个义务的对象分类。Task Arithmetic [65]的结果标明，兼并恣意两个数据集上独立训练的模型所失掉的兼并模型，其性能可与单义务模型相媲美。相似地，兼并了在不同义务上训练的ResNet架构的Ziplt [151]也取得了相当的成绩。关于人造言语处置中的MTL义务，DARE [201] 引入了一种同源模型异化的方法，将LLMs增强为“收费午餐”。例如，兼并WizardLM和WizardMath清楚优化了WizardLM在GSM8K（评价LLMs数学推理才干的基准）上的性能，从2.2优化至66.3。Akiba等人[6]倡导间接兼并具备数学才干的LLM和具备日语才干的LLM，结果是一个能够处置日语数学识题的模型。此外，许多钻研标明，结合在不同义务上训练的PEFT模块（如Adapter或LoRA）也可以成功MTL [160, 209]。

2.4.2.2 多目的优化中的常识转移

多目的优化（MOO）旨在同时优化多个目的函数。这些目的函数或者相互抵触，因此MOO疑问通常不存在繁多的最优解。相反，它触及在多个目的之间寻觅掂量，这对应于识别一组帕累托最优解。Tang等人 [158] 提出经常使用混合专家（MoE）模型兼并方法来近似整个帕累托集。详细而言，他们的方法为每个目的训练一个独立模型，并学习一个路由网络来平衡多个目的（模型）之间的掂量。路由网络的输入是义务偏好向量，其输入由独立模型的兼并系数组成。思考到间接基于原始评价目的评价帕累托解是耗时的，MAP [91] 提出了一种二阶泰勒开展模型作为实在评价目的的代替模型，并进一步经常使用退化算法基于该代替模型计算帕累托前沿。

2.4.2.3 多畛域学习中的常识转移

与专一于具备不同对象类别的数据集的现有基于模型兼并的多义务学习（MTL）方法不同，Ye等人 [197] 探求了跨多个畛域的模型兼并，其中数据集共享相反的类别但在环境上下文上有所不同。为了缓解多畛域模型之间的抵触，引入了一个权重相似度准绳来评价不同模型层之间的相关性。关于具备高度相关性的层，驳回便捷的权重平均或RegMean [78]战略来兼并已在同一义务的不同畛域中微调的模型。关于具备低相关性的层，在推理阶段经常使用门控机制灵敏地组合权重。Branch-Train-Merge [92] 展现了在64个不同畛域上训练专家言语模型并随后兼并它们的有效性。

2.4.2.4 辅佐义务学习中的常识转移

辅佐义务学习（ATL）的目的是经过应用从相关辅佐义务中取得的常识来提高目的义务的性能。与旨在优化一切义务平均性能的多义务学习（MTL）不同，ATL 专一于仅提高关键义务的性能。但是，ATL 经常遇到梯度抵触疑问，造成负迁徙，即辅佐义务的引入搅扰了关键义务的性能。为了缓解负迁徙，Jiang 等人 [76] 提出了 ForkMerge 方法，该方法活期口头“分叉”和“兼并”操作。模型首先活期复制成多个分支：第一个分支仅针对关键义务启动训练，而其他分支则联结训练关键义务和辅佐义务。而后经常使用验证集确定最优兼并系数，以兼并由各个分支降级的模型。实证结果显示，ForkMerge 在多个辅佐义务学习基准上成功了正迁徙增益。

2.4.3 散布外/域泛化中的模型兼并

散布外泛化（OODG）和域泛化（DG）的独特目的是提高模型在未见数据上的性能。它们的关键区别在于，OODG 专一于提高模型对与训练数据散布清楚不同的未知数据的泛化才干，而 DG 则强调提高模型在未见域上的泛化才干。近期泛滥钻研标明，模型兼并在 OODG 和 DG 中都有助于提高训练稳固性和全体性能。

2.4.3.1 更好的散布外泛化中的模型兼并

无理想场景中，训练好的模型或者部署在散布始终变动的环境中。例如，智能驾驶模型在洁净的数据集上启动训练，但实践上，它们容易遭到人造损坏（如相机噪声、静止含糊）和更清楚的散布偏移（如夏季到夏季）[14, 55] 等无法预感散布的影响。OODG 的目的是增强模型对与训练散布清楚不同的未知数据的泛化才干。

随机权重平均（Stochastic Weight Averaging, SWA）[67] 是一种便捷且宽泛经常使用的技巧，用于提高机器学习模型训练的稳固性和散布外（OOD）性能。从统计学的角度来看，权重平均有助于缩小模型训练环节中的方差。许多钻研在训练模型时兼并训练轨迹中的两边权重形态（即审核点）[50, 67, 161, 170, 195, 208]。例如，WiSE微调[184] 标明，在线性组合预训练模型和微调模型的权重时，可以在散布偏移的状况下清楚提高准确性，同时坚持原始散布上的高准确性。SWA [50, 67] 便捷地平均从特定时期的开局到训练完结的一切审核点。这种方法被解释为有助于模型收敛到平整而非尖利的部分最优，从而改善泛化才干 [67, 82]。自顺应SWA [32] 强调，过早口头SWA或者造成欠拟合，而过晚口头或者造成过拟合。它提出仅在验证集上的泛化才干提高时启动平均，有效地将SWA与早期中止机制结合。但是，便捷的平均权重往往不是最优的。特意是，TWA [94] 经过标明权重的平均系数可以在训练方式中确定来处置这一疑问。因此，TWA与便捷的SWA不同，可以从训练的初始时期开局口头平均，无需定义用于确定权重平均开局时期的额外超参数。

与以往沿着一条训练轨迹平均权重的钻研不同，诸如Model Soups [183, 219]、AdapterSoup [24]、Model-Ratatouille [133]、WARM [136]、WARP [135]、PAPA [79]、WASH [42]、DART [70]和DiWA [132]等方法提出兼并多个独立微调或训练的模型。这些模型通常更具多样性，从而优化了OOD（Out-of-Distribution）性能。独立训练的模型在超参数（例如，学习率、权重衰减、Dropout）、批次顺序、数据增强技术（如随机裁剪、水平翻转）以及训练步数等方面存在差异。详细而言，Model-Ratatouille [133]从相反的初始模型登程，在辅佐义务上微调多个模型，而后继续在目的义务上微调这些模型，最终兼并这些多样化的模型以提高OOD性能。WARM [136]经过从预训练模型的轨迹中采样不同的审核点作为下游偏好微调义务的初始权重，进一步参与了微调模型的多样性。为了缩小训练多个模型的额外老本，Model Stock [71]提出可以应用权重空间的几何特性和预训练模型的锚定效应，仅经常使用少数微调模型来近似兼并权重。MEHL-Soup [95]开发了一种可裁减且高效的方法来学习模型兼并系数，它仅在每次迭代中加载模型的子集，清楚降低了学习兼并系数的豪华模型汤的计算和内存需求。

上述剖析提醒了SWA由于依赖繁多轨迹而缺乏多样性。相比之下，Model Soups和DiWA独立训练，或者造成多个差异清楚的模型，从而造成权重平均失败。为了平衡这两种方法，Lookaround [208] 引入了一种基于权重平均的梯度降低优化器。该优化器在优化环节中迭代口头“around”和“average”步骤。在“around”步骤中，从同一终点训练多个独立模型，每个模型经常使用不同的数据增强方法。在“average”步骤中，对多样化的模型启动平均，并将结果用作下一次性迭代的终点。

2.4.3.2 模型兼并以优化畛域泛化才干

畛域泛化方法旨在仅经常使用源域的训练数据来泛化到未知的目的域。例如，在交通标志识别的背景下，用于识别各种市区环境中交通标志的机器学习（ML）模型的训练数据来自多个市区（即源域）。但是，在部署时，模型必需识别它从未遇到过的新市区环境（即目的域）中的交通标志。现有的畛域泛化（DG）方法可以分为域对齐、数据增强、正则化和元学习框架 [8]。与这些方法互补的是，模型兼并技术可以无缝集成，进一步提高域外性能而不需修正。详细而言，畛域泛化中的模型兼并关键出当初源域模型的训练环节中。兼并来自不同训练阶段的两边权重形态有助于提高最终模型的稳固性和泛化才干。

SWAD [15] 展现了更平整的最小值能更好地泛化到未见过的畛域。受 SWA [67] 启示，SWAD 提出了一种密集且过拟合敏感的随机权重采样战略来识别这些更平整的最小值。更详细地说，与 SWA 不同，它从预约义的 epoch 开局直到最终 epoch，每隔 K个 epoch 搜集一次性随机权重启动平均。SWAD 密集地搜集权重，即每一步/迭代搜集一次性，并且随机权重搜集的开局和完结由验证集上的性能变动选择。EoA [ 8 ] 也标明模型平均可以提高域外性能稳固性，并且与不带权重平均的模型集成相比，集成多个移动平均模型可以进一步增强性能。

2.4.4 联邦学习中的模型兼并

联邦学习（Federated Learning，FL）是一种散布式学习方法，准许多个客户端在不共享数据的状况下协作训练模型。FL 关键包括两种设置：集中式（带有中央主机）和分散式（不带中央主机）。每个客户端基于本地数据降级模型或计算梯度，并将降级消息发送给中央主机（在集中式 FL 中）或其他客户端（在分散式 FL 中）启动聚合以降级全局模型，从而确保数据隐衷包全。

2.4.4.1 联邦学习范式

模型兼并是 FL 中惯例且关键的操作。以集中式 FL 为例，它通常触及N个客户端和一个中央主机 S。每个客户端领有一组私有训练数据。详细来说，集中式 FL 范式中的训练环节包括五个步骤：（1）模型初始化：中央主机初始化全局模型参数；（2）模型散发：主机上的最新模型在第 t 轮通讯中发送给本地客户端。（3）本地模型降级：第 i 个客户端基于本地数据计算梯度来降级模型。（4）模型上行：一切本地客户端的降级模型被发送到主机启动聚合。（5）模型聚合：主机上的多个本地模型被聚合。这五个步骤重复启动，直到模型收敛或到达最大训练轮数。由于本文不是对FL的综述，论文重点成功“模型聚合”步骤。在 FL 中，模型兼并指的是在每次通讯轮次中汇总来自各个客户端的模型参数，从而构成一个降级的全局模型。

2.4.4.2 本地常识聚合的模型兼并

大少数联邦学习（FL）方法驳回便捷的坐标级平均来聚合本地模型。例如，它们依据一些启示式规则计算本地模型兼并系数。FedAvg [114]，最经典的FL方法，提出依据每个客户端的训练数据量在主机上对本地模型启动加权兼并。FedNova [175] 基于降级步数在客户端对模型降级启动归一化和缩放，有效地聚合本地模型以取得高性能的全局模型。FedAtt [74] 依据客户端和主机参数的相似性计算层级留意力系数，基于这些系数融合本地模型。FedFisher [73] 计算每个客户端参数的Fisher消息矩阵以兼并本地模型。在更具应战性的FL义务中，上述间接的坐标级兼并方法或者造成全局模型性能次优。受神经网络置换不变性特性的启示，PFNM [204]、OTFusion [148] 和 FedMA [174] 提出在兼并前对本地模型的神经元启动置换。相似地，GAMF [99] 将模型兼并疑问转化为基于图婚配的多图婚配疑问，而后兼并对齐的本地模型。

2.4.5 零样本/少样本学习中的模型兼并

在机器学习模型的实践运行中，搜集少量标注数据在特定场景（如医疗诊断、实时监控）中或者老本高昂或无法行。用户通常宿愿深度模型能够有效口头以前未遇到过的新义务，即通常所说的跨义务泛化才干 [61]。零样本 [115] 和少样本学习 [198] 可以缩小对少量数据的依赖，使模型更好地处置未见类别或大批样本，提高模型的跨义务泛化才干。在少样本学习中，经常出现的做法是经常使用有限的样原本微调模型。但是，由于数据量极少，这种微调环节往往不稳固，仅能带来有限的性能优化。最近，一些钻研探求了在零样本和少样本条件下兼并预训练模型（来自某些地下可访问的资源）以增强跨义务泛化才干。

2.4.5.1 零样本学习中的跨义务泛化模型融合

模型融合技术在零样本学习的多个运行中展现了其有效性。实践运行的例子包括跨言语迁徙[25, 63, 86, 211]、混合格调图像生成[12, 118]以及多模态处置[16]。

一些上班经过模型兼并成功跨言语迁徙，例如聊天[63]、文本摘要[25]或推理[211]。一集体现良好的特定言语大型言语模型（LLM）须要齐全训练，而环球上有700种言语，并非一切言语都有足够的标注数据支持模型微调。因此，跨言语常识迁徙尤为关键。例如，Huang等人[63]基于在英语聊天数据上微调的LLAMA2-chat和预训练的LLAMA2构建了Chat向量，并将其与在其他非英语言语上延续预训练的LLAMA2模型组合。这使得新模型能够在非英语言语中启动聊天。Chronopoulou等人[25]开发了一个零样本多言语摘要框架。它经常使用兼并模型（一个监视式摘要模型和一个高资源言语的无监视预训练模型，以及一个低资源言语的无监视预训练模型）来口头低资源言语的文本摘要义务。雷同，AdaMergeX[211]展现了模型兼并在跨言语迁徙中的有效性，触及三个义务：推理、人造言语了解和人造言语生成。在混合格调图像生成义务中，Diffusion Soup[12]和MaxFusion[118]标明，经过兼并多个分散模型可以增强零样本生成才干。在多模态义务中，DAMC[16]试验证实，只需从相反的LLM初始化，经过兼并多模态模型可以成功零样本多模态裁减。例如，经过兼并视觉LM和音频LLM，组合模型不只能够独立口头图像或音频义务，还能取得同时处置蕴含视觉和听觉消息的输入的零样天性力。

2.4.5.2 模型兼并在少样本学习中的粗义务泛化

参数高效微调（PEFT），如LoRA或Adapter，促成了不可胜数个定制PEFT模块的创立和共享，每个模块针对不同的下游义务在不同数据上启动训练。一团体造的疑问是，能否可以经过兼并预训练在不同抢先义务上的PEFT模块来提高对样本有限的未见下游义务的迁徙准确性。

近年来，关于模型兼并的钻研给出了必需的答案，标明兼并模型能够增强少样本场景下的泛化才干[9, 53, 61]。例如，LoraHub [61] 提出兼并HuggingFace上可用的LoRA模块，以成功对未见义务的自顺应性能，其中不同LoRA的兼并系数经过少样本样本以无梯度的黑盒方式搜查。正如预期，少样本LoraHub的体现优于少样本情境学习，并经过消弭将示例作为输入传递给LLMs的需求来降低推理老本。LoraRetriever [212] 进一步提出依据输入灵活检索最相关的LoRA并兼并它们。雷同，MerA [53] 提出将预训练的适配器兼并为一个适配器，用于少样本NLP场景。总体而言，经过良好训练的LoRA或适配器可以作为贵重的资源，用户可以轻松共享、访问并运行于各种下游义务。无理想环球中，抢先和下游义务或者齐全不同，源自不同的数据集、畛域，甚至是同一数据集的不同部分。Asadi等人[9]片面评价了少样本学习设置下的模型兼并。详细而言，该钻研调查了抢先和下游义务之间标签、畛域和义务漂移的三种状况。结果标明，模型兼并在不同上下文的少样本学习场景中增强了模型的泛化才干。

2.4.6 反抗学习中的模型兼并

在机器学习社区中，预训练模型的开源可用性[129, 130, 163, 166, 167]减速了技术提高。在此背景下，开发者经常下载未阅历证的审核点来微调他们的模型，甚至将训练环节外包给第三方平台[185]。因此，开源模型也容易遭到恶意攻打，如中毒攻打，其中特定的输入可以触发隐藏的恶意行为。这引发了一些幽默的疑问：模型兼并能否会造成攻打，它能否用于开发进攻机制？此外，在模型兼并的情境下，如何增强常识产权包全？

2.4.6.1 模型兼并作为攻打战略

参数高效微调（PEFT）方法[34]，如LoRA [59]，展现出性能可迁徙性。这象征着基于预训练模型针对特定义务微调的LoRA模型可以成功迁徙到另一个预训练模型[103]。通常中，开发者常从开源平台下载LoRA模型以应答特定的下游义务[61]。若不慎下载并整合了被植入后门的LoRA（可视为特洛伊木马），或者引入安保破绽。LoRA-as-an-Attack的钻研[103]标明，将受污染数据训练的被植入后门的LoRA与洁净数据训练的良性LoRA兼并，会造成后门注入。此现象在多LoRA兼并时雷同存在。

2.4.6.2 模型兼并作为进攻战略

LoRA的可迁徙性也为模型兼并作为一种进攻战略提供了时机。详细来说，假设论文知道一个模型或者容易遭到某些攻打，论文能否训练一些LoRA来增强模型的进攻才干（即降低攻打者的成功率）？例如，Liu等人[103]演示了经常使用GPT-3.5生成蕴含后门触发器的良性数据集。而后在这些良性数据上训练了一个专门的进攻LoRA，并将其兼并到被污染的预训练模型中。这种进攻性模型兼并最终造成了后门效应的削弱。此外，钻研标明，在全参数微调的背景下，模型兼并可以作为模型进攻的"收费午餐"。触及四种模型架构和四个数据集的试验标明，在不需额外致力的状况下兼并多个被污染的模型可以缓解这些污染攻打，同时对良性数据集的准确率简直不受影响。Rebuffi等人[137]和Croce等人[28]兼并了一组lp（关于不同的p）鲁棒微调模型，以轻松控制每个要挟模型反抗lp边界反抗攻打的鲁棒性水平。相似地，[45]的试验剖析标明，模型兼并为反抗越狱攻打[179]提供了一种有效的进攻机制。

在另一个实践场景中，兼并未经授权的模型或者会侵犯模型一切者的常识产权。恶意用户或者集兼并几个高品质的开源模型（例如，那些仅授权用于钻研目的的模型）来创立一个新模型，而后宣称这个新模型齐全是由他们自己从头开发和训练的，随后提供模型服务以谋取商业利益。在这种状况下，关于模型一切者来说，检测他人能否兼并了他们的模型变得尤为关键。MergeGuard [26]对两种现有进攻方法——量化水印[90]和指令性指纹[188]——在模型兼并背景下的有效性启动了初步剖析。钻研观察到，虽然水印方法在兼并后的模型中无法被检测到，但指纹方法依然可以被检测到。

本文转载自，作者：

<<提醒提醒工程的十个秘密与机器对话

一文彻底搞懂多模态>>

MLLMs等畛域的模型兼并 运行与时机 通常 方法 LLMs

​一、论断写在前面