等优化 混合模型 RouterLLM HybridLLM 推理老本的新思绪 LLM
一、背景
本文中咱们继续引见一种 LLM 推理优化相关的上班,经过路由的模式组合多个模型;其与投机采样相似,经过多个不同规模和性能的模型组合来降本增效,但是又有实质的区别。投机采样在一个 Query 内会重复调用大小模型,而路由模式在调用之前曾经确定好须要调用哪个模型,直到调用完结。
目前经常出现有两种路由的范式:
当然,咱们并不以为上方要引见的局部方法曾经充沛到达可以在实践业务场景中落地运行的水平,这里只是提供一种新的优化思绪。比如说,的很多打算还都是在有损甚至比拟大损失的前提下,兴许经过模型紧缩量化成功的收益和路由的模式相似,反而成功起来愈加便捷。此外,也有很多方面是值得继续探求的,比如:
二、引言
2.1 投机采样
投机采样外围理路如下图所示,首先以低老本的模式极速生成多个候选 Token(小模型,多头,检索,Early Exit 等模式),而后经过一次性并行验证阶段极速验证多个 Token,进而缩小大模型的 Decoding Step,成功减速的目的:
投机采样可以有效缩小 Decoding Step 数量,这也是其存在的意义,但是验证的接受率会很大水平上影响最终的减速比,接受率越高,缩小的 Decoding Step 数量就越多,因未接纳而糜费的计算就越少(实践上只需不是接受率 100%,就必定存在计算的糜费)。除此之外,当序列比拟长时,由于缩小 Decoding Step 而缩小的对全局 KV Cache 的访问愈加可观,相当于在 Memory Bound 的时刻用 Compute 换 IO。
2.2 BART Score
BART Score([2106.11520] BARTScore: Evaluating Generated Text as Text Generation) 是一种用于评价人造言语生成义务中模型输入品质的目的,它是基于 BART 模型的(BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension)。BART 模型在预训练时,会经常使用多种噪声对原始文本启动破坏,而后经过双向 Transformer 模型重建原始文本。
BART Score 的长处在于它应用了预训练的 BART 模型所捕捉到的丰盛言语消息和高低文相关,能够更好地反映生成文本的品质,特意是在思索句子间的语义相似性和分歧性方面。相比传统的 BLEU、ROUGE 等目的,BART Score 愈加灵敏和准确,能够更好地捕捉到文本生成义务中的纤细差异。
如下图所示为 BART Score 的计算公式,其中 w 为权重,值大于等于 0;p 为概率,介于 [0, 1] 之间,因此 BART Score 一直小于等于 0:
在经常使用中,BART Score 有几种变体,用于不同的生成方向,详细包括:
二、SambaNova CoE
如下图 Fig 2 所示(来自 [2405.07518] SambaNova SN40L: Scaling the AI Memory Wall with>
Samba-CoE 的灵感来自混合专家(Mixtral of Expert, MoE),但有一些关键区别。虽然 MoE 和 CoE 都比传统的密集模型更稠密,但 MoE 的灵敏性不如 CoE。MoE 须要作为繁多模型启动训练/微调,相似于全体模型,而 CoE 由独立和异构的专家模型组成,这些模型彼此独立地启动训练/微调。CoE 的才干也更强:先前的钻研标明,CoE 的性能既优于 MoE,也优于 GPT-3.5 和 GPT-4 等大型单体模型。此外,CoE 和 MoE 也可以相互联合:CoE 可以在外部经常使用 MoE 成功的专家模型。
如下图所示,Samba 最近更新了 Samba-CoE 模型,在 Router 中增加了不确定性量化来优化 Router 品质,如下图所示为 Samba-CoE-v0.3(Samba-CoE v0.3: The Power of Routing ML Models at Scale) 的性能(看着 v0.3 重要优化来自 MMLU),可以看出其逾越了很多经常出现的大模型:
三、Hybrid LLM
3.1 摘要
在 [2404.14618] Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing 中,作者提出了一种应用低老本小模型和高品质大模型启动混合推理的打算。该打算经常使用一个 Router 模型,依据 Query 的难度和所需的品质水平将其调配给小模型或大模型。并且可以在经常使用时灵活的调整品质水平,以便依据场景需求无缝的用品质换老本。评价结果标明,提出的方法可以在降落对大模型 40% 调用量的状况下不降落照应品质。
PS:当然,Hybrid LLM 中依然有一些局限性,比如没有探讨假设是多个模型时如何路由,假设数据散布扭转或许大小模型扭转后或许须要从新训练 Router。
对应的代码库:GitHub - lm-sys/RouteLLM: A framework for serving and evaluating LLM routers - save LLM costs without compromising quality!
3.2 方法
3.2.1 概览
如下图 Figure 2 所示,其外围理路是经过 Router 来判别 Query 难易水平,Easy Query 之间在 Edge 侧经常使用小模型计算,Hard Query 在 Cloud 侧经常使用大模型计算。由于小模型和大模型都是事前训练好的,因此关键疑问变成了如何训练一个 Router,尽或许的把 Query 路由到小模型,同时又保障生成品质尽或许凑近甚至超越大模型。
3.2.2 Router 训练
作者驳回 DeBERTa 模型作为 Router,经常使用 H(x) := q(S(x)) - q(L(x)) 作为两个模型的品质差距,其中 S(x) 示意小模型结果,L(x) 示意大模型结果,q() 示意模型品质。
为了训练 Router,作者设计了 3 种损失函数:
3.3 试验和评价
3.3.1 试验性能
经常使用 MixInstruct 数据集评价 Router 的有效性,经常使用 DeBERTa-v3-large 作为 Router 的基座模型,经常使用 BART Score 作为品质目的,经常使用 BART Score Drop 示意品质差异,经常使用路由到小模型的 Query 比例作为效率目的(Cost Advantage)。选用了 3 对大小模型,区分为 LLaMA2-7B 和 LLaMA2-13B,LLaMA2-13B 和 GPT-3.5 以及 FLAN-t5(800M) 和 LLaMA2-13B。
3.3.2 路由性能
如下图 Table 1 所示,作者评价了在不同的 Cost Advantage 下几种 Router 的成果,可以看出:
如下图 Figure 6 所示,作者进一步启动了详细的对比,并与随机路由(Query 依照比例随机散发到小模型和大模型)启动了对比。Avg Quality Gap Diff 示意的是,关于被路由到小模型的 Query 与被路由到大模型的 Query,它们之间平均品质差距的差异。正值象征着小模型的平均品质差距比大模型的小,这理论示意小模型的照应品质凑近大型模型,从而成功了老本长处。Random 时,路由到小模型和大模型的 Query 散布分歧,平均品质差距相似,因此相应的 Avg Quality Gap Diff 凑近于 0。
四、Router LLM
4.1 摘要
在 [2406.18665] RouteLLM: Learning to Route LLMs with Preference>在几种经常出现的基准上评价标明,提出的方法可以在不影响照应品质的状况下清楚降落老本,某些状况可以降落 2x 老本;与此同时,提出的模型还显示了清楚的迁徙才干,即使在测试时更改大小模型也能坚持性能。这凸显了这些 Router 为部署 LLM 提供经济高效且高性能的处置打算的后劲。
4.2 评价目的
RouterLLM 中作者重要提出了 3 种评价目的:PGR、APGR 和 CPT。
PGR(Performance Gain Ration)重要评价品质增益比例,该值越凑近 1,标明取得的品质越凑近于大模型的性能。
CPT(Call Performance Threshold)是调用和品质阈值,用于权衡在给定的品质目的下,须要调用大模型的的最小百分比。比如说,GPT-4-1106-Preview 的 MT-Bench 目的为 9.3,Mixtral 8x7B 的 MT-Bench 目的为 8.3,则 CPT(50%)=37% 则示意要想 MT-Bench 维持在 (9.3-8.3)*50+8.3=8.8 的水平,至少须要有 37% 的恳求调用 GPT-4-1106-Preview。
APGR(Average Performance Gain Recovered):平均品质增益复原,是一个综合目的,用于权衡在不同老本解放下复原品质的才干。
4.3 方法
4.3.1 Router 打算
作者提出了 4 种 Router 打算:
相似性加权排序(Similarity-weighted ranking, SW):驳回 Bradley-Terry(BT)模型,经过计算用户 Query q 与训练集中每个 Query qi 的相似性权重 wi 来预测大模型的获胜概率。相似度 S 是经过 Query 对应 Embedding ε 的点积或欧式距离计算。其中的 BT 系数 ع 经过二元交叉熵损失函数来学习。
矩阵合成(Matrix factorization):这种方法遭到介绍系统中矩阵合成模型的启示,目的是捕捉 user-item 的低秩结构。它经过一个暗藏的评分函数 s:M x Q -> R 来示意模型 Mw 对 Query q 的回答品质。评分函数 s 被建模为模型和 Query 的双线性函数,并经过训练优化 Bradley-Terry 相关来学习。
BERT 分类器(BERT classifier):经常使用 BERT 模型训练一个分类器,作者在 BERT 模型上启动了全参微调,在 2*L4 GPU 上训练了 2000 个 step,batch size 为 16,最大序列长度为 512。
因果 LLM 分类器(Causal LLM classifier):经常使用 LLaMA 3 8B 模型来作为 Router,驳回指令追随范式,将用户 Query 作为输入指令,以下一个 Token 预测的模式输入获胜概率。与经常使用独自的分类 head 不同,这里将比拟标签作为额外的 Token 增加到词汇表中,并在标签类别 L 上计算获胜概率的 softmax。在 8xA100 80GB GPU 上训练 2000 个 step,batch size 为 8,最大训练长度为 2048。
4.3.2 数据
在 RouteLLM 中,作者经常使用了两种类型的数据增强方面来增强 Router 模型的性能:
4.4 试验和评价
4.4.1 结果
如下图 Table 1 所示,作者在 MT-Bench 上评价了不同 Router 方法、训练数据状况下的性能,其中的大小模型为 GPT-4 和 Mixtral-8x7B。可以看出,Matrix factorization 和 Similarity-weighted ranking 取得更好的结果,其中 25.32%,示意保障 CPT(50%) 也就是 MT-bench 为 8.8 的状况下起码只需 25.32% 的流量路由到大模型 GPT-4,越低越好。APGR 示意品质复原到 GPT-4 的水平,越高越好。
如下图 Table 3 所示,作者进一步在 8-shot GSM8K 上启动评价,论断稍有不同,不经常使用 Djudge 数据集结果和随机路由差不多,经常使用后有所改善:
4.4.2 迁徙才干
如下图 Table 5 所示,间接将训练好的 Router 模型运行到 Claude 3 Opus 和 LLaMA3-8B 上,雷同可以取得必定的收益,标明其具备不错的迁徙才干:
4.4.3 老本剖析
如下图 Table 6 所示,作者进一步评价了在不同品质要求下老本浪费状况,在 MT-Bench 上,CPT(80%) 依然可以浪费 2.49x 老本:
五、参考链接
本文转载自,作者: