经过计算最优抽样训练大言语模型推理器更弱却更优更小

2024-11-14

一、论断写在前面

论文题目：Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling

论文链接：

应用来自弱小言语模型（LMs）的高品质分解数据启动训练是优化LMs推理性能的经常出现战略。论文从新扫视了在固定推理估算（例如，FLOPs）下，这一战略能否为计算最优。为此，论文探求了经常使用更强但更低廉（SE）模型与较弱但更廉价（WC）模型生成分解数据之间的权衡。

论文评价了生成数据在三个关键目的上的体现：笼罩率、多样性和误报率，并标明WC模型生成的数据或许具备更高的笼罩率和多样性，但也体现出更高的误报率。

随后，论文在不同设置下对LMs启动微调：常识蒸馏、自我改良以及一种陈腐的弱到强改良设置，其中较弱的LM向较强的LM教授推理才干。论文的钻研发现，在多个基准和多种WC与SE模型选用下，基于WC生成数据微调的模型一直优于那些基于SE生成数据训练的模型。这些结果应战了依赖SE模型生成分解数据的干流做法，标明WC或许是训练初级LM推理器的计算最优途径。

一个详细例子是：关于Gemma2系列在MATH数据集上，Gemma2-9B成功了11%更高的笼罩率和86%更高的多样性，但也随同着7%的更高FPR，相比于Gemma2-27B。

图 1 | 结果总结。(a) 论文在计算婚配的设置下，经常使用从更弱小但更低廉的LM（Gemma2-27B）和较弱但较廉价的LM（Gemma2-9B）搜集的分解数据，对Gemma-7B、Gemma2-9B和Gemma2-27B启动微调，用于MATH数据集。论文发现，在多种微调范式——常识蒸馏、自我改良和弱到强改良（即使用较弱的模型来改良较强的模型）中，经常使用Gemma2-9B数据启动训练是更计算优化的设置。(b) 论文在多少钱婚配的设置下，经常使用由最先进的LM Gemini-1.5-Pro和Gemini-1.5-Flash生成的分解数据，对Gemma模型（7B/9B/27B）启动微调。论文发现，经常使用Flash生成的数据启动微调一直优于经常使用Pro生成的数据。

二、论文的便捷引见

2.1 论文的背景

最近的钻研标明，经过言语模型自身分解生成这些数据是可行的，这为训练数据的失掉提供了一种潜在的更具裁减性和效率的方法。一种宽泛驳回的方法是从LM中为一个疑问采样多个候选处置打算，过滤它们以确保最终答案的正确性，并在正确的处置打算上对模型启动微调。多项钻研标明，经常使用这种分解处置打算训练的LM优于经常使用人类编写的处置打算训练的LM。从业者通常从弱小的LM中采样处置打算以确保高品质。但是，从弱小的LM中采样是低廉且资源密集型的，并且限度了在实践采样估算内可以生成的处置打算数量。

论文探求了一种代替采样方法。在固定的计算估算下，论文钻研了从较弱但更廉价（WC）模型采样，而不是通常驳回的从较强且低廉的微调LM（stronger but more expensive，SE）采样的方法。经过比拟WC和SE的数据，论文沿着三个在分解数据成效中起关键作用的方向启动剖析：1-笼罩率，处置的共同疑问的数量；2-多样性，每个疑问取得的平均共同处置打算数量；以及3-假阳性率（FPR），即以失误理由得出正确最终答案的疑问百分比。

论文发现，由于可以从WC模型生成更多的样本，与后者相比，这或许造成处置更宽泛的疑问，并在固定估算下提供更少数据。论文在各种监视微调设置中比拟了这两种分解生成的数据集对训练LM推理器的成效，并显示经常使用WC数据训练一直优于经常使用SE数据训练。作为一个详细例子，关于Gemma2系列在MATH数据集（Hendrycks等人，2021）上，Gemma2-9B成功了11%更高的笼罩率和86%更高的多样性，但也随同着7%的更高FPR，相比于Gemma2-27B。

2.2. 筹备常识

设 D={q_i, a_i} _i=1 ^i=n 为一个蕴含 n 个推理疑问 q_i 及其最终答案（即标签） a_i 的训练数据集。应用此类数据优化模型推理才干的成功方法如下：论文采样k 个样本，其中 r_i j 是模型为 q_i 生成的第 j 个推理链（即处置打算），a_i j 是模型在非零温度下对 q_i 的最终答案，并创立分解数据 D_G={q_i, {( r_i j, a_i j )}_j=1 ^j=k 。

接着，论文经过比拟 a_i j 与 a_i 来过滤失误的处置打算，移除那些最终答案与规范答案不婚配的打算。最后，论文在残余数据 D_G 上监视微调模型，以最大化目的函数

<<拥抱全新Agent ToolGen！遗记Tool检索

第一个多模态MoE Aria>>

经过计算最优抽样训练大言语模型推理器 更弱 却更优 更小

一、论断写在前面

二、论文的便捷引见

2.1 论文的背景

2.2. 筹备常识

您可能还会对下面的文章感兴趣：

随便看看

经过计算最优抽样训练大言语模型推理器更弱却更优更小