经过计算最优抽样训练大言语模型推理器 更弱 却更优 更小
一、论断写在前面
论文题目:Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling
论文链接:
应用来自弱小言语模型(LMs)的高品质分解数据启动训练是优化LMs推理性能的经常出现战略。论文从新扫视了在固定推理估算(例如,FLOPs)下,这一战略能否为计算最优。为此,论文探求了经常使用更强但更低廉(SE)模型与较弱但更廉价(WC)模型生成分解数据之间的权衡。
论文评价了生成数据在三个关键目的上的体现:笼罩率、多样性和误报率,并标明WC模型生成的数据或许具备更高的笼罩率和多样性,但也体现出更高的误报率。
随后,论文在不同设置下对LMs启动微调:常识蒸馏、自我改良以及一种陈腐的弱到强改良设置,其中较弱的LM向较强的LM教授推理才干。论文的钻研发现,在多个基准和多种WC与SE模型选用下,基于WC生成数据微调的模型一直优于那些基于SE生成数据训练的模型。这些结果应战了依赖SE模型生成分解数据的干流做法,标明WC或许是训练初级LM推理器的计算最优途径。
一个详细例子是:关于Gemma2系列在MATH数据集上,Gemma2-9B成功了11%更高的笼罩率和86%更高的多样性,但也随同着7%的更高FPR,相比于Gemma2-27B。
图 1 | 结果总结。(a) 论文在计算婚配的设置下,经常使用从更弱小但更低廉的LM(Gemma2-27B)和较弱但较廉价的LM(Gemma2-9B)搜集的分解数据,对Gemma-7B、Gemma2-9B和Gemma2-27B启动微调,用于MATH数据集。论文发现,在多种微调范式——常识蒸馏、自我改良和弱到强改良(即使用较弱的模型来改良较强的模型)中,经常使用Gemma2-9B数据启动训练是更计算优化的设置。(b) 论文在多少钱婚配的设置下,经常使用由最先进的LM Gemini-1.5-Pro和Gemini-1.5-Flash生成的分解数据,对Gemma模型(7B/9B/27B)启动微调。论文发现,经常使用Flash生成的数据启动微调一直优于经常使用Pro生成的数据。
二、论文的便捷引见
2.1 论文的背景
最近的钻研标明,经过言语模型自身分解生成这些数据是可行的,这为训练数据的失掉提供了一种潜在的更具裁减性和效率的方法。一种宽泛驳回的方法是从LM中为一个疑问采样多个候选处置打算,过滤它们以确保最终答案的正确性,并在正确的处置打算上对模型启动微调。多项钻研标明,经常使用这种分解处置打算训练的LM优于经常使用人类编写的处置打算训练的LM。从业者通常从弱小的LM中采样处置打算以确保高品质。但是,从弱小的LM中采样是低廉且资源密集型的,并且限度了在实践采样估算内可以生成的处置打算数量。
论文探求了一种代替采样方法。在固定的计算估算下,论文钻研了从较弱但更廉价(WC)模型采样,而不是通常驳回的从较强且低廉的微调LM(stronger but more expensive,SE)采样的方法。经过比拟WC和SE的数据,论文沿着三个在分解数据成效中起关键作用的方向启动剖析:1-笼罩率,处置的共同疑问的数量;2-多样性,每个疑问取得的平均共同处置打算数量;以及3-假阳性率(FPR),即以失误理由得出正确最终答案的疑问百分比。
论文发现,由于可以从WC模型生成更多的样本,与后者相比,这或许造成处置更宽泛的疑问,并在固定估算下提供更少数据。论文在各种监视微调设置中比拟了这两种分解生成的数据集对训练LM推理器的成效,并显示经常使用WC数据训练一直优于经常使用SE数据训练。作为一个详细例子,关于Gemma2系列在MATH数据集(Hendrycks等人,2021)上,Gemma2-9B成功了11%更高的笼罩率和86%更高的多样性,但也随同着7%的更高FPR,相比于Gemma2-27B。
2.2. 筹备常识
设 D={q_i, a_i} _i=1 ^i=n 为一个蕴含 n 个推理疑问 q_i 及其最终答案(即标签) a_i 的训练数据集。应用此类数据优化模型推理才干的成功方法如下:论文采样k 个样本,其中 r_i j 是模型为 q_i 生成的第 j 个推理链(即处置打算),a_i j 是模型在非零温度下对 q_i 的最终答案,并创立分解数据 D_G={q_i, {( r_i j, a_i j )}_j=1 ^j=k 。
接着,论文经过比拟 a_i j 与 a_i 来过滤失误的处置打算,移除那些最终答案与规范答案不婚配的打算。最后,论文在残余数据 D_G 上监视微调模型,以最大化目的函数