数据分解方法

写在前面

大家好,我是刘聪NLP。

大模型时代,数据至上,如何应用大模型分解更多高品质数据也备受关注。

当天给大家分享一个无心思的大模型分解数据方法-MAGPIE,在不须要种子数据和额外人工干预的状况下,开掘出对齐过的模型自身的指令数据。

《MAGPIE: Alignment>

paper:https://github.com/magpie-align/magpie

外围现实:对齐过的大模型自身是经过少量指令数据对齐得来,往往这些对齐后的模型接受的输入理论由 “前置查问模板”、“查问内容”、“后置查问模板” 组成(例如:Llama2-Chat模型接受的输入是"[INST] Hi! [/INST]",[INST] 是前置查问模板”,[/INST]则是后置查问模板)当对模型仅输入前置模板时,模型会自回归的分解“查问内容”;并且当组合齐全时,开源取得模型的回复结果。

这样就变相地开掘出对齐模型的指令数据, 你认为只开了模型,我间接挖向

方法引见

如上图所示,分解数据重要触及两个步骤:

留意:在指令分解环节中,Temperature和Top-p都须要开得比拟大,保障指令的多样性;在回复分解环节中,驳回贪心解码,自动概率最高的Token或者来自模型的训练语料。

当然间接生成的指令是触及的场景是宽泛、随机的,假设须要针对限定义务启动数据生成,可以经过参与系统揭示词来 限定场景 ,比如:参与对数学义务启动指令数据生成,

数学义务

假构想失掉多轮对话数据,只有要在单轮的指令数据前面继续启动指令和回复的生成即可。但当开源模型自身参数较小时,生成的多轮数据或者产生遗记高低文内容的状况,可以经过参与系统揭示的模式,让模型 强迫记住上文消息

多轮义务

还可以结构偏好数据,额外应用模型基座生成回复,再经过鼓励模型FsfairX-LLaMA3-RM-v0.1启动打分,保管分解回复分数大于基座回复分数的数据。

数据剖析

权衡分解数据好坏,最便捷间接方法就是SFT一把模型,比拟训练后模型的成果。

MAGPIE方法应用Llama3-8B-Instruct模型和Llama3-70B-Instruct模型区分结构了MAGPIE-Air数据和MAGPIE-Pro数据,具体散布如下表所示,

与ShareGPT、WildChat、Evol Instruct、UltraChat、OpenHermes和Tulu V2 Mix数据区分对Llama3-8B模型启动微调,成果如下表所示,

驳回MAGPIE-Air和MAGPIE-Pro训练的模型,要比其余数据集训练的模型成果要好,甚至在AlpacaEval 2榜单上超越了原始的Llama3-Instruct模型。

Pro数据训练的模型优于Air数据训练的模型,重要是Llama3-70B-Instruct模型才干更强,取得的指令数据品质更高。

经过过滤的数据集训练的模型成果比原始数据集更优,其中过滤目的包含:

下面每个过滤数据的具体过滤规定如下表所示,

应用MAGPIE-Pro-300K-Filtered数据集,训练Qwen1.5-4B和Qwen1.5-7B模型的成果要好于Qwen1.5-4B-Chat和Qwen1.5-7B-Chat模型,说明MAGPIE方法失掉的指令数据对其余非同源模型,依然有效。

多轮数据的品质要高于单论数据集。

其余榜单(MMLU 、ARC、HellaSwag、TruthfulQA、Winogard、GSM8K、MMLU-Redux)上的成果如下,

对MAGPIE数据启动安保性剖析,应用Llama-Guard-2模型启动预测,有害指令少于1%。

本文转载自​​,作者:​​

您可能还会对下面的文章感兴趣: