数据分解方法

2024-11-15

写在前面

大家好，我是刘聪NLP。

大模型时代，数据至上，如何应用大模型分解更多高品质数据也备受关注。

当天给大家分享一个无心思的大模型分解数据方法-MAGPIE，在不须要种子数据和额外人工干预的状况下，开掘出对齐过的模型自身的指令数据。

《MAGPIE: Alignment>

paper:https://github.com/magpie-align/magpie

外围现实：对齐过的大模型自身是经过少量指令数据对齐得来，往往这些对齐后的模型接受的输入理论由 “前置查问模板”、“查问内容”、“后置查问模板” 组成（例如：Llama2-Chat模型接受的输入是"[INST] Hi! [/INST]"，[INST] 是前置查问模板”，[/INST]则是后置查问模板）当对模型仅输入前置模板时，模型会自回归的分解“查问内容”；并且当组合齐全时，开源取得模型的回复结果。

这样就变相地开掘出对齐模型的指令数据， 你认为只开了模型，我间接挖向

方法引见

如上图所示，分解数据重要触及两个步骤：

留意：在指令分解环节中，Temperature和Top-p都须要开得比拟大，保障指令的多样性；在回复分解环节中，驳回贪心解码，自动概率最高的Token或者来自模型的训练语料。

当然间接生成的指令是触及的场景是宽泛、随机的，假设须要针对限定义务启动数据生成，可以经过参与系统揭示词来 限定场景 ，比如：参与对数学义务启动指令数据生成，

数学义务

假构想失掉多轮对话数据，只有要在单轮的指令数据前面继续启动指令和回复的生成即可。但当开源模型自身参数较小时，生成的多轮数据或者产生遗记高低文内容的状况，可以经过参与系统揭示的模式，让模型 强迫记住上文消息 。

多轮义务

还可以结构偏好数据，额外应用模型基座生成回复，再经过鼓励模型FsfairX-LLaMA3-RM-v0.1启动打分，保管分解回复分数大于基座回复分数的数据。

数据剖析

权衡分解数据好坏，最便捷间接方法就是SFT一把模型，比拟训练后模型的成果。

MAGPIE方法应用Llama3-8B-Instruct模型和Llama3-70B-Instruct模型区分结构了MAGPIE-Air数据和MAGPIE-Pro数据，具体散布如下表所示，

与ShareGPT、WildChat、Evol Instruct、UltraChat、OpenHermes和Tulu V2 Mix数据区分对Llama3-8B模型启动微调，成果如下表所示，

驳回MAGPIE-Air和MAGPIE-Pro训练的模型，要比其余数据集训练的模型成果要好，甚至在AlpacaEval 2榜单上超越了原始的Llama3-Instruct模型。

Pro数据训练的模型优于Air数据训练的模型，重要是Llama3-70B-Instruct模型才干更强，取得的指令数据品质更高。

经过过滤的数据集训练的模型成果比原始数据集更优，其中过滤目的包含：

下面每个过滤数据的具体过滤规定如下表所示，

应用MAGPIE-Pro-300K-Filtered数据集，训练Qwen1.5-4B和Qwen1.5-7B模型的成果要好于Qwen1.5-4B-Chat和Qwen1.5-7B-Chat模型，说明MAGPIE方法失掉的指令数据对其余非同源模型，依然有效。

多轮数据的品质要高于单论数据集。

其余榜单（MMLU 、ARC、HellaSwag、TruthfulQA、Winogard、GSM8K、MMLU-Redux）上的成果如下，

对MAGPIE数据启动安保性剖析，应用Llama-Guard-2模型启动预测，有害指令少于1%。

本文转载自，作者：

<<干货！100多条GPT写论文的经典指令

让Google大牛通知你他是如何经常使用LLM优化10倍效率的>>

数据分解方法

写在前面

方法引见

数据剖析

您可能还会对下面的文章感兴趣：

随便看看