成年人当然是全都要 大模型微调哪家好 小孩子才做选用
一、概述
title:UNIPELT: A Unified Framework for Parameter-Efficient Language Model Tuning
论文地址:
代码:
1.1 Motivation
1.2 Methods
说明:
1.3 Conclusion
二、具体内容
1 GLUE试验结果
P: P-tuning
在样本K=100,500,1000的试验上,UniPELT集成了多个微调方法的成果更好
2 Adapter方法剖析:bottleneck大小对该方法成果的影响
3 LoRA方法对参数的敏理性
针对两个义务SST和MRPC,和不同的参数a来做试验,结果如下:
4 其余方法剖析:
参与训练参数成果不必定好
LoRA训练参数比拟小的状况下,成果如同也还可以
5 UniPELT和原始微调方法的下限对比
6 全量数据的训练成果
7 训练期间和推理期间剖析
三、Adaptor、Prefix-tuning、LoRA背景常识
参考原文:从一致视角看各类高效finetune方法:
1 Adaptor方法引见
Adaptor外围是在原Bert中参与参数量更小的子网络,finetune时固定其余参数不变,只降级这个子网络的参数。 Adaptor是最早的一类高效finetune方法的代表,在 Parameter-Efficient Transfer Learning for NLP(ICML 2019) 这篇文章中被提出。在原来的Bert模型的每层两边参与两个adapter。Adapter经过全衔接对原输入启动降维进一步增加参数量,经过外部的NN后再将维度恢复,构成一种bottleneck的结构。在finetune环节中,原预训练Bert模型的参数freeze住不降级,只降级adapter的参数,大大增加了finetune阶段须要降级和保留的参数量。
2 Prefix-tuning方法引见
Prefix-tuning的外围是为每个下游义务参与一个prefix embedding,只finetune这些embedding,其余参数freeze 。Prefix-tuning对应的论文是 Prefix-Tuning: Optimizing Continuous Prompts for Generation(2021) ,这类方法的思维起源于prefix prompt,prefix embedding相当于一个高低文消息,对模型最终产出的结果形成影响,进而只finetune这个embedding成功下游义务的迁徙。
3LoRA方法引见
LoRA的外围是经过引入参数量远小于原模型的可合成的两小矩阵建设一个旁路,经过finetune这个旁路来影响预训练模型 。LoRA于 LoRA: Low-rank adaptation of large language models(2021) 论文中被提出,应用低秩矩阵代替原来全量参数的训练,优化finetune效率。
本文转载自,作者: