上交大给大模型制造 为包全你的参数 人类可读指纹 大模型也有小偷

大模型的预训练须要消耗巨量的计算资源和数据,因此预训练模型的参数也正成为各大机构重点包全的外围竞争力和资产。但是,不同于传统的软件常识产权包全可以经过比对源代码来确认能否存在代码盗用,对预训练模型参数盗用的判别存在以下两方面的新疑问:

1) 预训练模型的参数,尤其是千亿级别模型的参数,通常不会开源。

2) 更关键的是,预训练模型的输入和参数都会随着 SFT、RLHF、continue pretraining 等下游处置步骤而变动。这使得无论是基于模型输入还是基于模型参数,都很难判别某一模型能否是基于另一现有模型微调得来。

因此,对大模型参数的包全是一个尚不足有效处置打算的全新疑问。

为此,来自上海交通大学林洲汉教员的 Lumia 钻研团队研发了一种人类可读的大模型指纹,这一方法可以在不须要地下模型参数的条件下,有效识别各个大模型之间的血缘相关。

该方法提供两种判别方式:一种是定量的判别方式,经过给出被测大模型和一系列基模型之间的相似度来提醒被测能否盗用了某个预训练基模型;第二种是定性的判别方式,经过对每一个模型生成一张人类可读的「狗图」,来极速发现模型之间的相互承袭相关。

6 个不同基础模型(第一行)及其相应后辈模型(上方两行)的指纹。

对 24 个不同的大模型所制造的人类可读大模型指纹。

大型模型的极速开展带来了宽泛的运行前景,但同时也引发了一系列新的应战。其中突出的两个疑问包含:

在此之前,处置这类疑问的惯例方法包含在模型训练和推理环节中添加水印,或对由大型模型生成的文本启动分类。但是,这些方法要么会削弱大型模型的功能,要么容易被便捷的微调或 further pretrain 规避。

这引发了一个关键疑问:能否存在一种方法,既不搅扰大型模型的输入散布,又能对微和谐 further pretrain 鲁棒,同时还能够准确追踪大模型的基模型,从而有效包全模型版权的目的。

上海交通大学的团队从人类指纹的举世无双个性中吸取灵感,钻研开发了一种为大模型制造「人类可读指纹」的方法。他们将不同的基模型意味为不同种类的狗,其中相反的「狗形指纹」标明它们源自同一个基模型。

这种直观的方法使群众能够轻松辨识不同大模型之间的咨询,并经过这些指纹追踪到模型的基模型,有效预防模型的盗版和滥用。值得留意的是,大模型的制造商无需发布其参数,仅需地下不变项用于生成指纹。

Alpaca 和 LLaMA 的「指纹」极端相似,这是由于 Alpaca 模型是经过对 LLaMA 启动微调获取的;而其余几种模型的指纹则显示了清楚的差异,反映了它们源自不同的基模型。

交大团队发现,在对大模型启动微调或 further pretrain 时,这些模型的参数向量方向变动十分庞大。相反,关于重新开局训练的大模型,其参数方向将与其余基模型齐全不同。

他们在 LLaMA 的一系列衍生模型上启动了验证,包含经过对 LLaMA 启动微调获取的 Alpaca 和 Vicuna,以及由 LLaMA further pretrain 获取的 Chinese LLaMA 和 Chinese Alpaca。此外,他们还测试了如百川和书生等独立训练的基模型。

表格中用蓝色标志的 LLaMA 衍生模型与 LLaMA-7B 基模型在参数向量上展现出了极高的余弦相似度,意味着这些衍生模型在参数向量方向上与基模型极为凑近。相比之下,用白色标志的独立训练的基模型则出现出一模一样的状况,它们的参数向量方向齐全有关。

基于这些观察,他们思考能否可以依据这种阅历法令来创立模型的指纹。但是,存在一个关键疑问:这种方法关于恶意攻打能否足够鲁棒?

为了验证这一点,钻研团队在对 LLaMA 启动微调时,添加了模型间参数的相似度作为处罚损失,以使模型在微调的同时,参数方向尽量偏离基模型,测试模型能否在坚持功能的同时偏离原参数方向:

他们在 BoolQ 和 MMLU 等 8 个 benchmark 上测试了原模型和添加处罚损失微调获取的模型。从下图表中可见,模型的功能随着余弦相似度的降低迅速好转。这说明,想要在不侵害基模型才干的状况下偏离原参数方向是相当艰巨的!

目前来看,大模型的参数向量方向成为识别其基模型的一个极为有效且鲁棒的目的。但是,间接应用参数向量方向作为识别工具仿佛还存在一些疑问。首先,这种方法须要提醒模型的参数,这关于许多大型模型或者是无法接受的。其次,攻打者有可以经过便捷地置换暗藏单元,从而在不就义模型功能的状况下对参数向量方向动员攻打。

以 Transformer 中的前馈神经网络(FFN)为例,仅对暗藏单元启动便捷的置换,并相应地调整其权重,就可以在不扭转网络输入的状况下成功对权重方向的修正。

此外,该团队还深化剖析了线性映射攻打以及对大模型 word embedding 的置换攻打。这些发现引发了一个疑问:在面对如此多样化的攻打手腕时,咱们应该如何有效地应答和处置这些疑问?

他们经过参数矩阵间的乘法消弭攻打矩阵,从而推导出了三组对这些攻打鲁棒的不变项。

从不变项到人类可读的指纹

虽然上述推导出的不变项已足以作为大型型的身份标识,但它们通常以庞大的矩阵方式发生,不只不够直观,而且还须要启动额外的相似度计算来判定不同大模型之间的相关。能否存在一种愈加直观且易于了解的方法来展现这些消息?

为了处置这一疑问,上海交大团队研发了一套由模型参数生成人类可读指纹的方法 —HUREF。

他们首先从大模型的部分参数中提取出不变项,而后应用 CNN Encoder 在坚持部分性(locality)的前提下,将不变项矩阵编码成听从高斯散布的特色向量,最后经常使用经常使用平滑的 GAN 或 VAE 作为图片生成器,将这些特色向量解码成可视化图像(即狗的图片)。这些图片不只人类可读,而且直观地展现了不同模型之间的相似性,有效地作为大型模型的「视觉指纹」。以下是具体的训练和推理环节。

在该框架中,CNN Encoder 是惟一须要训练的部分。他们驳回对比学习确保 Encoder 的部分坚持性,同时经过生成反抗学习确保特色向量听从高斯散布,以此与 GAN 或 VAE 生成器的输入空间坚持分歧。

关键的是, 在训练环节中,他们无需经常使用任何实在的模型参数,一切数据都是经过正态散布采样取得 。在实践运行中,间接驳回经过训练的 CNN Encoder 和现成的在 AFHQ 犬类数据集上训练获取的 StyleGAN2 生成器来启动推理。

为不同大模型生成指纹

为了验证这一方法的有效性,团队在多种宽泛经常使用的大模型上启动了试验。他们选取了若干出名的开源大模型,如 Falcon、MPT、LLaMA2、Qwen、Baichuan 和 InternLM,以及它们的衍生模型,计算了这些模型的不变项,并据此生成了如下图所示的指纹图片。

衍生模型的指纹与其原始模型极为相似,咱们可以直观地从图像中识别出它们是基于哪个原型模型构建的。此外,这些衍生模型与原模型在不变项上也坚持了很高的余弦相似性。

随后,他们对 LLaMA 家族模型启动了宽泛的测试,包含经过 SFT 获取的 Alpaca 和 Vicuna,裁减了中文词汇表的模型,经过 further pretrain 获取的 Chinese LLaMA 和 BiLLa,经过 RLHF 获取的 Beaver 以及多模态模型 Minigpt4 等。

表中展现了 LLaMA 家族模型之间不变项的余弦相似度,同时,图中是为这 14 个模型生成的指纹图片,它们的相似度依然很高。咱们能够依据指纹图片判别出它们来自相反的模型,值得留意的是,这些模型涵盖了 SFT,further pretrain,RLHF 和多模态等多种不同的训练方法,这进一步验证了团队所提出的方法对大模型后续不同训练范式的鲁棒性。

此外,下图是他们在 24 个独立训练的开源基模型上启动的试验结果。经过他们的方法,各个独立的基模型被赋予了共同的指纹图像,这些图像活泼地展现了不同大模型间指纹的多样性和差同性。表中,这些模型间的相似度计算结果与其指纹图像所出现的差同性坚持了分歧。

最后,该团队进一步验证了小规模独立训练的言语模型参数方向的惟一性和稳固性。他们应用 Pile 数据集的十分之一从零开局预训练了四个 GPT-NeoX-350M 模型。

这些模型在设置上齐全相反,惟一的区别在于经常使用了不同的随机数种子。从下图表中可以清楚看出,仅随机数种子的差异就造成了模型参数方向和指纹的清楚不同,这充沛说明了独立训练的言语模型参数方向的惟一性。

最后,经过比拟相邻 checkpoints 的相似度,他们发现,在预训练环节中,模型的参数逐渐趋向稳固。他们以为这种趋向在更长的训练步骤和更大规模的模型中将更为清楚,这也在必定水平上解释了他们方法的有效性。

您可能还会对下面的文章感兴趣: