自解释自然言语模型新探求

2024-11-15

一、可解释性

在金融、医疗和司法等畛域，可解释性变得越来越关键，因此咱们特意关注模型的可解释性。例如，欧盟对AI系统的安保性提出了较高的要求，最近甚至出台立法，要求一切关键畛域的AI系统必定具有可解释性。

但是，在大言语模型时代，可解释性是一个具有应战性的疑问。虽然像GPT3.5或GPT4这样的大模型在回答疑问和提供解释方面体现杰出，但它们实质上依然是一个黑盒。在对模型的机制和透明性要求较高的场所，大言语模型的可信度依然存在疑问。目前的钻研正专一于探求大言语模型的可解释性，例如OpenAI经常使用GPT4来钻研GPT2模型的透明度，但这些钻研仍处于早期阶段。

在咱们的日常上班中，为大型金融机构提供尽调服务是很经常出现的情形。这触及少量的数据，包括历史存量数据和每日降级的海量数据。咱们须要对这些数据启动文本剖析，并提供对关键状况的剖析解释。经常使用像GPT4这样的模型或许老本过高，而GPT3.5也相对低廉。因此，咱们须要一种牢靠的剖析解释方法，同时要思考老本和性能的疑问。为了处置这个应战，咱们最近启动了一些讨论和钻研上班。

在可解释性方面，有一些基本准则须要遵照。首先，咱们宿愿提供的解释能够实在反映模型的行为，即"Faithful"（虔诚性）。其次，解释应该合乎人们的了解，并让人们感觉正当可信，即"plausible"（可信性）。这些准则实用于处置各种不同数据类型的模型的解释，不只限于处置文本的模型。

解释方法可以分为后处置（Post-hoc）和先处置（Ante-hoc）两类。后处置方法是对模型启动解释的后续处置，它的好处是可以对恣意模型启动解释。但是，它也存在一个疑问，就是须要在被解释的模型之外开发一个代替模型，用于模拟和解释模型。在许多实在场景下，让代替模型准确捕捉被解释模型的特性是艰巨的，尤其是当被解释模型是一个黑盒模型时愈加艰巨。另一种方法是"ante-hoc"模型，其思绪齐全不同，在开局启动设计模型时就思考了内置可解释性配置。这样的模型自带了对预测结果启动解释的才干，也被称为自解释模型。这里例子中的的情感剖析模型不只可以给出评估分数，还能在模型外部自身提供对应预测启动解释。

二、协作博弈自解释框架和虚伪关联引见

RNP（Recursive Neural Predictors）是由MIT于2016年提出的一个基于协作博弈的自解释框架。它由解释器（explainer）或生成器（generator）和预测器（predictor）两个组件相互协作上班。在RNP模型中，解释器和预测用具有相反的架构。这里啤酒评估的例子中，给出对啤酒两个不同方面的评估，一个担任处置外观评估，另一个担任处置气息评估。解释器从整个评论输入X当选用是出一个子集Z作为解释(通常被称为Rationale)，而后将这个解释传递给预测器，失掉最终的预测结果。

RNP模型具有"Certification of Exclusion"（扫除认证）的特点，也就是模型预测结果齐全依赖于模型自身给出的解释，与其余要素有关，因此可以齐全保障Faithfulness，由于其所提供的解释与模型启动预测的行为是齐全分歧。

该模型的训练目的有两个方面。首先是确保良好的预测才干。关于分类疑问，目的是使预测结果尽或许凑近实在标签（ground-truth）的cross-entropy。在回归疑问中，或许经常使用平方差（MSE）作为优化目的。

其次，除了预测才干外，解释的品质也须要思考。解释的目的是为了繁难人类了解，降落认知累赘。因此，咱们宿愿提供一个冗长但尽或许蕴含一切须要的完整解释消息的解释，防止过于冗长的内容，即"Sparsity"（稠密性）。同时，咱们也要确保解释是延续的文本片段，而不是零散的形容。在早期的基于每个词的权重的解释方法中，生成的解释通常是断断续续的，蕴含许多不连接的文本，不适宜人类浏览。因此，咱们须要保障解释的连接性，即在言语和语义上具有延续性。

RNP模型中的Rationale 选用是一个无监视序列标注疑问，关于每个token有选中和不选中两个标签。这个疑问通常可以经常使用强化学习方法来求解，或许经常使用Gumbel-Softmax采样启动处置。

除了文本数据，基于协作博弈的自解释框架，包括RNP，还可以运行于基于图数据的图神经网络（GNN）解释以及对处置图像数据的计算机视觉模型启动解释等。这种框架具有宽泛的运行范围，不依赖于特定畛域。

但是，RNP作为一个框架，在实践运行中也存在一些疑问，其中之一是虚伪的关联（spurious correlation）。虚伪的关联疑问可以分为两类。

虚伪的关联疑问可以分为两类。第一类是特色关系性（Feature correlation），关键源于数据散布的疑问。例如，好滋味的啤酒通常也具有好的气息，在上方这个啤酒评估的例子中，咱们想要的是对啤酒气息评估预测结果给出的解释（下划线局部），但是RNP给出解释却是关于滋味的关系的内容（白色局部）。相似的疑问其实是普遍存在的存在，之前经典的post-hoc方法的论文LIME中给出的一个驰名的例子，由于数据集里狼的图片总是有雪的背景，造成一些模型往往是用雪的背景作为分类狼的特色。这个狼的数据集的数据的选用上不太正当或许存在偏向。这里啤酒数据集倒不是由于数据选用偏向，而是不同特色之间确实自然就具有很强的关联。

另一类疑问是"Degeneration"（退步），这是协作博弈框架固有的疑问。在Rationale选用的环节中，解释器或许会选用一些有意义或不足消息的文本作为解释，但它们却或许是容易被预测器所区分并实现正确的分类的。例如，在选用解释时，解释生成器或许会采样到一个不足实践意义的“-”，但预测器或许会过拟合，把能否蕴含“-”可作为区分正类和负类的分类特色。这关键是由于预测器在还没有见过具有足够多样性的rationale候选之前就过早的过拟合到某些没有意义但具有必定辨识度的错曲解释中，造成了degeneration的疑问。

为了处置这些疑问，一些方法在RNP框架上参与了额外的组件。这些组件使预测器能够看到除选用的解释之外的其余输入文本局部的消息。但是，这样做会参与复杂性、扭转原始结构并引入新的疑问。

三、对协作博弈机制的洞察和处置虚伪关系性的打算

咱们这一系列钻研中的第一项上班宣布在NeuIPS-2022上，关键是对RNP在协作博弈环节中出现degeneration外部机制启动了剖析并给出了处置打算。

经过深化剖析博弈协作框架中的疑问，咱们提出了名为"Folded Rationalization"（FR）的处置打算，用于处置协作博弈环节中的退步疑问。咱们发现，疑问的根源在于Generator和Predictor之间的协作步伐不分歧。Generator面临的义务较为复杂，须要在高维空间中启动采样以找到优质解释。相比之下，Predictor的义务相对繁难，只有将解释文本启动分类。这造成了两个义务之间的学习进程不协调。

依据前面的观察，咱们提出了一个十分繁难有效的方法，就是将RNP的2阶段方法，启动折叠，使得Generator和Predictor共享参数，不须要像之前的方法那样参与额外的模块和参数。

FR让Generator和Predictor共享参数的做法，可以迫使两者在学习的步伐分歧。同时共享参数，也让Predictor无时机失掉更完整的输入消息。这样可以让防止Predictor关于没有消息量的rationale候选发生overfit，反上来，更好的Predictor也能对Generator提供更好的指点和反应。

咱们在经过过滤的啤酒评论数据集上启动了试验，该数据集剔除了存在强特色关系性的评论，以专门钻研咱们的FR模型对退步疑问的处置才干。试验结果显示，FR与之前的方法相比取得了清楚的改良，在F1分数上最多能提高10.3%。

咱们系列上班中的第二项，是对degeneration疑问启动了更进一步的深化剖析，提出了更好的处置打算，并且齐全不须要修正RNP的架构，这项上班宣布在KDD-2023上。

在FR的基础上，咱们对Generator和Predictor的两者学习率之间的比例进后退一步更粗疏的剖析。用λ来示意预测器和生成器的学习率比例。咱们发现，当λ小于1时，即降落预测器的学习率使其小于生成器的学习率时，解释品质清楚提高。这是一个普遍的法令，预测器的学习率较低时总能失掉更好的解释结果。

前面的观察给了咱们启示，让咱们找到一种比咱们之前提出的FR更繁难和间接的方法，就是坚持和RNP齐全相反的架构，只有要让Predictor的学习率相关于Generator更高攀可以了。

须要留意的是，其实对博弈中两个agent的学习率启动不同的调理，在之前反抗博弈方法中也有被钻研过，但是他们论断是正好反上来的，他们的反抗博弈方法须要减速critic(GAN中的discriminator)，咱们的协作博弈则须要slow down predictor.

关于如何选用λ的值，目前咱们还没有找到迷信严厉的论证，但咱们发现了一种在通常中十分有效的启示式规定。该规定是经过对一些样例求解释长度和输入全文本长度之比的平均值来确定λ的值。例如，在之前提到的啤酒数据集中，这个比例或许在0.1左右，大概是总长度的10%左右。

咱们还宿愿对“为何咱们提出的方法有效”更深档次的要素启动剖析。之前一些上班，尤其是反抗博弈的方法GAN，也给了咱们启示，他们发现Lipschitz Continuity是剖析系统稳固性和强健性一个很好的目的。所以咱们也开局思考能否可以将Lipschitz Continuity用于协作博弈系统的剖析。

Lipschitz Continuity其实概念上是很繁难的，就是反映了预测函数的平滑水平。其实这也容易了解，一个对应系统输入输入的函数比拟平滑，就不会出现输入的纤细变化，造成输入猛烈变化的状况，系统也就自然更稳固。相反，假设模型函数存在尖利或阶梯状的变化，系统就不稳固，庞大的输入变化或许造成猛烈的输入变化。

Lipschitz Continuity是经过计算Lipschitz Constant来测量的，更小的Lipschitz constant 代表更好的Lipschitz continuity。

这里是Lipschitz Constant的定义，数学上的细节这里可以临时略过，并不会影响对后续基本方法的了解，感兴味的听众稍后可以浏览论文中的细节。

直观上很容易了解，假设Zi和Zj区分是从两条情感取向齐全相反的评论中抽取的rationale候选，假设两者都是没有什么消息含量的噪声的话，两者之间的语义距离会比拟小。而假设Zi和Zj都是比拟意义的rationale候选的话，两者之间的语义距离会比拟大。理想上咱们的试验也证实了这一点。

依据前面的观察结果和 Lipschitz Constant 定义咱们可以很容易推导出一个论断：Predictor的Lipschitz Constant的值越小，则Generator选用有意义的rationale候选来作为解释的概率就越高。咱们从而可以建设起predictor的Lipschitz Continuity和degeneration之间的关联了，稍后这可以用来协助解释为何咱们提出的DR方法是有效的。这里详细的推导环节这里就不详细解释，可以浏览论文了解更多细节。

之前的钻研中曾经有一些限度模型Lipschitz constant的方法，例如Spectral normalization 就是僵硬的经过手工设定一个cutoff来限度Lipschitz constant的方法，咱们试验结果显示虽然Spectral normalization能必定水平提高Generator发生rationale的品质，但是却会挫伤Predictor的性能。

咱们的通常剖析和试验都显示：咱们提出的方法DR (也就是相对调低predictor的学习率) 提供了一种更灵敏更好的方法来限度Lipschitz Constant的值，在保障rationale的品质的同时还能保障predictor有好的性能。

当λ<1时，Lipschitz常数清楚降落，标明咱们的方法能够提高系统的牢靠性。与规范的RNP方法启动比拟，可以看到咱们提出的DR方法的Lipschitz Constant远远小于RNP对应的值，这标明咱们的系统愈加稳固。

在啤酒数据集上，咱们的DR方法展现出了十分好的效果，比之前的FR方法也要更好一些。综合来看，DR排名第一，FR排名第二，两种方法相较于之前的方法都有清楚优化。

试验结果还显示（1）降落Predictor的学习率并没有减缓DR的收敛速度。（2）RNP在训练的时刻Predictor的正确率回升很快，并不时比DR好，但在验证数据集中，RNP则没有显示出长处，显示了RNP过拟合的疑问。

最后讨论咱们系列上班中的第三项，这局部上班宣布在ACL-2023上。

之前的钻研上班基本都是独自处置degeneration(例如，刚引见的咱们前两项上班FR和DR）或许独自处置feature correlation疑问，但是很少有思考同时处置好这两个疑问的。

在这里咱们宿愿能够同时能够可以同时处置好degeneration和feature correlation这两类虚伪关联疑问。

咱们这项上班MGR是第一个来同时处置degeneration和feature correlation的疑问的方法。

MGR的基本思绪也很繁难间接，就是宿愿经过经常使用多个generator能取得对候选rationale更宽泛和更多样性的观察。在训练好模型之后，启动推理的时刻，多个生成器会到达收敛形态，所以咱们只有要任选一个generator就可以了，例如就选第一个，这样可以大大缩小部署和经常使用的老本，并且提高效率。因此，最终的运行部署和推理环节的性能复杂度与规范的RNP相当。

驳回多个Generator，每个Generator驳回不同倍率的学习率，降落Predictor的学习率，可以让这些Generator发生出更具多样性的rationale candidates，并且可以使得一切的Generator都最终收敛到十分相似的结果。试验结果显示，每个Generator驳回不同的学习率可以取得更好的rationale品质。由于最后Generator都会收敛到很相似的结果，所以推理的时刻只选用一个Generator简直不会影响性能。

经过学习率的收敛环节可以观察到，训练环节中一切生成器逐渐趋于分歧，这解释了为什么最后只有要一个生成器即可。

MGR在没有被过滤的原始啤酒数据集上和之前的处置feature correlation的方法相比取得清楚的改良。在处置degeneration，也比之前的其余方法有所清楚改良，性能和FR和DR相当。

四、未来上班的展望

总结来说，未来上班的展望关键包括以下几个方面：

在大模型时代，因果推理依然是处置可解释性疑问的关键。虽然现有的局部因果推理方法存在一些疑问，但在因果推理的慷慨向上仍有后劲。未来的钻研可以努力于建设一个一致的框架，处置不同类型的可解释性疑问。

2. 运行畛域的迁徙：咱们在协作博弈的钻研中发现了一些通用的原理和洞见。这些剖析或许实用于其余畛域，例如金融常识图谱和介绍系统等触及图数据和GNN的模型。未来的上班可以将这些原理运行于其余畛域，进一步拓展协作博弈的通常运行范围。

感谢大家的关注和允许。谢谢大家。

最近咱们一系列上班的参考文献：

当天的分享就到这里，谢谢大家。

自然言语模型因果推理

<< 共赴数智未来！2023广西鲲鹏昇腾人工智能产业生态大会成功举行共建数字广西

关于人造言语解决之One Hot模型>>

自解释自然言语模型新探求

一、可解释性

二、协作博弈自解释框架和虚伪关联引见

三、对协作博弈机制的洞察和处置虚伪关系性的打算

四、未来上班的展望

您可能还会对下面的文章感兴趣：

随便看看