XAI有什么用探求LLM时代应用可解释性的10种战略

2024-11-14

你能否也猎奇，在大模型时代，可解释性人工智能技术（XAI）有怎么的经常使用价值？近日，来自佐治亚大学、新泽西理工学院、弗吉尼亚大学、维克森林大学、和腾讯 AI Lab 的钻研者联结颁布了解释性技术在大言语模型（LLM）上的可用性综述，提出了「Usable XAI」的概念，并讨论了 10 种在大模型时代提高 XAI 实践运行价值的战略。

论文标题：Usable XAI: 10 Strategies Towards Exploiting Explainability in the LLM Era

论文链接：

代码链接：

这些战略涵盖两方面：（1）如何应用 XAI 来更好地理解和优化 LLM 与 AI 系统；（2）如何应用 LLM 的共同才干进一步增强 XAI。此外，钻研团队还经过详细的案例剖析说明如何失掉和经常使用大模型的解释。

可用的大模型解释技术

Usable XAI in LLMs

从深度学习兴起至今，XAI 不时遭到关注。人们宿愿经过 XAI 了解模型能否按预期上班，并应用这些解释来设计更好的模型。虽然 XAI 在技术上已有清楚的提高，但如何 有效经常使用 XAI 技术以满足人们的等候还有待探求 。开展「可用的解释性技术」（Usable XAI）有两大阻碍，其一是 AI 智能化和人类介入之间存在抵触，其二是不同技术背景的用户关于解释的需求并不分歧。

针对 LLM 的 Usable XAI 又面临更多新应战：（1）LLM 宏大的参数量关于解释性算法的复杂度提出了限度；（2）LLM 善于于生成式义务而非传统的分类义务，这对传统的解释性算法设计提出新的要求；（3）LLM 宽泛的运行场景也让钻研者在设计和经常使用大模型解释性算法的时刻须要思索品德要素和社会影响。另一方面，LLM 也或许在 XAI 的一些环节中代替人类的作用，从而提高解释性算法的可用性，降落人工老本。

钻研者思索大模型时代下的「Usable XAI」包括两个方面：（1）经常使用 XAI 来增强 LLM 和 AI 系统，（2）经常使用 LLM 来优化 XAI 框架。进一步，钻研者详细讨论了 10 种战略来成功 Usable XAI 技术（见图 1），其中包括 7 种经常使用解释来优化 LLM 的战略，以及 3 种经常使用 LLM 来优化解释性技术的战略。关于某些战略，钻研者提供了案例剖析来强调战略的有效性或局限性。

战略 1：归因解释用于诊断 LLM

归因解释（attribution methods）旨在量化每个输入单词对模型输入的影响。传统上，归因解释分为四种关键方法：基于扰动、基于梯度、基于代理模型和基于模型解耦。在这些方法中，基于梯度的方法依然适用于 LLM。图 2 是一个输入 - 输入词对间的的归因解释热力求，亮度越高代表输入词关于输入词的影响越大。

经过归因解释，能够愈加深化地理解 LLM 的运转机制。因此，论文作者们设计了一套流程，经过归因得分来剖析模型行为（见图 3）。流程开局于指定一个指标 LLM 及其一个输入输入样本对，然后计算输入和输入单词之间的归因影响。因此，可以应用这些量化的归因影响以及人类关于某个义务的先验常识结构特色向量。最后，基于这些特色向量训练一个轻量级的模型用于模型行为的诊断。两个详细的案例钻研进一步展现了如何运行这一战略。

Case Study-1: 经常使用归因解释评价模型回答品质

思索一个机器阅读了解场景，即输入一段文章以及一个疑问，钻研团队宿愿判别剖析模型生成的回答品质。理想状况下，一个高品质的回答应该是依赖于文章中相关的内容失掉的。于是，先经过归因解释抽取模型所依赖的原始文章段落，然后训练一个分类器基于抽取的段落判别回答能否正确。

表 2 的经常使用结果说明，经过归因解释抽取的段落可以有效地判别答案的品质，并且取得了凑近于人工标注的效果，证实了归因解释在验证模型答案品质方面的运行价值。

Case Study-2: 经常使用归因解释检测幻觉回答

LLM 或许会发生理想失误的回答，这种现象称为「幻觉」（hallucination）。一个或许的要素是模型过于关注用户指令而漠视相关实体。例如，「请给我一个关于 Renoit 国王的故事」这个用户恳求，Vicuna 模型会将《三个火枪手》里国王的故事安插给 Renoit 国王。

但是 Renoit 国王是一个虚拟的角色，并不存在相应的故事。在这个例子中，模型太执着于口头指令「请给我一个 xxx 的故事」，却疏忽了指令实体「Renoit 国王」。于是，作者提出经过统计输入指令中不同词性的单词的平均归因解释得分作为特色向量构建出一个幻觉回答检测器。

表 3 的试验结果标明，即使是较小模型（Vicuna/Mistral-7B）发生的归因解释也能有效识别大模型（ChatGPT 3.5）的幻觉回答，证实了这种方法的有效性。

战略 2：外部模块解释用于诊断和优化 LLM

LLM 关键构建于 Transformer 架构之上，其包括自留意机制（Self-Attention）和前馈网络（Feed-Forward Networks）。关于自留意机制，一个基本的解释方法是经过剖析留意力矩阵来了解输入和输入之间单个样本词对的相关。除此以外，近期也有更深化的新技术出现，例如 Transformer Circuits 实践或许将模型权重投影到静态词向量，进而提醒详细权重的行为。这些技术协助钻研者设计出更好、更高效的自留意力结构。

在前馈网络方面，干流上班关键依赖于 key-value memories 实践。最新的钻研努力于减轻由于神经元的多义性（polysemantic）造成的解释性难题，比如引入 PCA 分解或许字典学习的技术。这些解释性算法曾经被尝试运行于模型常识编辑、生成内容控制、和模型剪枝等畛域。

战略 3：基于（训练）样本的解释用于调试 LLM

基于样本的解释方法旨在经过剖析训练样原本解释模型关于特定测试样本的照应。影响函数（Influence Function，IF）是这方面的外围技术之一，它经过评价移除特定训练样本并从新训练模型后，模型对测试样本照应的变动来量化该训练样本的影响力。这种方法不只可以提醒 LLM 的回答依据何种训练文档，还有助于了解 LLM 如何在宽泛常识畛域内启动推行。

虽然影响函数的实践在 LLM 调试中极具后劲，但由于在大型模型上计算 Hessian 矩阵的复杂度，目前还不足实证这一技术在 LLM 上有效性的开源成功。因此，钻研团队提供了一个案例剖析来强调 IF 在 LLM 上的适用性，详细的代码可以在开源 Github 仓库中找到。

Case Study-3: 基于 EK-FAC 近似成功 LLM 影响函数解释

在本案例中，钻研团队驳回 Grosse 等人（2023）提出的 EK-FAC 近似实践来成功 influence function，验证其关于 LLM 的适用性，又选取 SciFact 数据集中的 5183 篇论文摘要作为训练语料，对包括 GPT2-1.5B、LlaMA2-7B、Mistral-7B 和 LlaMA2-13B 在内的一系列大模型启动了进一步预训练。

为了确保模型能记住每个训练文档，每个 LLM 均在该语料库上训练了 2 万步。经过随机选取某个训练文档的前三个句子作为输入，并搜集模型的输入，钻研团队经常使用 IF 预计了每个训练文档关于该输入输入对的关键性，并据此对训练文档启动排序。表 4 报告了对应的原始文档在前 5 或 10 个文档中的召回率，理想状况下，原始训练文档应该排在尽或许前面。

试验结果显示，作者的方法在召回率上清楚优于随机选用战略，这标明 EK-FAC 近似的影响函数关于 LLM 是有效的。幽默的是，虽然模型对这些训练语料适度拟合，召回率仍未到达 100%，暗示了大型言语模型在预测时不只仅依赖繁多样本（或许还包括他们预训练阶段学习到的常识），而是展现出了弱小的泛化才干。

战略 4：应用解释性技术提高 LLM 可信任性和对齐度

相较于之前着重于优化模型性能的战略，本战略专一于如何运用可解释性技术优化模型的可信度（Trustworthiness）和使其与人类价值观对齐（Human Alignment）。随着 LLM 在医疗、金融、法律和教育等关键畛域的宽泛运行，确保这些模型能够遵守人类的品德准绳和安保规范变得尤为关键。

本战略综合了近几年应用可解释性技术来增进言语模型在安保性、隐衷包全、偏心性、有害性及实在性五个维度的钻研成绩。虽然经常使用解释性技术优化模型可信度的方向已遭到局部学界关注，但照旧不足有效的监测与缓解措施。这为开展更先进的 LLM 可解释性技术提出了新的应战和等候。

战略 5：可解释的提醒技术（prompts）用于优化 LLM

不同于传统的机器学习模型，LLM 的一大长处是其关于输入输入方式的高度灵敏性。以情感分类义务为例，传统模型仅能输入一个示意心情偏差的数值，而 LLM 能够提供蕴含理由的文本输入，这种输入方式实质上参与了模型解释行。其中，「思想链提醒」（Chain-of-Thoughts，CoT）技术不只提高了决策环节的透明度，还提高了模型下游义务的性能。这一方法成功催生了更多相似技术，如思想树（Tree-of-Thoughts）和思想图（Graph of Thoughts）。

虽然如此，这个框架的一个关键前提 —— 模型输入的文本真的可以作为其预测的解释 —— 还未阅历证。因此，这篇综述经过案例剖析讨论了 CoT 解释的虔诚性。

Case Study-4: CoT 能否真的提高了 LLM 的可解释性？

作者针对复杂的多跳问答义务启动了案例剖析，这类义务须要整合多个消息源才干处置疑问。例如，征询「中国百米跑第一名来自哪里？」须要结合关于「中国百米跑第一名是谁」和「该人物出世地」的消息。在这种多跳问答场景中，任何一环的失误都或许造成最终答案的失误。

为考察虔诚性，钻研团队选用了包括 2 跳、3 跳和 4 跳疑问各 1000 个的MQUAKE-CF 数据集，以调查 CoT 的虔诚性。详细而言，钻研团队首先搜集模型生成的初始思想链和最终答案，然后故意修正思想链中的消息为失误常识，基于这个失误思想链让模型给出新的最终答案，并宿愿模型发生失误的答案。

试验结果标明，关于新一代的 LLM（如 Vicuna-v1.5, LLaMA2-7B, Falcon-7B, Mistral-v0.1/0.2-7B），它们会拒绝基于失误的思想链做出预测，这象征着还不能确定 CoT 关于这些新模型能否构成有效解释。但是，关于早期的 LLM（如 GPT-2, GPT-J, LLaMA-7B），较大的模型生成的 CoT 在虔诚性方面体现较好，可以被视作有效的预测解释。

战略 6：应用常识增强的提醒技术用于优化 LLM

区别于思想链等提醒技巧，常识增强的提醒依托引入外部常识以提高模型回答的准确性和丰盛度，这种方法通常被称为检索增强生成（Retrieval-Augmented Generation, RAG）。

RAG 技术关键分为两个步骤：首先，经常使用搜查引擎从外部常识库中检索相关消息；接着，将这些检索到的常识整合到提醒中，与 LLM 共同上班。这种方式引入的外部常识对人类来说是可了解的，因此也被视为一种推理阶段的解释性技术。

在本综述中，钻研者粗疏梳理了几种运用 RAG 技术来增强模型性能的运行场景，如缩小幻觉现象、引入最新常识、以及融合特定畛域的专业常识。

战略 7：将解释结果用于数据增强

数据增强是优化机器学习模型性能的一种经典方法，关键在于参与生成数据的多样性和确保这些数据与特定义务严密相关。大型言语模型（LLM）的解释性技术为这一应战提供了新的处置打算。经过解释性技术提醒模型的外部上班机制，不只能够指点数据增强的环节，以便生成与义务更为符合的特色，还能防止模型学习到不当的捷径。

此外，借助 LLM 的高度可控生成才干和先前讨论的解释性技术，可以间接生成具备更高多样性的数据集，从而进一步提高模型的鲁棒性和性能。这种方法不只裁减了数据增强的运行范围，也为优化模型了解才干和处置才干开拓了新路径。

战略 8：应用 LLM 生成用户友好的解释

传统的解释性技术经常依赖于数字结果作为解释的基础，这对个别用户来说并不友好。由于个别用户难以高效地扫视并汇总少量数字消息。关于大局部人而言，了解和汇总少量数字消息是一项应战。相对而言，文本形容方式的解释更能协助人们了解和接受解释性结果，这关于优化解释性技术的适用性和接受度至关关键。综述总结了近年来如何应用 LLM 重构解释性算法的输入，以提高其对用户的友好度的相关上班。

战略 9：应用 LLM 设计可解释的 AI 系统

在 XAI 畛域，设计原理上具备可解释性（intrinsically interpretable）的人工智能模型不时是一个外围指标，目的是基本上参与系统的透明度。传统机器学习中的决策树，以及深度学习中的概念模型（concept bottleneck models）和解耦模型都是可解释性较高的系统示例。

在综述中，钻研团队总结了两种应用 LLM 来辅佐设计可解释 AI 系统的方法：一是应用 LLM 模拟人类专家的角色，为义务定义所需的概念；二是构建由多个 LLM 组成的系统，其中每个 LLM 承当特定的配置，从而优化整个系统的可解释性。

战略 10：应用 LLM 表演人类在 XAI 中的角色

类在开发可解释性 AI 模型的环节中表演着关键角色，包括采集有人类标注的数据集启动模型训练，以及评价模型生成的解释。但是，人类介入的环节往往消耗少量的期间和金钱，限度了 XAI 的开展规模。

综述中讨论了如何应用 LLM 模拟人类才干以缓解这一疑问的或许性。相关钻研指出，经过整合基于被动学习的数据标注战略，LLM 可以在坚持数据品质的同时，模拟人类标注者的角色，为采集高品质的人类标注数据集提供辅佐。

未来展望

原文链接:

<<清华大学揭发RAG的双面性片面剖析提醒大模型中RAG噪声的作用

影眸联结提出DressCode 上科大从文本生成3D服装板片>>

XAI有什么用 探求LLM时代应用可解释性的10种战略

可用的大模型解释技术

您可能还会对下面的文章感兴趣：

随便看看

XAI有什么用探求LLM时代应用可解释性的10种战略