缩小多模态模型幻觉对比调优谷歌经过数据增强

2024-11-15

随着Gemini、GPT-4o等模型的产生，具有看、听、说的多模态大模型成为了新的干流。因为训练数据复杂、模型架构过于复杂，在生成、识别内容时很容易产生失误形容也称为“幻觉”，例如，当看到一张蕴含刀、叉和勺子的餐具图片时，模型会失误地形容为牙签。

为了处置这个难题，谷歌DeepMind、谷歌云AI钻研、向量钻研所和皇后大学的钻研人员经过数据增强和对比调优的方法开发了HALVA模型。

论文地址：

HALVA的外围现实是经过对比学习，来提高模型对实在和幻觉对象的辨别才干 。这种方法应用正确的对象形容和对应的幻觉形容来训练多模态模型，疏导模型识别和生成与输入图像愈加分歧的形容。

首先， HALVA接纳来自生成数据增强模块的输入，这些输入包括正确形容和幻觉化形容的对 。这些成对的数据点是经过对原始图像启动智能的数据增强生成的，其中包括交流图像中的对象汇合，引入了不存在的共现概念。例如，一个原本蕴含水果篮的图像或者会被增强为蕴含一个虚拟的魔法球。

而后， HALVA将视觉-言语输入对送入预训练的多模态模型中。这些输入包括图像特色和相关的言语形容 。多模态模型会对每个输入计算输入序列的概率散布，生成两组概率：一组对应于正确的形容，另一组对应幻觉失误的形容。

HALVA定义了一个对比损失函数，该函数基于正确形容和幻觉化形容的相对概率。损失函数的目的是最大化正确形容的概率，同时最小化幻觉化形容的概率。经过反向流传和梯度降低，模块优化损失函数，调整模型参数以缩小幻觉形容的生成。

为了保障模型在调整环节中不会偏离其原始的预训练形态，对比调整模块引入了KL散度作为正则化项。这一步骤确保了模型在减轻幻觉化疑问的同时，坚持了其在普通视觉-言语义务上的功能。

在整个对比调整环节是端到端的，从输入的视觉-言语对到输入的损失函数，整个环节是连接的，准许模型在训练环节中学习如何更好地域分实在和幻觉对象。

训练数据方面，HALVA是基于VG提供了丰盛的视觉消息和言语形容，蕴含108K张图像及其具体注释的对象中心图像数据集。正确数据形容是Gemini Vision Pro经过 VG 数据集生成。

幻觉形容则比拟费事一些，经过VG的敞开和开明两个数据集 ，敞开集是基于 VG 数据集中对象的已知共现相关来生成的，而开明集则是经过间接揭示大言语模型来生成与原始对象共现的新对象。在生成了正确形容和幻觉形容的样本对之后，用于训练HALVA模型。

钻研人员在CHAIR、MME - Hall、AMBER和 MMHal – Bench等平台中对HALVA启动了综合评价。结果显示，HALVA在缩小模型幻觉方面十分杰出，同时在普通视觉-言语义务上也体现出了良好的功能。

例如，在AMBER数据集上，HALVA在幻觉率目的上显著优于基础模型LLaVA-v1.5；在MMHal – Bench测试中，HALVA比基于RLHF、SFT 或 DPO的方法更有效地缓解了模型的幻觉疑问。

原文链接:

<<2024年AIGC 教育行业报告

缩小多模态模型幻觉 对比调优 谷歌经过数据增强