一文读懂 从RAG到多模态RAG
什么是RAG
什么是RAG: Retrieval Augmented Generation,检索增强生成。是一种联合了消息检索技术和大型言语模型揭示配置的框架。它经过从数据源检索消息来辅佐LLM生成答案,提高了模型在常识密集型义务中的准确性和可信度。
咱们为什么须要RAG: 大型言语模型通常基于固定的历史数据集启动训练,这象征着它们的常识是过期的,无法涵盖最新的消息或特定畛域的专业常识。RAG的目标是经过引入额外常识库,检索其中的关系消息,并依据检索结果给予用户回答。这也可以清楚缩小大模型由于并不具有关系常识,而发生的“幻觉”现象。当然咱们也可以间接把整个数据库作为LLM的prompt输入,但由于transformer架构O(N2)复杂度的限度,LLM支持的最长输入长度通常有限,少数支持到128k token曾经是极限,使得在面临更长常识库输入时,RAG依然是当下惟一可行的处置打算。
如何成功RAG: 在实践运行时,咱们常须要给定一系列文档,并经常使用RAG方法,让LLM针对这些文档启动检索与交互。RAG的成功关键蕴含以下几个步骤:
走向多模态RAG
从RAG的运行可以看出,少数时刻,咱们须要把一些文档作为RAG的输入,用于检索和生成。而事实运行中,文档通常是以图文交织的方式存在的,比如网页、PDF、PPT文件等等。
通常的做法是,只保管文档中的文本消息。关于PDF文档,则启动OCR文字识别,读取其中的文本。但这样会造成少量图片中至关关键的消息被失落,以及很多结构化内容的杂乱,比如题目、表格、页眉页脚等格局杂乱。
改良的做法是,把一切模态消息都转换为纯文本,再启动RAG。咱们可以经常使用多种计算机视觉模型,比如检测模型对文档结构启动识别,而后对文档中不同的模块,经常使用不同的“狭义OCR模型”启动解析。比如关于文本段落,经常使用OCR模型启动文本识别;关于表格,可以用表格模型启动识别转换为Markdown或LaTeX文本;关于公式,则套用公式识别转换为LaTeX;关于图片,则可经常使用多模态大模型如GPT-4o启动文本解读(caption),保管为文本形容。有很多开源的工具可以成功这些事件,比如MinerU等。经过解析算法,多模态数据就被齐全转换为纯文本的格局了,也就可以照葫芦画瓢套用纯文本的RAG方法了。
咱们留意到,经常使用上述的方法,消息无法防止会存在失落,而且依赖过多的解析模型。而期间到来2024年,多模态大模型成功了迸发式的技术打破,高分辨率的视觉输入曾经取得了渺小打破,经常使用繁多的多模态大模型做狭义OCR也变得十分容易。比如QWen2-VL以及InternVL-2等开源多模态大模型,在文档的狭义OCR上都有十分好的成果。
多模态大模型成功,让端到端(end-to-end)的算法曾经成为了干流。原生多模态的RAG算法也成为了或者:既然多模态大模型有才干了解文本,那咱们其实即无需再把图像转换为文本,而可以间接经常使用图像,提取embedding去做RAG。
即从图(a)转变为图(b)的形式
DSE,即Document Screenshot Embedding,是一个不经常使用狭义OCR的多模态RAG方法,间接把原始文档的扫描图片,切片后,经常使用视觉言语模型的编码器编码。其对query和docunment经常使用了双编码的架构。验证了这一想法的可行性。
ColPali架构也是应用视觉言语模型来从文档页面的图像中发生高品质的高低文明嵌入。ColPali经常使用了提前交互(late interaction)技术,大大提高了检索效率,同时在检索性能上逾越了现有的文档检索系统,并且具有更快的处置速度和可端到端训练的特点。上图对比了传统的文档RAG与多模态RAG的区别。由于缩小了狭义OCR的解析环节,使得处置速度也有了质的优化。
提前交互编码联合了双编码器和交叉编码器的好处。在这种架构中,query和文档被区分编码成独立的embedding汇合,而后经过一个高效的交互机制来计算它们之间的相似度。
提前交互编码的外围理想是将查问和文档的编码环节离开,这样文档的编码可以离线成功,而查问的编码则在在线阶段启动。这种方法的好处是可以在查问时仅对查问启动编码,从而大大提高了处置速度。此外,由于文档的编码是预先成功的,可以将其存储在数据库中,这样就可以对更多的文档启动排序,从而提高查问的精度。
在提前交互编码中,一个关键的计算是最大相似性(MaxSim)函数,它计算每个查问Token向量与一切文档Token向量之间的相似度,并跟踪每个查问Token的最大得分。查问和文档的总相似度分数是这些最大余弦相似度分数的总和。这种方法准许模型在坚持较高排序品质的同时,也具有较高的性能。
随着多模态大言语模型才干的增强,以它为基础的多模态RAG,也早已打破了传统的图像检索的运行方式,而是真正具有大规模非结构化多模态数据深度了解的才干,将会有更多toB的商业运行价值。
原文链接: