mPLUG

2024-11-14

OCR-Free多页文档了解的应战与停顿

在现代消息时代，多页文档的智能了解和处置变得尤为关键。这些文档或者包括书籍、报告、学术论文等，它们理论蕴含少量的文本、图表和其余视觉元素。传统的文档了解方法依赖于光学字符识别（OCR）技术将图像转换为文本数据。但是，OCR环节不只耗时，而且在处置高分辨率或多页文档时，容易发生失误，尤其是在文档格局复杂或字体多样的状况下。

随着深度学习技术的开展，OCR-Free的文档了解方法逐渐遭到关注。这类方法间接从文档图像中提敞开息，无需转换为文本格局，从而防止了OCR环节中或者发生的失误。但是，这种方法面临的关键应战之一是如何有效处置和了解高分辨率的多页文档图像。高分辨率图像理论象征着更多的视觉消息和更大的数据量，这对计算资源（如GPU内存）和处置速度提出了更高的要求。

为了应答这些应战，钻研人员提出了多种战略。一种有效的战略是开发高分辨率文档紧缩模块，该模块能够将每个高分辨率文档图像紧缩成更少的视觉标志（tokens），同时保管规划和大局部文本消息。例如，mPLUG-DocOwl2模型驳回了一种高分辨率文档紧缩器，经过跨留意力机制，以全局低分辨率视觉特色为指点，将文档图像紧缩成324个视觉标志。这种方法不只清楚缩小了GPU内存的经常使用和推理期间，而且在多页文档了解基准测试中设定了新的最高规范。

此外，为了进一步优化模型的多页文档了解才干，钻研人员还开发了三阶段训练框架，包括单图像预训练、多图像延续预训练和多义务微调。这种训练战略有助于模型在处置单页和多页文档时都能到达较高的功能，同时坚持较高的标志效率和疑问回答功能的平衡。

总之，OCR-Free多页文档了解技术的开展为智能文档处置畛域带来了新的停顿。经过高效的图像紧缩技术和精细的训练战略，现代模型能够在坚持高效率的同时，提供准确的文档内容了解，这关于消息检索、内容治理等运行场景具备关键意义。

论文概览

1. 题目 MPLUG-DOCOWL2: HIGH-RESOLUTION COMPRESSING FOR OCR-FREE MULTI-PAGE DOCUMENT UNDERSTANDING

2. 作者 Anwen Hu1, Haiyang Xu1*, Ji Zhang1, Qin Jin2, Liang Zhang2, Fei Huang1, Jiabo Ye1, Jingren Zhou1, Ming Yan1*

3. 机构

4. 链接

高分辨率文档图像的应战

在处置高分辨率文档图像时，多模态大型言语模型（MLLMs）面临着一系列应战。随着文档图像分辨率的提高，模型须要生成数千个视觉令牌来了解繁多文档图像，这不只参与了GPU内存的消耗，也造成了推理速度的降落，特意是在多页文档了解的场景中。

1. 视觉令牌的过多生成

高分辨率图像处置理论会发生少量的视觉令牌。例如，InternVL 2模型在单页文档了解基准测试中平均须要约3000个视觉令牌。这种少量的视觉令牌不只造生长期间的推理提前，还占用了少量的GPU内存，从而限度了模型在完整文档或视频了解方面的运行。

2. 紧缩视觉特色的应战

为了处置视觉令牌过多的疑问，钻研者们尝试了多种紧缩方法。但是，现有的紧缩架构往往难以在保管消息和提高令牌效率之间取得平衡。例如，独立紧缩文档图像的每个局部可以缩小每个子图像的视觉令牌数量，但在一切子图像衔接后，总的视觉令牌数量依然很长。此外，经常使用可学习的查问或选定的令牌作为紧缩指点或者会疏忽全体规划消息，这关于文档图像的视觉特色紧缩至关关键。

3. 规划感知的紧缩架构

为了更有效地紧缩文档图像中的视觉特色，本钻研提出了一种规划感知的紧缩架构——高分辨率DocCompressor。这种架构应用全局低分辨率图像的视觉特色作为紧缩指点，经过交叉留意力机制将高分辨率文档图像紧缩为更少的令牌，同时保管了规划和大局部文本消息。详细来说，每个来自全局特色图的查问在留意力机制中只关注原始高分辨率图像中相对位置相反的一组高分辨率特色，从而在紧缩环节中缩小计算复杂性并保管关键的文本语义。

经过这种方法，咱们的模型DocOwl2在多页文档了解基准测试中设定了新的最高规范，并且在首个令牌提后方面成功了超越50%的缩小，展现了在多页问答、证据页解释和跨页结构了解方面的先进才干。此外，与在相似数据上训练的单图像MLLMs相比，DocOwl2在经常使用的视觉令牌数量上缩小了超越80%，同时坚持了可比的单页文档了解功能。

DocOwl2模型架构解析

DocOwl2模型是为了处置多页文档了解中的应战而设计的，特意是在处置高分辨率文档图像时，传统的多模态大型言语模型（MLLMs）往往须要生成少量的视觉令牌，这不只消耗少量GPU内存，还会造成推理速度变慢。为了优化这一环节，DocOwl2驳回了一种高效的紧缩模块，即高分辨率DocCompressor，以及一个三阶段的训练框架，包括单图像预训练、多图像延续预训练和多义务微调。

1. 高分辨率DocCompressor紧缩模块

高分辨率DocCompressor是DocOwl2中的外围组件，它能够将每个高分辨率文档图像紧缩成324个令牌。这一紧缩是经过低分辨率的全局视觉特色来疏导的，这些全局视觉特色能够捕捉到文档的全体规划消息。详细来说，DocCompressor经常使用跨留意力机制，将高分辨率特色映射到较少的令牌上，同时保管规划和大局部文本消息。

2. 三阶段训练框架

为了充散施展DocOwl2模型在多页文档了解上的才干，开发团队设计了一个三阶段的训练框架：

经过这种方法，DocOwl2不只清楚提高了处置速度，缩小了GPU内存的经常使用，还在多页文档了解基准测试中到达了新的最佳功能。此外，与相似数据训练的单图像MLLMs相比，DocOwl2在单页了解功能上也体现杰出，但经常使用的视觉令牌数量不到20%。

试验设计与基准测试

在启动多页文档了解的钻研中，咱们设计了一种高分辨率文档紧缩模块（High-resolution DocCompressor），旨在经过低分辨率全局视觉特色的疏导，将每个高分辨率文档图像紧缩为324个视觉标志。这种方法不只提高了处置速度，而且清楚缩小了GPU内存的经常使用。

1. 紧缩模块的设计

咱们提出的高分辨率DocCompressor模块基于交叉留意力机制，应用全局低分辨率图像捕捉的规划消息作为紧缩指点。这种规划感知的紧缩关于文档图像十分关键，由于文档中的文本理论在规划区域内语义连接，更易于概括。例如，在一个双栏的论文中，属于“关系上班”局部的文本与同一行但属于“方法”局部的文本难以概括在一同。

2. 训练框架

为了充沛应用这种紧缩方法，咱们开发了DocOwl2模型，并在三阶段训练框架下启动训练：单图像预训练、多图像延续预训练和多义务微调。这种训练战略旨在平衡标志效率和问答功能，从而增强多页文档了解才干。

3. 基准测试

咱们在单页和多页文档了解基准测试中对DocOwl2启动了测试。结果显示，DocOwl2在多页文档了解义务中设定了新的最先进水平，并且在首个标志提后方面成功了超越50%的缩小，证实了其在多页问答、带证据页的解释以及跨页结构了解方面的先进才干。此外，与在相似数据上训练的单图像MLLMs相比，咱们的DocOwl2在单页了解功能上具备可比性，但视觉标志数量缩小了80%以上。

经过这些试验和基准测试，咱们验证了高分辨率DocCompressor在紧缩视觉特色和坚持文档图像文本语义方面的有效性，以及三阶段训练框架在优化单页和多页文档了解功能方面的长处。

模型功能剖析与探讨

1. 功能概述

DocOwl2模型在多页文档了解方面设定了新的行业规范。经过引入高分辨率DocCompressor模块，该模型能够将每个高分辨率文档图像紧缩为324个视觉令牌，同时保管了规划和大局部文本消息。这种紧缩清楚提高了模型在多页文档了解义务中的效率，缩小了首个令牌的提后期间超越50%，并且与单页文档了解功能相当，仅经常使用不到20%的视觉令牌。

2. 功能对比

与其余多模态大型言语模型（MLLMs）相比，DocOwl2在单页和多页文档了解基准测试中均展现出优越功能。尤其是在处置高分辨率图像时，DocOwl2经过有效缩小视觉令牌的数量，能够在坚持高功能的同时，清楚缩小GPU内存的经常使用和推理期间。例如，在DocVQA基准测试中，DocOwl2的体现与经常使用更多视觉令牌的模型相当，但其首个令牌提前（First Token Latency）清楚更低。

3. 训练与优化

DocOwl2的训练环节包括单图像预训练、多图像延续预训练和多义务微调三个阶段。这种三阶段训练框架的设计旨在平衡令牌效率和疑问回答功能。经过在多图像了解义务中引入结构感知的多页文档解析数据集，模型能够更好地理解和关联多个图像之间的内容，从而提高了在复杂文档了解义务中的体现。

4. 运行场景与前景

DocOwl2模型不只在学术界惹起了注重，其在工业界的运行前景也十分宽泛。从法律文件的智能解析到医疗记载的消息提取，再到资讯视频的内容了解，DocOwl2的高效、准确的多页文档了解才干都是极具价值的。此外，模型的开源性质也为广阔钻研人员和开发者提供了进一步探求和优化的或者。

经过这些详细的功能剖析和探讨，咱们可以看到DocOwl2模型在OCR-free多页文档了解畛域的关键停顿和后劲。未来的钻研可以进一步探求如何优化模型结构和训练战略，以顺应更多样化的运行场景。

本文转载自，作者：

<<咱们距离GPT

时序预测Decoder中的期间步依赖疑问>>