Mistral 谷歌&amp 具有空间看法的文本 AI颁布TIPS

2024-11-14

文章链接：

亮点直击

具有空间看法的文本图像预训练。TIPS是一种通用的图像-文本编码器模型，可无成效于密集和全局了解，用于纯视觉或视觉言语义务，全体运行流程见下图：

总结速览

处置的疑问

现有的图像-文本示意学习模型理论不足空间看法，难以间接用于密集了解义务（例如深度预计、语义宰割）。因此，许多密集视觉义务依然依赖于图像的自监视预训练方法，虽然不足明白的监视信号。

提出的打算

提出了一种陈腐的通用图像-文本模型，称为 TIPS（Text-Image Pretraining with Spatial awareness） ，经过参与空间看法来优化图像-文本学习的成果，使其能够在密集和全局视觉义务中间接运行。

运行的技术

到达的成果

基于上述战略，构建了基于Transformer的模型，经常使用公共图像数据集启动训练，试验证实该模型在8项义务和16个数据集上体现优秀，具有弱小的密集和全局了解的即插即用才干，并实用于多种图像-文本及仅图像的义务。

本文的目的是创立一个通用的图像示意模型，具有文本对齐配置，可即插即用地运行于密集和全局视觉义务。虽然图像-文本对比技术能够有效地建模全局图像消息，但在密集了解义务中体现欠佳，而自监视模型目前在这些义务中体现更优。为补偿这一差距，本文提出了具有空间感知的图像-文本预训练方法（TIPS），如下图2所示，经过火解图像形容增强弱监视，以及自监视掩码建模，清楚提高了图像特色品质，实用于密集和全局了解。

经常使用分解图像形容增强弱监视

经常使用大规模网络数据启动规范图像-文本学习的一个限度在于形容品质，这些形容往往噪声较大，或者不可准确形容图像。如下图3（上）所示，“for sale dealership $30k”这一文本未形容图像内容。虽然这或者会影响模型学习，但形容仍捕捉到了关键物体。

但是观察到的一个更深层疑问是，这些形容理论仅提到清楚的物体，而未形容其在场景中的规划。换句话说，这些形容理论作为噪声的图像级监视，理论对学习具有空间感知的示意用途不大。这促使钻研分解形容的智能生成，其可作为密集义务的有效预训练弱监视。

融合自蒸馏和掩码以增强图像特色

探讨。本文的方法基于弱监视和自监视学习的示意学习理念。据所知，这是初次将对比图文学习与自蒸馏和掩码图像建模结合，展现出在多个义务上的改良，标明这些目的间存在踊跃的协同作用。最凑近的方法是 SILC，它将 CLIP 与自蒸馏结合。但是，照试验消融显示，参与掩码图像损失在密集义务中的体现清楚优化，关于下游运行至关关键。指出与先前方法的一些关键区别。由于经常使用 CLIP 损失，自监视组件可以简化，相比 DINO和 iBOT的原始方式。一大区别是经常使用繁多全局“裁剪”，而非 DINO、iBOT 和 SILC 中的双裁剪，优化了25%的处置效率。此外，与许多自监视方法不同，经常使用相对便捷的数据增强：部分裁剪只是原始图像的随机裁剪，全局裁剪是更大的随机裁剪并水平翻转。这与 Assran 等 (2023); Moutakanni 等 (2024) 的观念相似，即复杂的增强或者关于示意学习并非必要。最后，本文的掩码方法为随机掩码，而非 iBOT 中的块状掩码。

裁减 TIPS

本文的目的是创立一个高度通用的模型，因此关键是将其裁减到大模型架构和大规模训练数据集，以取得增强的图像示意。

模型。ViT 架构已证实在多个义务中可裁减到十亿级参数的模型。将 TIPS 模型裁减至 ViT-g 架构，驳回14的补丁大小，并经常使用 SwiGLU前馈网络变体。相似于 Oquab 等，将嵌入维度调整为1536，并设置24个头。这样，使得图像编码器与 DINOv2-g 间接可比，总参数量达1.1B。在文本侧，将 transformer 裁减到12层，具有与图像编码器相反的嵌入维度和头数。

数据集 。应用了 WebLI 数据集，这是一个蕴含公共图像及其 alt 文本的大规模、噪声较大的网络数据集，总共蕴含 100 亿对图文样本。经过多轮过滤来优化数据集品质，从而更适宜模型训练，相似于先前在言语和视觉畛域的钻研。首先，依据预训练对齐模型计算的图文相似度，对图文对启动内容过滤，摈弃那些相似度低的样本，相似于 Schuhmann et al. 。而后，挑选仅蕴含英文形容的样本。这两个步骤获取一个蕴含 17 亿张图像的数据集。最后，参考先前钻研的方法，经常使用预训练模型计算图像嵌入，从经过筹划的数据集当选用足够相似的图像。还删除了在评价数据集中发生的近重复图像。该环节最终生成了一个蕴含 1.16 亿对图文样本的关键预训练数据集。

试验

试验设置

评价数据集与协定 。本文的模型在蕴含 16 个数据集的 8 项义务上启动评价，包括仅图像义务和图文义务。在各种条件下片面评价所学习的示意的品质，涵盖室内/室外场景和以物体为中心的图像。在一切评价中，坚持图文示意解冻，以评价其作为即用型特色提取器的实用性。评价了 3 项密集预测义务、2 项全局图像了解义务和 3 项多模态检索义务。

语义宰割 是在 PASCAL和 ADE20k数据集上经常使用平均交并比（mIoU）评价的密集义务。经常使用相似于 (Oquab et al., 2024) 的便捷线性探测设置，从空间特色中预测类别。

单目深度预计 旨在预测图像中每个像素的深度值。在场景中心的 NYUv2和以物体为中心的 NAVI数据集上对深度预计启动基准测试，经常使用 RMSE 作为评价目的。关于 NYUv2，经常使用相似于 (Oquab et al., 2024) 的线性探测设置，将补丁标志与全局嵌入衔接，而后线性分类器在 256 个量化深度值中启动预测。关于 NAVI，遵照 (El Banani et al., 2024) 并经常使用 DPT解码器。

外表法线预计 是密集预测每个像素的 3D 外表法线方向的义务，也在 NYUv2 和 NAVI 数据集上启动评价。经常使用 (El Banani et al., 2024) 的设置并报告角度 RMSE。

图像分类 在 ImageNet-1K 数据集上启动评价，经常使用 K 最近邻（KNN）和线性探测法基于学习的特色启动评价，并报告 top-1 准确率。

细粒度和实例级检索 经常使用 Universal Embeddings>

图像到文本（I→T）检索 经常使用 Flickr30K、DOCCI和 COCO数据集启动评价，报告 R@1 目的。

文本到图像（T→I）检索 雷同经常使用 Flickr30K、DOCCI 和 COCO 数据集，经常使用 R@1 目的。

zero-shot 分类在 ImageNet-1K 上启动，经过检索与每个测试图像嵌入最凑近的类文本嵌入，遵照（Radford et al., 2021），并经常使用 top-1 准确率。经常使用一组筹划数据集中的图像作为查问，在少量网页图像中启动开掘。遵照 DINOv2驳回的步骤，经常使用一些评价数据集的训练集作为筹划查问，细节在附录中提供。这造成了一个蕴含 1.16 亿对图像-文本的基于网页的训练数据集。此外，关于裁减的 ViT-g 试验，将 Mapillary SLS 数据集的训练集变动无穷地参与到训练集中，以补偿网页图像中不足街景图像，并且在没有任何替代文本的状况下，经常使用生成的分解形容来训练两个 CLS token。这使训练集中的图像总数参与到 1.17 亿。DINOv2 对其 LVD-142M 数据集也启动了相似的处置。

成功细节 。关于一切模型，经常使用 1 个全局裁剪，分辨率为 224，和 M = 6 个部分裁剪，分辨率为 98。以批量大小 16k 训练 ViT-B 模型 70 轮，这在 256 个 TPUv3 芯片上耗时 4 天。关于更大的 ViT-g 模型，以批量大小 16k 训练 15 轮，这在 512 个 TPUv5 芯片上耗时 2 天，结果是低分辨率模型（TIPS-g/14 LR）。关于高分辨率变体（TIPS-g/14 HR），参与了一个额外的微调阶段，经常使用分辨率为 448 的全局裁剪和分辨率为 140 的部分裁剪，运转 0.1 轮，批量大小为 4k。仅经常使用随机调整大小的裁剪和水平翻转作为图像增强。

形容生成模型 。应用最近的 PaliGemma模型启动图像形容生成。经常使用在 COCO 上微调的版本，224 像素版本用于外围预训练运转，448 像素版本用于短期高分辨率微调阶段。

比拟技术 。提供少量与最近上班的比拟。关于每个现有模型家族，与最大的实例启动比拟，直到 ViT 大小为“g”或“G”，图像编码器中的参数约为 18 亿或更少。本文的方法与一系列方法启动了基准测试，包括自监视、弱监视和监视文献。一切方法均经常使用现成的、解冻的权重启动偏心比拟。作为自监视方法，与 DINO、MAE、iBOT和 DINOv2启动了比拟。作为弱监视方法，与 CLIP、OpenCLIP、SigLIP、SILC和 EVA-CLIP启动了比拟。作为监视方法，基准测试了在 JFT-3B 上训练的 ViT-g，正如（Zhai et al., 2022）所述。

结果

消融试验 。在 5 个不同义务上展现了消融试验（见下表 1），以孤立增强文本监视和新损失的成果，其中经常使用了 ViT-B 主干网。基线 CLIP 模型的噪声网页形容出现于（A）。表的部分（B）消融了增强文本监视的奉献。仅仅用 PaliGemma 生成的形容交流网页形容就提高了 10.1 个百分点的宰割精度，并缩小了 0.076 的深度 RMSE，这都是渺小的正收益。这显示了分解形容在经常使用图像-文本模型启动密集了解中的后劲。但是，同时，环球义务显示出清楚的进化，KNN 分类损失缩小了 6.9 分。但经过结合网页和分解形容，CLIP 性能可以在一切义务中提高：经常使用双嵌入方法，在各个畛域成功了渺小的收益。还将双重方法与 Fan et al.（2023）提出的其余两种形容组合选项启动比拟：“采样”，其中随机选用网页或分解形容；或“多文本”，其中两个形容区分与相反的图像嵌入婚配。双重方法在 5 个案例中有 3 个体现优于其余形容组合，并在其余 2 个案例中到达竞争性结果，这标明其有效性。

部分（C）消融了自监视损失的成果，经常使用网页形容。自蒸馏的参与在一切义务中带来了改善。这是一个相似于 SILC的设置：确认了它们在 I→T 和 T→I 检索中的发现，并且还标明自蒸馏损失对仅图像义务（尤其是密集义务）是有效的。经过额外的掩蔽图像建模（MIM）损失，密集义务中观察到了清楚改善，而在其余义务中坚持了高分数：宰割精度提高了 5.6 分，深度 RMSE 降落了 0.078。

部分（D）结合了（B）和（C）的发现，为基线 CLIP 设置提供了十分清楚的改良，在一切义务中，特意是在宰割中提高了 14.6 分，深度 RMSE 缩小了 0.142，I→T 检索提高了 10.1 分，T→I 检索提高了 14.4 分。

与现有通用方法的比拟在下表 2 和表 3 中提供，触及仅图像或图像和文本的义务，其中 TIPS 的结果在高分辨率微调前（“LR”）和后（“HR”）提供。总体而言，TIPS 成功了微弱的结果，在宽泛的义务中体现出竞争力，在 16 个报告的评价中，有 13 项到达了最佳或第二最佳的结果。与现有的图像-文本方法相比，TIPS 在 I→T 和 T→I 检索上有所改善，同时在密集预测义务中也取得了实质性的收益，在某些状况下到达了 DINOv2 的水平并超越了它。幽默的是，虽然最近的图像-文本模型在多模态检索或zero-shot 分类中取得了优秀的结果，但这些收益并没有转化为密集了解的改良，其性能清楚落后于 TIPS 和自监视方法。特意是，即使 CLIP-L 在图像级预测义务上的体现较差，但在一切 6 个密集评价中都逾越了最近的 SigLIP-SO。另一种最近且规模更大的经过对比学习训练的图像模型 InternViT-6B在 ADE20k 上的得分为 47.2%，远低于本文的11 亿 TIPS-g 模型。在监视方法方面，在 JFT-3B 上训练的 ViT-g 在密集义务上的体现也不如 CLIP-L。甚至更大的 ViT-22B，也在 JFT 上训练，在相反设置下的 ADE20k 上仅取得 34.6% 的得分，如 Chen et al.（2024）所报告。与自监视技术相比，TIPS 成功了微弱的结果，在大少数状况下与 DINOv2 的数字相当，并在宰割和检索方面清楚逾越它，同时成功了自监视方法独自不可口头的多模态义务。下图 4 展现了密集特色探针的定性示例。

运行：单图像到三维。现代大型重建模型依赖高品质的预训练图像编码器，以发生图像标志供编码器/解码器Transformer经常使用。例如，LRM依据单个输入图像的图像特色预测神经渲染模型的参数。作者选用基于 ViT 的 DINO 编码器，而不是更具语义看法的编码器（如 CLIP），由于 DINO 编码器把握了启动三维义务所需的结构和纹理消息。

为了更好地理解本文模型在神经三维重建方面的才干，在 LRM 框架中评价 TIPS 的性能，并将 DINO-B/16 与等同规模的 TIPS-B/14 启动比拟。选用经常使用 DINO-B/16，以遵照原始论文的成功。单图像到三维的结果在 Objaverse 数据集中展如今下表 4 中，结果标明 TIPS 作为大型重建模型的图像编码器优于 DINO，具有增强的新视图分解才干（PSNR 参与 0.62）。

论断

TIPS（具有空间看法的文本-图像预训练），这是一种新的通用图像-文本编码器。TIPS 可以成功地运行于各种计算机视觉义务，成功密集和图像级预测，应用两个便捷有效的奉献。首先，应用现有的多模态生成模型生成高品质的分解图像形容，这些形容用于改善对比学习并优化在密集图像预测上的性能。本文提出了一种双嵌入方法，以应用分解和噪声网页形容，从而在宽泛的义务中取得收益。其次，将对比图像-文本学习与自蒸馏和掩蔽图像建模相结合，处罚模型学习空间感知的示意。这两个奉献是互补的，能够有效地将模型裁减到在 1.17 亿图像的精心筹划数据集上训练的 ViT-g 架构。片面试验在包括 16 个数据集的 8 项义务上展现了弱小的现成结果，使触及仅图像或图像和文本的各种计算机视觉运行成为或者。

原文链接:

<<国际首个中文原生DiT架构SOTA大模型片面开源！

Midjourney 摄影级画面秒生成 V6.1再退化！人像真切细节拉满>>