Transformer在计算机视觉畛域走到哪了

2024-11-14

Transformer 模型在人造言语处置（NLP）畛域未然成为一个新范式，如今越来越多的钻研在尝试将 Transformer 模型弱小的建模才干运行到计算机视觉（CV）畛域。那么未来，Transformer 会不会似乎在 NLP 畛域的运行一样改造 CV 畛域？今后的钻研思绪又有哪些？微软亚洲钻研院多媒体搜查与开掘组的钻研员们基于 Vision Transformer 模型在图像和视频了解畛域的最新上班，或者会带给你一些新的了解。

作为一个由自留意力机制组成的网络结构，Transformer一“出场”就以弱小的缩放性、学习长距离的依赖等长处，代替卷积神经网络（CNN）、循环神经网络（RNN）等网络结构，“席卷”了人造言语处置（NLP）畛域的了解、生成义务。

但是，Transformer 并未止步于此，2020年，Transformer 模型初次被运行到了图像分类义务中并获取了比 CNN 模型更好的结果。尔后，不少钻研都开局尝试将 Transformer 模型弱小的建模才干运行到计算机视觉畛域。目前，Transformer 曾经在三大图像疑问上——分类、检测和宰割，都取得了不错的效果。视觉与言语预训练、图像超分、视频修复和视频目的追踪等义务也正在成为 Transformer “跨界”的抢手方向，在 Transformer 结构基础上启动运行和设计，也都取得了不错的效果。

Transformer“跨界”图像义务

最近几年，随着基于 Transformer 的预训练模型在 NLP 畛域不时展现出惊人的才干，越来越多的上班将 Transformer 引入到了图像以及相关的跨模态畛域，Transformer 的自留意力机制以其畛域有关性和高效的计算，极大地推进了图像相关义务的开展。

端到端的视觉和言语跨模态预训练模型

视觉-言语预训练义务属于图像畛域，其目的是应用大规模图片和言语对应的数据集，经过设计预训练义务学习愈加鲁棒且具备代表性的跨模态特色，从而提上下游视觉-言语义务的性能。

现有的视觉-言语预训练上班大都沿用传统视觉-言语义务的视觉特色表示，即基于目的检测网络离线抽取的区域视觉特色，将钻研重点放到了视觉-言语（vision-language，VL）的特色融合以及预训练上，却疏忽了视觉特色的优化关于跨模态模型的关键性。这种传统的视觉特色关于 VL 义务的学习关键有两点疑问：

1）视觉特色受限于原本视觉检测义务的目的类别

2）疏忽了非目的区域中关于上下文了解的关键消息

为了在VL模型中优化视觉特色，微软亚洲钻研院多媒体搜查与开掘组的钻研员们提出了一种端到端的 VL 预训练网络 SOHO，为 VL 训练模型提供了一条全新的探求门路。该上班的相关论文“Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language Representation Learning”已收录于CVPR 2021 Oral。

论文链接：

GitHub地址：

SOHO 模型的关键思绪是：将视觉编码器整合到 VL 的训练网络中，依托 VL 预训练义务优化整个网络，从而简化训练流程，缓解依赖人工标注数据的疑问，同时使得视觉编码器能够在 VL 预训练义务的指点下在线降级，提供更好的视觉表征。

阅历证，SOHO 模型不只降低了对人工标注数据的需求，而且在下游多个视觉-言语义务（包含视觉问答、图片言语检索、人造言语图像推理等）的偏心比拟下，都取得了 SOTA 的效果。

图1：端到端的视觉言语预训练网络 SOHO

如图1所示，SOHO 由三局部组成：1）基于卷积网络的视觉编码器（可在线降级）；2）基于视觉字典（Visual Dictionary）的视觉嵌入层；3）由多层 Transformer 组成的 VL 融合网络。三个局部“各司其职”，卷积网络担任将一张图像表征为一组向量，而后应用视觉字典对图像中相近的特色向量启动表征，最后应用 Transformer 组成的网络将基于字典嵌入的视觉特色与文本特色融合到一同。

关于视觉编码器，钻研员们驳回了 ResNet-101 作为基础网络结构对输入图像启动编码，与基于目的检测模型的图像编码器相比，这种模式的好处是：可以简化操作。为了将图像中相近的特色用一致的特色表征，同时为 MVM（Masked vision Modeling）提供类别标签，钻研员们应用了视觉字典。整个字典在网络学习的环节中都驳回了动量降级的模式启动学习。基于 Transform 的特色融合网络则驳回了和 BERT 相反的网络结构。

为了优化整个网络，钻研员们应用 MVM、MLM(Masked Language Modeling) 以及 ITM(Image-Text Matching) 三个预训练义务启动了模型训练，并将获取的参数运行到了四个相关的 VL 下游义务上，均取得了较好的结果（如表格1-4所示）。

表格1：SOHO 在 MSCOCO 数据集上与其余方法的 text retrieval（TR）和 image retrieval（IR）的性能比拟

表格2：SOHO 在 VQA 2.0数据集上的 VQA 性能体现

表格3：SOHO 在 NLVR2 数据集上的 Visual Reasoning 性能体现

表格4：SOHO 在 SNLI-VE 数据集上的 Visual Entailment 性能体现

最后，经过对视觉字典中局部 ID 对应的图片内容启动可视化（如图2所示），钻研员们发现即使没有强监视的视觉类别标注，SOHO 也可以将具备相似语义的视觉内容聚类到同一个字典项中。相关于经常使用基于目的检测的视觉言语模型，SOHO 解脱了图片框的回归需求，推理期间（inference time）也放慢了10倍，在实在场景运行中愈加实践和方便。

图2：Visual Dictionary 局部 ID 对应图片内容的可视化

基于纹理 Transformer 模型的图像超辩白率技术

从新鲜的胶片照相机到当天的数码时代，人类拍摄和保留了少量的图片消息，但这些图片无法防止地存在各种不同水平的瑕疵。将图片变得更明晰、更鲜活，不时是计算机视觉畛域的关键话题。针关于图像超分辨率的疑问，微软亚洲钻研院的钻研员们翻新性地将 Transformer 结构运行在了图像生成畛域，提出了一种基于纹理 Transformer 模型的图像超辩白率方法 TTSR。

该模型可以有效地搜查与迁徙高清的纹理消息，最大水平地利用参考图像的消息，并可以正确地将高清纹理迁徙到生成的超分辨率结果当中，从而处置了纹理含糊和纹理失真的疑问。该上班“Learning Texture Transformer Network for Image Super-Resolution”宣布在 CVPR 2020。

论文链接：

GitHub地址：

与先前盲猜图片细节的方法不同，钻研员们经过引入一张高分辨率参考图像来指引整个超分辨率环节。高分辨率参考图像的引入，将图像超分辨率疑问由较为艰巨的纹理恢复/生成转化为了相对方便的纹理搜查与迁徙，使得超分辨率结果在目的以及视觉效果上有了清楚的优化。如图3所示，TTSR 模型包含：可学习的纹理提取器模块（Learnable Texture Extractor）、相关性嵌入模块（Relevance Embedding）、硬留意力模块（Hard Attention）、软留意力模块（Soft Attention）。

图3：纹理 Transformer 模型

传统 Transformer 经过重叠使得模型具备更强的表白才干，但是在图像生成疑问中，方便的重叠很难发生很好的效果。为了进一步优化模型对参考图像消息的提取和应用，钻研员们提出了跨层级的特色融合机制——将所提出的纹理 Transformer 运行于 x1、x2、x4 三个不同的层级，并将不同层级间的特色经过上采样或带步长的卷积启动交叉融合。因此，不同粒度的参考图像消息会浸透到不同的层级，使得网络的特色表白才干增强，提高生成图像的品质。

图4：多个纹理 Transformer 跨层级重叠模型

钻研员们在 CUFED5、Sun80、Urban100、Manga109 数据集上针对 TTSR 方法启动了量化比拟，详细如表格5所示。图5展现了 TTSR 与现有的方法在不同数据集上的视觉比拟结果，可以发现 TTSR 清楚上游于其余方法的结果。

表格5：TTSR 与现有方法在不同数据集上的量化比拟结果

图5：TTSR 与现有方法在不同数据集上的视觉比拟结果

Transformer“跨界”视频义务

相关于图像的空间消息，视频还参与了时序维度的消息。Transformer 可以很好地在空间-时序维度上启动建模，进而更好地学习图像与特色中的长距离依赖相关，无利于视频相关义务的增强与提高。

视频修复：Transformer 初尝试

视频修复（video inpainting）是一个旨在经过视频中已知内容来推断并填补缺失内容的经典义务。它在老旧视频恢复、去除水印等视频编辑中有着宽泛运行。虽然视频修复技术有很大的运行价值，但是在复杂变动的多个视频帧中找到相关消息，并生成在图像空间和时序上看起来谐和、分歧的内容，依然面临着渺小的应战。

为了处置这样的疑问，微软亚洲钻研院的钻研员们应用并从新设计了Transformer结构，提出了 Spatial-Temporal Transformer Network （STTN）。相关论文“Learning Joint Spatial-Temporal Transformations for Video Inpainting”宣布在了 ECCV 2020。

论文链接：

GitHub地址：

STTN 模型的输入是带有缺失内容的视频帧以及每一帧的掩码，输入则是对应的修复好的视频帧。如图6所示，STTN 模型的输入是带有缺失内容的视频帧以及每一帧的掩码，输入则是对应的修复好的视频帧。如图6所示，STTN 模型驳回了 CNN-Transformer 的混合结构。其中，frame-level encoder 以及 frame-level decoder 驳回了 CNN，区分将每个视频帧从像素编码成特色以及将特色解码成视频帧。Transformer 则作为模型的主干，它将输入的视频帧特色切成块，并对块的序列启动建模，再经过多层时空 Transformer 层开掘输入帧中的已知消息来推断缺失内容。

图6:Spatial-Temporal Transformer Network (STTN)模型结构示用意

时空 Transformer 层承袭了经典 Transformer 层弱小的留意力机制，能聚焦于与缺失内容相关的消息上，经过多层的重叠不时降级优化预测的内容。同时，不同于经典 Transformer 层中每个头部的是模型驳回了固定的块大小，STTN 为了捕捉到尽或者多的上下文消息，在不同的头部上驳回了不同大小的块切取模式。因此，当缺失区域的特色不够丰盛时，基于大的块的留意力机制可以有效应用较多的已知消息；当缺失区域的特色丰盛之后，基于小的块的留意力机制有助于模型聚焦更纤细的变动。如图7所示，经过可视化 STTN 最后一层 Transformer 的留意力求，可以发现 STTN 为了填补目的帧中狗身上的缺失区域，能够 “精准追踪” 到其余帧里的消息，来修复缺失区域。

图7：Attention map 的可视化（attention 的局部用黄色高亮）。虽然视频里狗因为奔跑，在不同的帧里外形和位置差异较大，但为了填补目的帧（target frame）中狗身上缺失的局部，STTN 可以 “精准追踪” 到相关的帧里这只跑动的狗。

除了 STTN 模型，该论文还提出了用灵活和静态两种不同的视频掩码来模拟实践运行。灵活掩码指视频每一帧的掩码是延续变动的，用来模拟移除静止物体的运行；而静态掩码不会随着视频变动，用来模拟水印移除。论文经过在 DAVIS 和 Youtube-VOS 数据集上定性和定量的剖析，验证了 STTN 在视频修复义务上的优越性。如视频1所示，STTN 能够生成视觉上更实在的修复结果。同时得益于 STTN 弱小的并行建模才干，它也放慢了运转速度（24.10 fps VS. 3.84 fps）。

目的跟踪新范式：基于时空 Transformer

视频目的跟踪（Visual Object Tracking）是计算机视觉畛域中的一项基础且颇具应战性的义务。在过去几年中，基于卷积神经网络，目的跟踪迎来了极速的开展。但是卷积神经网络并不长于建模图像与特色中的长距离依赖相关，同时现有的目的跟踪器或是仅应用了空间消息，亦或是并未思考到期间与空间之间的咨询，形成跟踪器在复杂场景下性能的降低。

如何处置以上疑问？微软亚洲钻研院的钻研员们提出了一种名为 STARK 的基于时空 Transformer 的目的跟踪器新范式，将目的跟踪建模为一种端到端的边界框预测疑问，从而彻底解脱以往跟踪器经常使用的超参敏感的后处置，该方法在多个短时与长时跟踪数据集上都取得了最优的性能。

相关论文“Learning Spatio-Temporal Transformer for Visual Tracking”

链接：

GitHub地址：

STARK 包含 Spatial-Only 和 Spatio-Temporal 两个版本，其中 Spatial-Only 版本仅经常使用空间消息，Spatio-Temporal 版本则同时应用了期间和空间消息。

Spatial-Only 版本的框架图如图8所示。首先，第一帧的模板和帧的搜查区域会一同送入主干网络提取视觉特色，而后特色图沿空间维度开展并拼接，进而获取一个特色序列。之后，Transformer 编码器会建模序列元素之间的全局关联，并应用学习到的全局消息来强化原始特色，使得新的特色序列对目的具备更强的判断力。受 DETR 的启示，钻研员们经常使用了一个解码器以及一个目的查问（Target Query）来对编码器的输入启动译码。目的查问与前面提到的编码器输入的特色序列启动交互，从而学习到和目的相关的关键消息。最后，编码器输入的特色序列以及译码器输入的新的目的查问特色再一同送入边界框预测模块，获取最终的边界框坐标。

图8：Spatial-Only 版本的框架图

边界框预测模块的结构如图9所示，首先从编码器的输入序列中取出搜查区域相关的特色，用该特色序列与译码器输入的目的查问特色计算一次性留意力机制，强化目的所在区域的特色，削弱非目的区域的特色。而后，经留意力机制强化后的搜查区域特色序列的空间结构被恢复，并经过方便的全卷积网络预测目的左上角和右下角一对角点(corners)的热力求，最终的角点坐标则经过计算角点坐标的数学希冀获取。不同于之前的Siamese和DCF方法，该框架将目的跟踪建模为一个间接的边界框预测疑问，每一帧上都可间接预测一个边界框坐标，无需经常使用任何超参敏感的后处置。

图9：边界框预测模块的结构

Spatio-Temporal 版本的框架图如图10所示，粉色区域展现了为了应用时序消息而新参与的结构。新框架额外参与了一个 “灵活模板” 作为新输入。灵活模板是依据两边帧跟踪结果裁剪获取的，并随着跟踪的进执行态降级，为整个框架补充了之前缺少的时序消息。应用第一帧模板、帧搜查区域、灵活模板同时作为 Transformer 编码器的输入，编码器能够从全局视角提取时空消息，学习到鲁棒的时空联结表示。除灵活模板之外，钻研员们还引入了由多层感知机成功的降级控制器来降级灵活模板，它与边界框预测头并联，以预测帧牢靠水平的置信度分数。

图10：Spatio-Temporal 版本框架图

STARK 在多个短时跟踪与长时跟踪数据集上都取得了目前最先进的性能，并且运转速度可达 30FPS 到 40FPS。其中，在 LaSOT, GOT-10K, TrackingNet 三个大规模目的跟踪数据集上的结果如下所示。

图11：LaSOT 数据集上的结果比拟

表格6：GOT-10K 数据集上的结果比拟

表格7：TrackingNet 数据集上的结果比拟

上述四个上班将 Transformer 结形成功地运行于图像内容增强和视频内容剖析，充沛地展现了 Transformer 的长处和后劲。目前钻研员们曾经看到，无论是在图像分类、物体检测与宰割等基础视觉义务上，还是在 3D 点云剖析、图像视频内容生成等新兴课题中，Transformer 都大放异彩。未来，视觉 Transformer 结构的设计和智能化搜查将会是一个十分具备前景的钻研课题。置信 Transformer 结构在计算机视觉畛域会继续展现其弱小的模型后劲。

互联网计算机技术

<<Oracle中表的四种衔接形式解说

你们自己早抵赖AGI了马斯克用微软论文当论据起诉OpenAI>>

Transformer在计算机视觉畛域走到哪了

端到端的视觉和言语跨模态预训练模型

基于纹理 Transformer 模型的图像超辩白率技术

视频修复：Transformer 初尝试

目的跟踪新范式：基于时空 Transformer

您可能还会对下面的文章感兴趣：

随便看看