Mamba先战败了Transformer 在12个视频了解义务中

2024-11-15

探求视频了解的新境界，Mamba 模型引领计算机视觉钻研新潮流！传统架构的局限已被冲破，形态空间模型 Mamba 以其在长序列处置上的共同长处，为视频了解畛域带来了反派性的改革。

来自南京大学、上海人工默认试验室、复旦大学、浙江大学的钻研团队颁布了一项开创性上班。他们片面扫视了 Mamba 在视频建模中的多重角色，提出了针对 14 种模型 / 模块的 Video Mamba Suite，在 12 项视频了解义务中对其启动了深化评价。结果令人振奋：Mamba 在视频公用和视频 - 言语义务中均展现出微弱的后劲，成功了效率与功能的现实平衡。这不只是技术上的飞跃，更是对未来视频了解钻研的有力推进。

在当今极速开展的计算机视觉畛域，视频了解技术已成为推启动业提高的关键驱能源之一。泛滥钻研者努力于探求和优化各种深度学习架构，以期成功对视频内容的更深档次解析。从早期的循环神经网络（RNN）和三维卷积神经网络（3D CNN），到目前广受注目的 Transformer 模型，每一次性技术的飞跃都极大地拓宽了咱们对视频数据的了解和运行。

特意是 Transformer 模型，以其出色的功能在视频了解的多个畛域 —— 包括但不限于指标检测、图像宰割、以及多模态问答等 —— 取得了清楚成就。但是，面对视频数据固有的超长序列个性，Transformer 模型也暴显露了其固有的局限性：由于其计算复杂度呈平方增长，使得对超长视频序列的间接建模变得意外艰巨。

在这样的背景下，形态空间模型架构 —— 以 Mamba 为代表 —— 应运而生，以其线性计算复杂度的长处，展现出处置长序列数据的弱小后劲，为 Transformer 模型的代替提供了或者。虽然如此，目前关于形态空间模型架构在视频了解畛域的运行，还存在一些局限性：一是重要集中在视频全局了解义务，如分类和检索；二是重要探求了间接启动时空建模的方式，而关于更多样化的建模方法的探求尚显无余。

为了克制这些局限，并片面评价 Mamba 模型在视频了解畛域的后劲，钻研团队精心打造了 video-mamba-suite（视频 Mamba 套件）。该套件旨在补充现有钻研的无余，经过一系列深化的试验和剖析，探求 Mamba 在视频了解中的多样化角色和潜在长处。

钻研团队将 Mamba 模型的运行划分为四种不同的角色，并据此构建了一个蕴含 14 个模型 / 模块的视频 Mamba 套件。经过在 12 个视频了解义务上的片面评价，试验结果不只提醒了 Mamba 在处置视频和视频 - 言语义务上的渺小后劲，还展现了其在效率和功能之间取得的出色平衡。论文作者们等候着这项上班能够为视频了解畛域的未来钻研提供可参考的资源和深入的见地。

钻研背景

视频了解作为计算机视觉钻研的基础疑问，其外围在于捕捉视频中的时空灵活，用一识别并推断优惠的性质及其演化环节。目前，针对视频了解的架构探求重要分为三个方向。

首先，基于帧的特色编码方法经过循环网络（如 GRU 和 LSTM）启动期间依赖性建模，但这种宰割的时空建模方式难以捕捉联结时空消息。其次，三维卷积核的经常使用在卷积神经网络中成功了对空间和期间相关性的同步思考。

随着言语和图像畛域的 Transformer 模型取得渺小成功，视频 Transformer 模型也在视频了解畛域取得了清楚停顿，展现出逾越 RNNs 和 3D-CNNs 的才干。视频 Transformer 经过将视频封装在一系列 token 中，并应用留意力机制成功全局上下文交互和数据依赖的灵活计算，从而在一致的方式下处置视频中的期间或时空消息。

但是，由于视频 Transformer 在处置长视频时的计算效率有限，发生了一些变体模型，它们在速度和功能之间取得了平衡。最近，形态空间模型（SSMs）在人造言语处置（NLP）畛域展现了其长处。现代 SSMs 在长序列建模中体现出弱小的表征才干，同时坚持线性期间复杂度。这是由于它们的选用机制消弭了存储完整上下文的须要。特意是 Mamba 模型，将时变参数归入 SSM，并提出了一种配件感知算法，以成功高效的训练和推理。Mamba 的出色裁减功能标明，它有望成为 Transformer 的一个有前景的代替打算。

同时，Mamba 的高功能和效率使其十分适宜视频了解义务。虽然已有一些初步尝试探求 Mamba 在图像 / 视频建模中的运行，但其在视频了解中的有效性尚不明白。针对 Mamba 在视频了解中的后劲启动片面钻研的缺失，限度了对其在多样化视频相关义务中才干的进一步探求。

针对以上疑问，钻研团队对 Mamba 在视频了解畛域的后劲启动了探求。他们的钻研指标是评价 Mamba 能否可以成为该畛域的 Transformer 的一个可行代替打算。为此，他们首先要处置的疑问是如何看待 Mamba 无了解视频方面中的不同角色。基于此，他们进一步钻研了 Mamba 在哪些义务中体现得更出色。

论文将 Mamba 在视频建模中的作用分为以下四类：1) 时序模型，2) 时序模块，3) 多模态交互网络，4) 时空模型。针对每种角色，钻研团队都在不同的视频了解义务上钻研了其视频建模才干。为了公平地让 Manba 与Transformer 一较上下，钻研团队依据规范或改良的 Transformer 架构精心选用了用于对比的模型。在此基础上，他们获取了一个蕴含 14 个模型 / 模块的 Video Mamba Suite，实用于 12 个视频了解义务。钻研团队宿愿 Video Mamba Suite 能成为未来探求基于 SSM 的视频了解模型的基础型资源。

四种角色

Mamba 作为视频时序模型

义务和数据 ：钻研团队对 Mamba 在五个视频期间义务上的功能启动了评价：期间举措定位（HACS Segment），期间举措宰割（GTEA），密集视频字幕（ActivityNet，YouCook），视频段落字幕（ActivityNet，YouCook）和举措预测（Epic-Kitchen-100）。

基准线和应战者 ：钻研团队选用了基于 Transformer 的模型作为各项义务的基线。详细来说，这些基线模型包括 ActionFormer，ASFormer，Testra 和 PDVC。为了构建 Mamba 的应战者，他们将基线模型中的 Transformer 模块交流为基于 Mamba 的模块，包括如上图三种模块，原始的 Mamba (a)，ViM (b)，以及钻研团队原创设计的 DBM (c) 模块。值得留意的是，在触及因果推断的举措预测义务中，论文中将基线模型与原始的 Mamba 模块启动了功能比拟。

结果和剖析 ：论文中展现了不同模型在四项义务上的比拟结果。总体而言，虽然一些基于 Transformer 的模型曾经参与了留意力变体来优化功能。下表展现了 Mamba 系列相比现有 Transformer 系列方法，展现出了愈加出色的功能。

Mamba 用于多模态交互

钻研团队不只关注了单模态义务，还评价了 Mamba 在跨模态交互义务中的功能。论文中驳回视频期间定位（VTG）义务评价了 Mamba 的体现。所触及的数据集包括 QvHighlight 和 Charade-STA。

义务和数据 ：钻研团队对 Mamba 在五个视频期间义务上的功能启动了评价：期间举措定位（HACS Segment），期间举措宰割（GTEA），密集视频字幕（ActivityNet，YouCook），视频段落字幕（ActivityNet，YouCook）和举措预测（Epic-Kitchen-100）。

基准线和应战者 ：钻研团队经常使用 UniVTG 来构建基于 Mamba 的 VTG 模型。UniVTG 驳回 Transformer 作为多模态交互网络。给定视频特色和文本特色，他们首先为每个模态参与可学习的位置嵌入和模态类型嵌入，以保管位置和模态消息。而后，将文本和视频标志衔接起来，构成一个联结输入，进一步输入到多模态 Transformer 编码器中。最后，提取文本增强的视频特色，并将其送入预测头。为了创立跨模态的 Mamba 竞争者，钻研团队选用了重叠双向 Mamba 块，构成一个多模态的 Mamda 编码器，以代替 Transformer 基线。

结果和剖析 ：该论文经过 QvHighlight 测试了多个模型的功能。Mamba 的平均 mAP 为 44.74，与 Transformer 相比有清楚优化。在 Charade-STA 上，基于 Mamba 的方法展现出了和Transformer 相似的竞争力。这标明 Mamba 具备有效整合多种模态的后劲。

思考到 Mamba 是基于线性扫描的模型，而 Transformer 基于全局标志交互，钻研团队直观地以为文本在标志序列中的位置或者会影响多模态聚合的成果。为了调查这一点，他们在表格中包括了不同的文本 - 视觉融合方法，并在图中展现了四种不同的标志陈列方式。论断是，当文本条件与视觉特色的左侧融合时，可以取得最佳结果。QvHighlight 对此融合的影响较小，而 Charade-STA 对文本的位置特意敏感，这或者归因于数据集的个性。

Mamba 作为视频时序适配器

在评价 Mamba 在时序后建模方面的功能之外，钻研团队还调查了其作为视频期间适配器的有效性。经过在以自我为中心的数据上口头视频文本对比学习来预训练双塔模型，该数据蕴含万个带有细粒度叙说的视频片段。

义务和数据 ：钻研团队对 Mamba 在五个视频期间义务上的功能启动了评价，其中包括：时序举措定位（HACS Segment），时序举措宰割（GTEA），密集视频字幕（ActivityNet，YouCook），视频段落字幕（ActivityNet，YouCook）和举措预测（Epic-Kitchen-100）。

基准线和应战者 ：TimeSformer 驳回了离开的时空留意力块来区分建模视频中的空间和期间相关。为此，钻研团队引入了双向 Mamba 块作为时序适配器，以取代原始的时序自留意力，改善离开的时空交互。为了偏心比拟，TimeSformer 中的空间留意力层坚持不变。在这里，钻研团队经常使用了 ViM 块作为时序模块，并将结果模型称为 TimeMamba。

值得留意的是，规范 ViM 块比自留意力块有更多的参数（略多于

），其中 C是特色维度。因此，论文中将 ViM 块的裁减比率 E 设置为 1，将其参数量缩小到

，以启动偏心比拟。除了 TimeSformer 经常使用的个别残差衔接方式，钻研团队还探求了 Frozen 格调适配方式。以下是 5 种适配器结构：

结果和剖析

1.零样本多实例检索。钻研团队首先在表中评价了具备离开时空交互操作的不同模型，发现文中复现的 Frozen 格调残差衔接与 LaViLa 的分歧。当比拟原始和 Frozen 格调时，不难观察到 Frozen 格调一直发生更好的结果。此外，在相反的适配方法下，基于 ViM 的期间模块一直优于基于留意力的期间模块。

值得留意的是，论文中经常使用的 ViM 期间块与期间自留意力块相比参数更少，突出了 Mamba 选用性扫描的较好的参数应用率和消息提取才干。

此外，钻研团队进一步验证了时空 ViM 块。时空 ViM 块用整个视频序列上的联结时空建模取代了时序 ViM 块。令人惊讶的是，虽然引入了全局建模，但时空 ViM 块实践上造成了功能降低。为此，钻研团队推测基于扫描的时空或者会破坏预训练空间留意力块发生空间特色散布。以下是试验结果：

2.微调多实例检索和举措识别。钻研团队继续在 Epic-Kitchens-100 数据集上经常使用 16 帧微调预训练模型启动多实例检索和举措识别。可以从试验结果中国呢观察到 TimeMamba 在动词识别的上下文中清楚优于 TimeSformer，超出了 2.8 个百分点，这说明TimeMamba 能够在细粒度时序方面有效地建模。

3.零样本长视频问答。钻研团队在 EgoSchema 数据集上进一步评价了模型的长视频问答功能。以下是试验结果：

无论是 TimeSformer 还是 TimeMamba，在 Ego4D 上预训练后，都超越了大规模预训练模型（例如 InternVideo）的功能。此外，钻研团队从视频开局以固定的 FPS 一直参与了测试帧的数量，以探求 ViM 块长视频期间建模才干的影响。虽然两个模型都是用 4 帧预训练的，但随着帧数的参与，TimeMamba 和 TimeSformer 的功能稳步提高。同时，当经常使用 8192 帧时，可以观察到清楚的改良。当输入帧超越 32 时，TimeMamba 通常比 TimeSformer 从更多的帧数中受益，标明期间 ViM 块在时序自留意力方面具备优越性。

Mamba 用于时空建模

义务和数据 ：此外，论文中还评价了 Mamba 在空间 - 期间建模方面的才干，详细在 Epic-Kitchens-100 数据集上评价了模型在零样本多实例检索方面的功能。

基线和竞争者 ：ViViT 和 TimeSformer 钻研了将具备空间留意力的 ViT 转化为具备空间 - 期间联结留意力的模型。基于此，钻研团队进一步裁减了 ViM 模型的空间选用性扫描，以蕴含时空选用性扫描。命名这个裁减后的模型为 ViViM。钻研团队经常使用在 ImageNet-1K 上预训练的 ViM 模型启动初始化。ViM 模型蕴含了一个 cls token，该 token 被拔出到拍平的 token 序列的两边。

下图中展现了将 ViM 模型转换为 ViViM的方法。关于给定的蕴含 M 帧的输入，在每帧对应的 token 序列的两边拔出 cls token。此外，钻研团队参与了期间位置嵌入，对每个帧初始化为零。而后将展平的视频序列输入到 ViViM 模型中。模型的输入是经过计算每帧的 cls token 的平均值来获取的。

结果和剖析 ：论文中进一步钻研了 ViViM 在零样本多实例检索方面的结果，试验结果如下表所示：

结果展现了不同时空模型在零样本多实例检索上的功能。当比拟 ViT 和 ViViM 时，两者都是在 ImageNet-1K 上预训练的，可以观察到 ViViM 的功能超越了 ViT。幽默的是，虽然在 ImageNet-1K 上 ViT-S 和 ViM-S 之间的功能差距很小（79.8 vs 80.5），但 ViViM-S 在零样本多实例检索上显示出清楚的改良（+2.1 mAP@Avg），这标明 ViViM 在建模长序列方面十分有效，从而提高了功能。

论断

这篇论文经过片面评价Mamba视频了解畛域的体现，展现了 Mamba 可以作为传统 Transformers 的可行代替打算的后劲。经过蕴含 12 个视频了解义务的 14 个模型 / 模块组成的 Video Mamba Suite，钻研团队展现了 Mamba 高效处置复杂时空灵活的才干。Mamba不只功能超群，还能够更好地成成效率 - 功能之间的平衡。这些发现不只强调了 Mamba 实用于视频剖析义务，而且还为其在计算机视觉畛域的运行开拓了新的路径。未来的上班可以进一步探求 Mamba 的顺应性，并将其成效裁减到更复杂的多模态视频了解应战中。

原文链接:

<<Kimi 我的神它终于降级了！这个探求版有点牛！

11B和90B多模态模型 Llama3.2开源 Meta颁布1B和3B端侧模型>>

Mamba先战败了Transformer 在12个视频了解义务中

您可能还会对下面的文章感兴趣：

随便看看