多模态算法在视频了解中的运行

2024-11-14

1、概述

现阶段视频分类算法，关键聚焦于视频全体的内容了解，给视频全体打上标签，粒度较粗。较少的文章关注时序片段的细粒度了解，同时也从多模态角度剖析视频。本文将分享经常使用多模态网络提高视频了解精度的处置打算，并在youtube-8m 数据集中取得较大优化。

2、相关上班

在视频分类人物中，NeXtVLAD被证实是一种高效、极速的视频分类方法。受ResNeXt方法的启示，作者成功地将高维的视频特色向量合成为一组低维向量。该网络显着降低了之前 NetVLAD 网络的参数，但在特色聚合和大规模视频分类方面依然取得了显着的功能。

RNN已被证实在对序列数据启动建模时体现杰出。钻研人员通经常常使用 RNN 对 CNN 网络难以捕捉的视频中的期间消息启动建模。 GRU是 RNN 架构的关键组成局部，可以防止梯度隐没的疑问。 Attention-GRU指的是具备留意机制，有助于区分不同特色对预测的影响。

为了却合视频义务的空间特色和期间特色，起初又提出了双流CNN、3D-CNN、以及slowfast和ViViT等。只管这些模型在视频了解义务上也取得良好的体现，但还有优化的空间。比如，很多方法只针对单个模态，或许只对整个视频启动处置，没有输入细粒度的标签。

3、技术打算

3.1 全体网络结构

本技术打算是旨在充沛学习视频多模态（文本、音频、图像）的语义特色，同时克制 youtube-8m数据集样本极不平衡和半监视的疑问。

如Figure 1所示，整个网络关键由前面混合多模态网络（mix-Multmodal Network）和前面的图卷积网络（GCN）组成。mix-Multmodal Network 由三个差异化的多模态分类网络构成，详细差异化参数在Table1中。

3.2 多模态网络

如图Figure 2所示，多模态网络关键了解三个模态（文本、视频、音频），每个模态都蕴含三个环节：基础语义了解、时序特色了解、模态融合。其中，视频和音频的语义了解模型区分经常使用的是EfficientNet和VGGish，时序特色了解模型是NextVLAD。而文本的时序特色了解模型为Bert。

多模态特色融合，咱们驳回的是SENet。SENet网络的前处置须要将各个模态的特色长度强行紧缩对齐，这样会造成消息失落。为了克制这个疑问，咱们驳回了多Group的SENet的网络结构。试验标明，多个group的SENet网络相较于单个SENet学习才干更强。

3.3 图卷积

因为Youtube-8M粗粒度标签所有标注，细粒度标签只标注了局部数据。因此，引入 GCN来启动半监视分类义务。基本思维是经过在节点之间流传消息来降级节点表示。关于多标签视频分类义务，标签依赖相关是一个关键消息。

在咱们的义务中，每个标签将是图（graph）的一个节点（node），两个节点之间的线表示它们的相关。所以咱们可以训练一个矩阵来表示一切节点的相关。

以从咱们的数据集中提取的一个简化的标签相关图 Figure 3为例，Label BMW --> Label Car，表示当 BMW 标签出现时，Label Car 很或许出现，但反之则不必定。标签 Car 与一切其他标签具备高度相关性，没有箭头的标签表示这两个标签彼此没有相关。

GCN网络成功如Figure 4所示。GCN模块由两层重叠的GCN（GCN和 GCN）组成，它们有助于学习标签相关图，以将这些标签表示映射到一组相互依赖的分类器中。是输入相关矩阵，由矩阵的值初始化。

和是将在网络中训练的矩阵。是GCN学习到的分类器权重。

3.4 标签重加权

Youtube-8M 视频分类义务是一个多标签分类义务，但是，注释数据仅选用多标签中的一个启动标注为1，其他标签均为0。也就是说，某一个视频片段除了或许是标注的还或许是其他置为0的标签。这个疑问也是个弱监视疑问。

针对此状况，咱们提出了一种处置方法。在计算损失时给带注释的类赋予较大的权重，并为未注释的类赋予较小的权重。这种加权交叉熵方法将协助模型更好地从不完整的数据集中学习。

3.5 特色增强

为了防止在训练模型时过拟合，咱们参与了随机生成的高斯噪声并随机注入到输入特色向量的每个元素中。

如Figure 6 所示，噪声将被参与到输入特色向量中，掩码向量随机选用 50% 的维度并将值设置为 1。这里的高斯噪声是独立的，但关于不同的输入向量具备相反的散布。

同时，为了防止多模态模型只学习某一个模态的特色，也就是在模态上过拟合。咱们将模态特色也mask，保障输入中至少有某一个模态，如Figure 7所示。这样就可以充沛学习各个模态。

4、试验

4.1 评估目的

4.2 试验结果

4.2.1 多模态

为了验证多模态中每个模态的收益，咱们做了消融试验，结果如Table 2所示。单个模态作为特色时，Video 的准确率最高，Audio的准确率最低，Text凑近Video。双模态时，Video + Text 由清楚优化，再加上 Audio后，优化有限。

4.2.2 图卷积

雷同为验证GCN的收益，咱们也做了对比试验，其中阈值λ咱们选用了两个，区分是 0.2和0.4。如Table 3 所示，结果标明，原始模型（org）相比，GCN 生成的分类器有助于提高功能，特意时当λ=0.4时。

4.2.3 差异化的多模态网络

为了验证并联的多模态网络和差异化后的效果，咱们设计五组试验。第一组模型是独自的1个多模态网络，第二、三、四组是2个、3个、4个并联的多模态网络，第五组是差异化的3个并联的多模态网络。

从结果来看，并联网络能提高精度，但是并联4个当行进度会降低，所以一味的参与并联的网络数并不能带来收益。同时，试验结果还标明，差异化的网络结构能更有效的拟合数据。

Table 4. 差异化多模态网络试验

4.2.4 标签重加权

标签重加权由两个超参（n和m），经过试验标明，当n=0.1 和m=2.5时准确率提高较高。

4.2.5 特色增强

特色增强属于数据增强的一种。试验标明，经过参与高斯噪声，和mask掉某些模态，都能提高模型的泛化才干。且此种参与高斯噪声模式，成功便捷，迁徙性强，易于再其他网络中成功。

5、总结

试验标明，上述几种方法均有不同水平的提高，尤其以多模态和图卷积优化比拟清楚。

咱们宿愿在未来探求更多的标签依赖相关。 GCN 网络也被证实在这项义务中很有用，咱们以为值得咱们做更多的试验，将 GCN 网络与其他最先进的视频分类网络结合起来。

援用

Zhang Z,Sabuncu M. Generalized cross entropy loss for training deep neural networks with noisy labels[C]//Advances in neural information processing systems. 2018:8778-8788.

Pereira R B, Plastino A, Zadrozny B, et al. Correlation analysis of performance measures for multi-label classification [J]. Information Processing & Management, 2018,54(3): 359-369.

多模态网络多模态算法

<<经常使用CLIP和LLM构建多模态RAG系统

就算鲍尔默上前微软又能如何>>