联结团队提出长视频了解的前沿技术BREASE NVIDIA 新框架衔接情节和语义

2024-11-15

随着互联网和社交媒体平台上视频内容的爆炸性增长，视频了解技术的关键性日益凸显。视频了解不只仅是对视频内容的便捷分类或标签化，而是深化剖析视频中的举措、场景、情节和语义消息。这项技术在多个畛域具备宽泛的运行前景，包括视频摘要、内容检索、内容审核、版权包全和智能介绍等。

在消息时代，视频了解技术表演着越来越关键的角色。随着视频内容的激增，如何有效地理解和处置这些内容成为了一个关键疑问。视频了解不只仅是对视频启动分类或标注，而是须要深化剖析视频中的举措、场景、情节和语义消息，这项技术在多个畛域具备宽泛的运行前景。

视频摘要方面，经过智能生成视频摘要，用户可以极速失掉视频的外围内容，节俭期间和精神。这在资讯、教育和文娱等畛域尤为关键。内容检索方面，视频了解技术可以协助用户经过视频内容启动搜查和检索，提高消息失掉的效率。例如，在大型视频库中极速找到相关视频片段。内容审核方面，智能检测和过滤不良内容，保证平台内容的安保性。这关于社交媒体平台和视频分享网站尤为关键，可以有效防止不良消息的流传。版权包全方面，经过识别和治理视频内容的版权消息，防止侵权行为的出现。这关于包全创作者的权力和保养市场次第具备关键意义。智能介绍方面，依据用户的观看历史和偏好，介绍相关视频内容，优化用户体验。这在流媒体平台和视频分享网站中失掉了宽泛运行。

目前，大少数视频了解钻研关键集中在短视频的处置上，这些方法通常依赖于卷积神经网络（CNN）和Transformer等模型。但是长视频了解面临着更大的应战，关键包括期间复杂性、语义了解和内存计算限度等疑问。

长视频蕴含少量帧，处置这些帧须要高效的期间序列剖析方法。现有的方法在处置长视频时，往往不可有效应答期间复杂性的疑问。长视频通常蕴含复杂的叙事结构和上档次的语义消息，须要对视频中的上档次概念和叙事结构启动深入了解。但是，现有的方法在语义了解方面体现无余。处置长视频须要少量的计算资源和内存，现有方法在这方面往往体现无余，难以在实践运行中推行。

虽然一些钻研尝试将短视频了解的方法裁减到长视频，但这些方法通常未能充沛思考长视频的共同个性，造成性能优化有限。例如，传统的方法往往将长视频视为多个短视频的便捷拼接，疏忽了长视频中情节和语义的延续性和复杂性。

为了填补现有方法在长视频了解中的空白，NVIDIA、国立台湾大学和国立清华大学（中国台湾）的联结团队提出了一个新的框架——BREASE（BRidging Episodes And SEmantics）。该框架的设计灵感来自于人类的认知环节，旨在经过模拟情节记忆积攒和语义常识的结合，更准确地理解长视频内容。

BREASE框架的关键指标是开发一个高效的情节紧缩器（Episodic COmpressor，ECO），能够从微观到半微观层面聚合关键示意，捕捉视频中的举措序列。ECO经过模拟人类的情节记忆积攒环节，有效地将视频内容分解为多个情节单元，从而提高模型的了解才干。此外，BREASE还提出了一个语义检索器（Semantics reTRiever，SeTR），经过关注更宽泛的高低文，增强模型对视频内容的了解，清楚缩小特色维度，同时保管相关的微观消息。SeTR经过提取视频中的上档次语义消息，协助模型更好地理解视频的全体结构和内容。

经过这两个关键组件，BREASE框架在多个长视频了解基准上成功了最先进的性能，清楚逾越了现有方法。论文的钻研指标是经过BREASE框架，处置长视频了解中的期间复杂性、语义了解和内存计算限度等疑问，为视频了解技术的开展提供新的思绪和方法。少量试验标明，BREASE 在零样本和全监视设置的多个长视频了解基准中均成功了最佳性能。名目页面和代码位于：。

这项钻研由来自不同机构的专家团队协作成功，成员有来自国立台湾大学的Gueter Josmy Faure、Jia-Fong Yeh、Hung-Ting Su和Winston H. Hsu，他们在视频了解和计算机视觉畛域有着丰盛的钻研阅历。Winston H. Hsu不只是国立台湾大学的传授，还在Mobile Drive Technology担任关键职务，担任名目的全体协和谐技术指点。来自NVIDIA的Min-Hung Chen，专一于深度学习和视频了解技术的钻研，为团队带来了工业界的先进技术和通常阅历。国立清华大学的Shang-Hong Lai，专一于计算机视觉和图像处置畛域的钻研，为团队提供了松软的学术支持。

这个多机构协作团队结合了学术界和工业界的力气，努力于推动长视频了解的钻研。经过他们的共同努力，BREASE框架在长视频了解畛域取得了清楚的停顿，为视频了解技术的开展提供了新的思绪和方法。

方法

BREASE的设计理念

BREASE（BRidging Episodes And SEmantics）框架的设计灵感来自于人类的认知环节，旨在经过模拟情节记忆积攒和语义常识的结合，更准确地理解长视频内容。该框架的外围思念是将视频内容分解为多个情节单元，并经过语义消息启动强化，从而提高模型的了解才干。BREASE框架由多个模块组成，每个模块在视频处置的不同阶段施展关键作用。

图1：框架概述。逐窗口流式传输视频，并经常使用解冻的ViT提取特色。每个窗口特色都由ECO（如图左下所示）以在线方式处置，在此环节中摈弃冗余，并保管传递给情节Q-Former的视频片段。视频令牌库蕴含每个窗口的特色，SeTR仅选用初级消息传递到分层帧以对Q-Former启动排序。而后将情节和初级示意衔接起来，而后馈送到解冻的LLM，LLM依照指令输入文本。

视频编码的初步处置

BREASE框架的第一步是对视频启动编码处置。为了处置恣意长度的视频，首先须要指定要提取的帧数，将视频宰割成若干不堆叠的窗口。每个窗口的特色由ViT-G/14模型逐渐编码，提取出视频数据的特色示意。这些特色示意将作为后续处置的输入，为情节紧缩器（ECO）提供基础数据。

情节紧缩器的上班机制

ECO（Episodic COmpressor）是BREASE框架中的关键组件之一，担任将视频内容分解为多个情节单元。ECO经过保养一个最大容量为E的记忆缓冲区，接纳窗口特色后，审核缓冲区能否有足够带宽。假设有，则间接衔接；否则启动紧缩。ECO的外围是经过计算帧特色的余弦相似度，兼并最相似的帧，直到满足大小解放。这样可以有效地缩小冗余消息，保管视频中的关键情节。

其中M是现有缓冲区，Fw示意w帧特色的传入窗口，A是衔接的缓冲区和新窗口，∥A∤A的大小。总结方程式（2），Ai·Aj Ai Aj计算帧特色Ai和Aj之间的余弦相似度，arg-maxi̸=j找到余弦相似度最高的帧对，（Ai∗+Aj∗）2组合最相似的帧，A\Aj*删除帧Aj*兼并后的A。重复该环节，直到A的大小在准许的最小事情E范围内，并且A成为新的缓冲区M′。

情节查问变换器的作用

Episodic Q-Former经常使用与原始Q-Former相反的架构，经过自留意力和交叉留意力机制处置初始查问和视觉示意。详细来说，Episodic Q-Former首先对初始查问启动自留意力处置，而后与ECO提供的视觉示意启动交叉留意力处置。经过这一环节，查问被增强，并经过相似ECO的环节兼并相似查问，构成高消息密度的情节。这有助于在整个视频中坚持查问的数量恒定，提高模型的处置效率。

语义检索器的配置

SeTR（Semantics reTRiever）是BREASE框架中的另一个关键组件，担任从视频特色中提取上档次的语义消息。SeTR经过归一化特色、分组、计算相似度分数并兼并最相似的帧，缩小帧数，保管最相关的特色。详细来说，SeTR首先对视频特色启动归一化处置，而后将帧分为两组，计算两组帧之间的相似度分数，并兼并最相似的帧。这样可以有效地缩小特色维度，同时保管视频中的关键语义消息。

将视频示意转化为人造言语输入

在BREASE框架中，SeTR提取的语义示意经过档次化Q-Former处置后，与Episodic Q-Former的输入衔接，投射到大言语模型（如Vicuna-7B）的输入空间。大言语模型依据提供的指令，生成所需的人造言语输入。这一环节将视频的视觉示意转化为人造言语形容，使得模型能够回答与视频内容相关的疑问，生成视频字幕，或启动其余方式的文本生成义务。

经过这些模块的协同上班，BREASE框架能够高效地处置和了解长视频内容，清楚提高了视频了解的性能和准确性。

试验与结果

LVU和MovieChat数据集

在本钻研中，BREASE框架的性能在两个关键数据集上启动了评价：LVU和MovieChat。LVU数据集专一于电影内容和元数据，提供了丰盛的长视频分类义务。MovieChat数据集则是一个新引入的数据集，专门用于长视频问答义务，涵盖了电影中的对话和情节消息。这两个数据集的选用，旨在片面评价BREASE框架在不同长视频了解义务中的体现。

在不同数据集上的体现

在试验中，BREASE框架展现了其在长视频了解义务中的出色性能。经过对LVU和MovieChat数据集的测试，BREASE框架在多个基准上成功了最先进的结果，清楚逾越了现有方法。

表1：LVU数据集的SOTA比拟：该表显示了各种模型的前1精度。最高分以粗体突出显示，次高分以下划线突出显示。与其余方法中观察到的庞大增量改良不同，咱们的模型体现出了清楚的性能飞跃，平均比其最凑近的竞争对手高出7.3%。

分类准确率的优化

在LVU数据集上，BREASE框架的体现尤为突出。试验结果显示，BREASE在长视频分类义务中的top-1分类准确率清楚提高了7.3%。这一清楚优化标明，BREASE框架在处置复杂电影内容和元数据时，能够更好地捕捉和了解视频中的关键情节和语义消息。

零样本和齐全监视场景下的体现

在MovieChat数据集上，BREASE框架雷同体现出色。在零样本形式下，BREASE的准确率提高了14.9%，清楚超越了之前的最先进方法。此外，在齐全监视场景下，BREASE框架经过对MovieChat训练集启动一次性训练，进一步优化了模型的性能。这些结果标明，BREASE框架在处置长视频问答义务时，能够有效地理解和回答与视频内容相关的疑问。

ECO和SeTR的关键性剖析

为了进一步验证BREASE框架中各个组件的关键性，钻研团队启动了屡次消融试验，重点剖析了ECO和SeTR的作用。

在ECO的关键性试验中，结果标明，缺少ECO会造成模型性能清楚降低。详细来说，ECO经过有效地紧缩和聚合视频中的情节消息，清楚提高了模型的了解才干。相比之下，经常使用随机选用特色或FIFO流式方法的代替战略，均未能到达ECO的成果。

在SeTR的关键性试验中，结果显示，移除SeTR会造成准确率降低5%。SeTR经过提取视频中的上档次语义消息，协助模型更好地理解视频的全体结构和内容。相比之下，便捷的方法如最大池化敌对均池化成果不如SeTR。

经过这些消融试验，钻研团队验证了ECO和SeTR在BREASE框架中的关键作用，进一步证实了BREASE框架在长视频了解义务中的出色性能。

BREASE框架在LVU和MovieChat数据集上的试验结果，展现了其在长视频了解义务中的弱小才干。经过有效地结合情节记忆和语义消息，BREASE框架为长视频了解提供了一个新的思绪，清楚优化了视频了解的性能和准确性。

探讨

BREASE框架的翻新点

BREASE框架在长视频了解畛域引入了多项翻新，清楚优化了模型的性能和了解才干。首先，BREASE经过模拟人类的认知环节，将视频内容分解为多个情节单元，并经过语义消息启动强化。这种方法不只提高了模型对视频内容的了解深度，还有效地缩小了冗余消息。

Episodic COmpressor (ECO) 是BREASE框架中的关键组件之一。ECO经过保养一个记忆缓冲区，灵活地紧缩和聚合视频中的情节消息，保管了视频中的关键情节。这种方法模拟了人类的情节记忆积攒环节，使得模型能够更好地捕捉视频中的举措序列和情节变动。

Semantics reTRiever (SeTR) 则经过提取视频中的上档次语义消息，增强了模型对视频内容的了解。SeTR经过归一化特色、分组、计算相似度分数并兼并最相似的帧，缩小了特色维度，同时保管了视频中的关键语义消息。这种方法不只提高了模型的处置效率，还增强了模型对视频全体结构和内容的了解。

与现有方法的对比

在多个长视频了解基准上，BREASE框架展现了其出色的性能。与现有方法相比，BREASE在LVU和MovieChat数据集上的体现尤为突出。在LVU数据集上，BREASE的top-1分类准确率清楚提高了7.3%，展现了其在处置复杂电影内容和元数据时的弱小才干。在MovieChat数据集上，BREASE在零样本形式下的准确率提高了14.9%，清楚超越了之前的最先进方法。这些结果标明，BREASE框架在处置长视频问答义务时，能够有效地理解和回答与视频内容相关的疑问。

经过消融试验，钻研团队进一步验证了ECO和SeTR在BREASE框架中的关键作用。结果显示，缺少ECO会造成模型性能清楚降低，而移除SeTR则会造成准确率降低5%。这些试验结果进一步证实了BREASE框架在长视频了解义务中的出色性能。

在实践运行中的后劲

BREASE框架在实践运行中具备宽泛的后劲。首先，在视频摘要方面，BREASE可以智能生成视频摘要，协助用户极速失掉视频的外围内容，节俭期间和精神。这在资讯、教育和文娱等畛域尤为关键。其次，在内容检索方面，BREASE可以经过视频内容启动搜查和检索，提高消息失掉的效率。例如，在大型视频库中极速找到相关视频片段。

在内容审核方面，BREASE可以智能检测和过滤不良内容，保证平台内容的安保性。这关于社交媒体平台和视频分享网站尤为关键，可以有效防止不良消息的流传。在版权包全方面，BREASE可以识别和治理视频内容的版权消息，防止侵权行为的出现。这关于包全创作者的权力和保养市场次第具备关键意义。

此外，BREASE还可以用于智能介绍，依据用户的观看历史和偏好，介绍相关视频内容，优化用户体验。这在流媒体平台和视频分享网站中失掉了宽泛运行。总的来说，BREASE框架为长视频了解提供了一个新的思绪，展现了其在处置复杂视频数据方面的弱小才干和宽泛运行前景。

参考资料：

本文转载自，作者：

<<数字人类与AI社会的崛起多智能体的文明之路

分歧性评价方法的探求人工自动与人类情感的交汇点>>