联结团队提出长视频了解的前沿技术BREASE NVIDIA 新框架衔接情节和语义

随着互联网和社交媒体平台上视频内容的爆炸性增长,视频了解技术的关键性日益凸显。视频了解不只仅是对视频内容的便捷分类或标签化,而是深化剖析视频中的举措、场景、情节和语义消息。这项技术在多个畛域具备宽泛的运行前景,包括视频摘要、内容检索、内容审核、版权包全和智能介绍等。

在消息时代,视频了解技术表演着越来越关键的角色。随着视频内容的激增,如何有效地理解和处置这些内容成为了一个关键疑问。视频了解不只仅是对视频启动分类或标注,而是须要深化剖析视频中的举措、场景、情节和语义消息,这项技术在多个畛域具备宽泛的运行前景。

视频摘要方面,经过智能生成视频摘要,用户可以极速失掉视频的外围内容,节俭期间和精神。这在资讯、教育和文娱等畛域尤为关键。内容检索方面,视频了解技术可以协助用户经过视频内容启动搜查和检索,提高消息失掉的效率。例如,在大型视频库中极速找到相关视频片段。内容审核方面,智能检测和过滤不良内容,保证平台内容的安保性。这关于社交媒体平台和视频分享网站尤为关键,可以有效防止不良消息的流传。版权包全方面,经过识别和治理视频内容的版权消息,防止侵权行为的出现。这关于包全创作者的权力和保养市场次第具备关键意义。智能介绍方面,依据用户的观看历史和偏好,介绍相关视频内容,优化用户体验。这在流媒体平台和视频分享网站中失掉了宽泛运行。

目前,大少数视频了解钻研关键集中在短视频的处置上,这些方法通常依赖于卷积神经网络(CNN)和Transformer等模型。但是长视频了解面临着更大的应战,关键包括期间复杂性、语义了解和内存计算限度等疑问。

长视频蕴含少量帧,处置这些帧须要高效的期间序列剖析方法。现有的方法在处置长视频时,往往不可有效应答期间复杂性的疑问。长视频通常蕴含复杂的叙事结构和上档次的语义消息,须要对视频中的上档次概念和叙事结构启动深入了解。但是,现有的方法在语义了解方面体现无余。处置长视频须要少量的计算资源和内存,现有方法在这方面往往体现无余,难以在实践运行中推行。

虽然一些钻研尝试将短视频了解的方法裁减到长视频,但这些方法通常未能充沛思考长视频的共同个性,造成性能优化有限。例如,传统的方法往往将长视频视为多个短视频的便捷拼接,疏忽了长视频中情节和语义的延续性和复杂性。

为了填补现有方法在长视频了解中的空白,NVIDIA、国立台湾大学和国立清华大学(中国台湾)的联结团队提出了一个新的框架——BREASE(BRidging Episodes And SEmantics)。该框架的设计灵感来自于人类的认知环节,旨在经过模拟情节记忆积攒和语义常识的结合,更准确地理解长视频内容。

BREASE框架的关键指标是开发一个高效的情节紧缩器(Episodic COmpressor,ECO),能够从微观到半微观层面聚合关键示意,捕捉视频中的举措序列。ECO经过模拟人类的情节记忆积攒环节,有效地将视频内容分解为多个情节单元,从而提高模型的了解才干。此外,BREASE还提出了一个语义检索器(Semantics reTRiever,SeTR),经过关注更宽泛的高低文,增强模型对视频内容的了解,清楚缩小特色维度,同时保管相关的微观消息。SeTR经过提取视频中的上档次语义消息,协助模型更好地理解视频的全体结构和内容。

经过这两个关键组件,BREASE框架在多个长视频了解基准上成功了最先进的性能,清楚逾越了现有方法。论文的钻研指标是经过BREASE框架,处置长视频了解中的期间复杂性、语义了解和内存计算限度等疑问,为视频了解技术的开展提供新的思绪和方法。少量试验标明,BREASE 在零样本和全监视设置的多个长视频了解基准中均成功了最佳性能。名目页面和代码位于:。

这项钻研由来自不同机构的专家团队协作成功,成员有来自国立台湾大学的Gueter Josmy Faure、Jia-Fong Yeh、Hung-Ting Su和Winston H. Hsu,他们在视频了解和计算机视觉畛域有着丰盛的钻研阅历。Winston H. Hsu不只是国立台湾大学的传授,还在Mobile Drive Technology担任关键职务,担任名目的全体协和谐技术指点。来自NVIDIA的Min-Hung Chen,专一于深度学习和视频了解技术的钻研,为团队带来了工业界的先进技术和通常阅历。国立清华大学的Shang-Hong Lai,专一于计算机视觉和图像处置畛域的钻研,为团队提供了松软的学术支持。

这个多机构协作团队结合了学术界和工业界的力气,努力于推动长视频了解的钻研。经过他们的共同努力,BREASE框架在长视频了解畛域取得了清楚的停顿,为视频了解技术的开展提供了新的思绪和方法。

相关上班

在视频了解畛域,钻研者们曾经在多个方向上取得了清楚停顿。

举措识别是视频了解中的一个外围义务,关键关注在短视频片段中识别特定的举措。早期的钻研关键依赖于卷积神经网络(CNN),例如经常使用3D卷积来捕捉视频中的时空特色。随着技术的开展,钻研者们逐渐引入了期间卷积和其余更复杂的模型来提高识别精度。

近年来,基于Transformer的模型在举措识别中体现出色。例如,钻研者们经过引入自留意力机制,使模型能够更好地捕捉视频中的长距离依赖相关。这些模型在多个举措识别基准上取得了最先进的性能,展现了其在处置复杂视频数据方面的后劲。

视频问答(VQA)是视频了解中的另一个关键义务,旨在回答与视频内容相关的疑问。这须要模型对视频中的视觉消息和文本消息有深入的了解。为此,钻研者们开发了多个数据集,如ActivityNet-QA和MovieChat-1k,这些数据集为评价模型在视频问答义务中的体现提供了基准。

在VQA义务中,模型不只须要识别视频中的物体和举措,还须要了解视频的高低文和叙事结构。这通常触及到多模态学习,即结合视觉和文本消息启动联结建模。近年来,随着大规模预训练模型的出现,VQA义务的性能失掉了清楚优化。

与短视频相比,长视频了解面临着更多的应战。长视频通常蕴含复杂的叙事结构和少量的帧,这使得处置和了解这些视频变得愈加艰巨。为了应答这些应战,钻研者们开发了多个专门用于长视频了解的数据集,如LVU、COIN、Breakfast和MovieChat。

传统的方法往往将长视频视为多个短视频的便捷拼接,疏忽了长视频中情节和语义的延续性和复杂性。为了更好地理解长视频,钻研者们提出了多种方法,包括记忆技术和形态空间模型(SSM),这些方法能够更有效地处置长期间跨度的视频数据。

最近,大言语模型(LLM)在视频了解中的运行惹起了宽泛关注。这些模型经过将视频内容转化为文字,能够更好地理解视频的语义消息。例如,在视频字幕生成、视频问答和举措分类等义务中,LLM展现了其弱小的才干。

一些钻研提出了经常使用记忆技术处置少量视频内容的框架,这些框架能够有效地治理视频中的期间依赖消息。此外,钻研者们还探求了如何应用LLM启动长视频了解,经过结合视觉和文本消息,进一步优化模型的性能。

视频了解畛域的钻研正在始终开展,新的方法和技术始终涌现。经过结合情节记忆和语义常识,BREASE框架为长视频了解提供了一个新的思绪,展现了其在处置复杂视频数据方面的后劲。

方法

BREASE的设计理念

BREASE(BRidging Episodes And SEmantics)框架的设计灵感来自于人类的认知环节,旨在经过模拟情节记忆积攒和语义常识的结合,更准确地理解长视频内容。该框架的外围思念是将视频内容分解为多个情节单元,并经过语义消息启动强化,从而提高模型的了解才干。BREASE框架由多个模块组成,每个模块在视频处置的不同阶段施展关键作用。

图1:框架概述。逐窗口流式传输视频,并经常使用解冻的ViT提取特色。每个窗口特色都由ECO(如图左下所示)以在线方式处置,在此环节中摈弃冗余,并保管传递给情节Q-Former的视频片段。视频令牌库蕴含每个窗口的特色,SeTR仅选用初级消息传递到分层帧以对Q-Former启动排序。而后将情节和初级示意衔接起来,而后馈送到解冻的LLM,LLM依照指令输入文本。

视频编码的初步处置

BREASE框架的第一步是对视频启动编码处置。为了处置恣意长度的视频,首先须要指定要提取的帧数,将视频宰割成若干不堆叠的窗口。每个窗口的特色由ViT-G/14模型逐渐编码,提取出视频数据的特色示意。这些特色示意将作为后续处置的输入,为情节紧缩器(ECO)提供基础数据。

情节紧缩器的上班机制

ECO(Episodic COmpressor)是BREASE框架中的关键组件之一,担任将视频内容分解为多个情节单元。ECO经过保养一个最大容量为E的记忆缓冲区,接纳窗口特色后,审核缓冲区能否有足够带宽。假设有,则间接衔接;否则启动紧缩。ECO的外围是经过计算帧特色的余弦相似度,兼并最相似的帧,直到满足大小解放。这样可以有效地缩小冗余消息,保管视频中的关键情节。

其中M是现有缓冲区,Fw示意w帧特色的传入窗口,A是衔接的缓冲区和新窗口,∥A∤A的大小。总结方程式(2),Ai·Aj Ai Aj计算帧特色Ai和Aj之间的余弦相似度,arg-maxi̸=j找到余弦相似度最高的帧对,(Ai∗+Aj∗)2组合最相似的帧,A\Aj*删除帧Aj*兼并后的A。重复该环节,直到A的大小在准许的最小事情E范围内,并且A成为新的缓冲区M′。

情节查问变换器的作用

Episodic Q-Former经常使用与原始Q-Former相反的架构,经过自留意力和交叉留意力机制处置初始查问和视觉示意。详细来说,Episodic Q-Former首先对初始查问启动自留意力处置,而后与ECO提供的视觉示意启动交叉留意力处置。经过这一环节,查问被增强,并经过相似ECO的环节兼并相似查问,构成高消息密度的情节。这有助于在整个视频中坚持查问的数量恒定,提高模型的处置效率。

语义检索器的配置

SeTR(Semantics reTRiever)是BREASE框架中的另一个关键组件,担任从视频特色中提取上档次的语义消息。SeTR经过归一化特色、分组、计算相似度分数并兼并最相似的帧,缩小帧数,保管最相关的特色。详细来说,SeTR首先对视频特色启动归一化处置,而后将帧分为两组,计算两组帧之间的相似度分数,并兼并最相似的帧。这样可以有效地缩小特色维度,同时保管视频中的关键语义消息。

将视频示意转化为人造言语输入

在BREASE框架中,SeTR提取的语义示意经过档次化Q-Former处置后,与Episodic Q-Former的输入衔接,投射到大言语模型(如Vicuna-7B)的输入空间。大言语模型依据提供的指令,生成所需的人造言语输入。这一环节将视频的视觉示意转化为人造言语形容,使得模型能够回答与视频内容相关的疑问,生成视频字幕,或启动其余方式的文本生成义务。

经过这些模块的协同上班,BREASE框架能够高效地处置和了解长视频内容,清楚提高了视频了解的性能和准确性。

试验与结果

LVU和MovieChat数据集

在本钻研中,BREASE框架的性能在两个关键数据集上启动了评价:LVU和MovieChat。LVU数据集专一于电影内容和元数据,提供了丰盛的长视频分类义务。MovieChat数据集则是一个新引入的数据集,专门用于长视频问答义务,涵盖了电影中的对话和情节消息。这两个数据集的选用,旨在片面评价BREASE框架在不同长视频了解义务中的体现。

在不同数据集上的体现

在试验中,BREASE框架展现了其在长视频了解义务中的出色性能。经过对LVU和MovieChat数据集的测试,BREASE框架在多个基准上成功了最先进的结果,清楚逾越了现有方法。

表1:LVU数据集的SOTA比拟:该表显示了各种模型的前1精度。最高分以粗体突出显示,次高分以下划线突出显示。与其余方法中观察到的庞大增量改良不同,咱们的模型体现出了清楚的性能飞跃,平均比其最凑近的竞争对手高出7.3%。

分类准确率的优化

在LVU数据集上,BREASE框架的体现尤为突出。试验结果显示,BREASE在长视频分类义务中的top-1分类准确率清楚提高了7.3%。这一清楚优化标明,BREASE框架在处置复杂电影内容和元数据时,能够更好地捕捉和了解视频中的关键情节和语义消息。

零样本和齐全监视场景下的体现

在MovieChat数据集上,BREASE框架雷同体现出色。在零样本形式下,BREASE的准确率提高了14.9%,清楚超越了之前的最先进方法。此外,在齐全监视场景下,BREASE框架经过对MovieChat训练集启动一次性训练,进一步优化了模型的性能。这些结果标明,BREASE框架在处置长视频问答义务时,能够有效地理解和回答与视频内容相关的疑问。

ECO和SeTR的关键性剖析

为了进一步验证BREASE框架中各个组件的关键性,钻研团队启动了屡次消融试验,重点剖析了ECO和SeTR的作用。

在ECO的关键性试验中,结果标明,缺少ECO会造成模型性能清楚降低。详细来说,ECO经过有效地紧缩和聚合视频中的情节消息,清楚提高了模型的了解才干。相比之下,经常使用随机选用特色或FIFO流式方法的代替战略,均未能到达ECO的成果。

在SeTR的关键性试验中,结果显示,移除SeTR会造成准确率降低5%。SeTR经过提取视频中的上档次语义消息,协助模型更好地理解视频的全体结构和内容。相比之下,便捷的方法如最大池化敌对均池化成果不如SeTR。

经过这些消融试验,钻研团队验证了ECO和SeTR在BREASE框架中的关键作用,进一步证实了BREASE框架在长视频了解义务中的出色性能。

BREASE框架在LVU和MovieChat数据集上的试验结果,展现了其在长视频了解义务中的弱小才干。经过有效地结合情节记忆和语义消息,BREASE框架为长视频了解提供了一个新的思绪,清楚优化了视频了解的性能和准确性。

探讨

BREASE框架的翻新点

BREASE框架在长视频了解畛域引入了多项翻新,清楚优化了模型的性能和了解才干。首先,BREASE经过模拟人类的认知环节,将视频内容分解为多个情节单元,并经过语义消息启动强化。这种方法不只提高了模型对视频内容的了解深度,还有效地缩小了冗余消息。

Episodic COmpressor (ECO) 是BREASE框架中的关键组件之一。ECO经过保养一个记忆缓冲区,灵活地紧缩和聚合视频中的情节消息,保管了视频中的关键情节。这种方法模拟了人类的情节记忆积攒环节,使得模型能够更好地捕捉视频中的举措序列和情节变动。

Semantics reTRiever (SeTR) 则经过提取视频中的上档次语义消息,增强了模型对视频内容的了解。SeTR经过归一化特色、分组、计算相似度分数并兼并最相似的帧,缩小了特色维度,同时保管了视频中的关键语义消息。这种方法不只提高了模型的处置效率,还增强了模型对视频全体结构和内容的了解。

与现有方法的对比

在多个长视频了解基准上,BREASE框架展现了其出色的性能。与现有方法相比,BREASE在LVU和MovieChat数据集上的体现尤为突出。在LVU数据集上,BREASE的top-1分类准确率清楚提高了7.3%,展现了其在处置复杂电影内容和元数据时的弱小才干。在MovieChat数据集上,BREASE在零样本形式下的准确率提高了14.9%,清楚超越了之前的最先进方法。这些结果标明,BREASE框架在处置长视频问答义务时,能够有效地理解和回答与视频内容相关的疑问。

经过消融试验,钻研团队进一步验证了ECO和SeTR在BREASE框架中的关键作用。结果显示,缺少ECO会造成模型性能清楚降低,而移除SeTR则会造成准确率降低5%。这些试验结果进一步证实了BREASE框架在长视频了解义务中的出色性能。

在实践运行中的后劲

BREASE框架在实践运行中具备宽泛的后劲。首先,在视频摘要方面,BREASE可以智能生成视频摘要,协助用户极速失掉视频的外围内容,节俭期间和精神。这在资讯、教育和文娱等畛域尤为关键。其次,在内容检索方面,BREASE可以经过视频内容启动搜查和检索,提高消息失掉的效率。例如,在大型视频库中极速找到相关视频片段。

在内容审核方面,BREASE可以智能检测和过滤不良内容,保证平台内容的安保性。这关于社交媒体平台和视频分享网站尤为关键,可以有效防止不良消息的流传。在版权包全方面,BREASE可以识别和治理视频内容的版权消息,防止侵权行为的出现。这关于包全创作者的权力和保养市场次第具备关键意义。

此外,BREASE还可以用于智能介绍,依据用户的观看历史和偏好,介绍相关视频内容,优化用户体验。这在流媒体平台和视频分享网站中失掉了宽泛运行。总的来说,BREASE框架为长视频了解提供了一个新的思绪,展现了其在处置复杂视频数据方面的弱小才干和宽泛运行前景。

参考资料:

本文转载自​​,作者:​​

您可能还会对下面的文章感兴趣: