VideoAgent基于大言语模型的视频QA系统 斯坦福大学

架构

上图是VideoAgent的概览图,VideoAgent经过搜查、聚合视频消息来实现长视频QA。整个系统包括一个外围LLM、VLM(视觉大言语模型)和CLIP工具。

作者遭到人类了解长视频的启示,提出了VideoAgent,经过基于Agent的系统来模拟这一环节的系统。

将视频了解环节方式化为一系列形态、举措和观察,其中LLM作为代理控制这个环节。首先,LLM经过阅读从视频中平均抽样的一组帧来相熟视频内容的背景。在每次迭代中,LLM评价消息(形态)能否足以回答疑问;假设不够,它会确定须要什么额外的消息(举措)。随后,它应用CLIP 来检索蕴含这些消息的新帧(观察),并经常使用VLM将这些新帧形容为文本形容,从而降级形态。这种设计强调了推理才干和迭代环节,而不是间接解决长视觉输入,其中VLM和CLIP作为工具,使LLM能够具备视觉了解和长高低文检索才干。

VideoAgent的迭代环节具体视图。每一轮都从形态开局,其中包括先前检查过的视频帧。而后,大型言语模型经过回答预测和自我反思来确定后续的举措。假设须要额外的消息,就会以视频帧的方式失掉新的观察结果。

假定LLM确定消息无余以回答疑问,并选用搜查新消息。在这种状况下,进一步要求LLM选择须要什么额外消息,以便可以应用工具来取得额外消息。因为视频中某些消息或者产生屡次,所以启动分段级别的检索而不是视频级别的检索,以增强期间推理才干。

例如,假定疑问是“男孩退出房间后在沙发上留下了什么玩具?”,并且咱们在帧 i 中看到了男孩退出房间。假设咱们经常使用查问“显示沙发上的玩具的帧”启动检索,则或者在帧 i 之前存在蕴含“沙发上的玩具”的帧,但它们与回答疑问有关。

援用链接

​​ Arxiv:

本文转载自​​,作者:​​

您可能还会对下面的文章感兴趣: