VideoAgent基于大言语模型的视频QA系统斯坦福大学

2024-11-14

架构

上图是VideoAgent的概览图，VideoAgent经过搜查、聚合视频消息来实现长视频QA。整个系统包括一个外围LLM、VLM(视觉大言语模型)和CLIP工具。

作者遭到人类了解长视频的启示，提出了VideoAgent，经过基于Agent的系统来模拟这一环节的系统。

将视频了解环节方式化为一系列形态、举措和观察，其中LLM作为代理控制这个环节。首先，LLM经过阅读从视频中平均抽样的一组帧来相熟视频内容的背景。在每次迭代中，LLM评价消息（形态）能否足以回答疑问；假设不够，它会确定须要什么额外的消息（举措）。随后，它应用CLIP 来检索蕴含这些消息的新帧（观察），并经常使用VLM将这些新帧形容为文本形容，从而降级形态。这种设计强调了推理才干和迭代环节，而不是间接解决长视觉输入，其中VLM和CLIP作为工具，使LLM能够具备视觉了解和长高低文检索才干。

VideoAgent的迭代环节具体视图。每一轮都从形态开局，其中包括先前检查过的视频帧。而后，大型言语模型经过回答预测和自我反思来确定后续的举措。假设须要额外的消息，就会以视频帧的方式失掉新的观察结果。

假定LLM确定消息无余以回答疑问，并选用搜查新消息。在这种状况下，进一步要求LLM选择须要什么额外消息，以便可以应用工具来取得额外消息。因为视频中某些消息或者产生屡次，所以启动分段级别的检索而不是视频级别的检索，以增强期间推理才干。

例如，假定疑问是“男孩退出房间后在沙发上留下了什么玩具？”，并且咱们在帧 i 中看到了男孩退出房间。假设咱们经常使用查问“显示沙发上的玩具的帧”启动检索，则或者在帧 i 之前存在蕴含“沙发上的玩具”的帧，但它们与回答疑问有关。

援用链接

Arxiv:

本文转载自，作者：

<<什么是大模型特点大模型与AIGC的相关长处

解锁图像数据的商业价值 Cohere推出Multimodal 3 Embed>>

VideoAgent基于大言语模型的视频QA系统 斯坦福大学

架构

援用链接

您可能还会对下面的文章感兴趣：

随便看看

VideoAgent基于大言语模型的视频QA系统斯坦福大学