一篇大模型Agent最新综述

2024-11-15

嘿，大家好！这里是一个专一于AI自动体的频道~

最近这2篇综述有点撞车了，不是地道的Agent综述，可以了解一下最新的运行测的Agent开展状况！

事实中的Agent系统会面临很多的应战，经常出现的有以下几点：

一个Agent运行框架关键由三个关键的局部：感知、记忆和执行。

感知可以处置多种模态的输入，包括文本、视觉（如图像）和听觉（如声响）输入。

其中文本输入可以进一步细分为基于token的输入、基于tree/graph的输入和混合输入。这些不同的输入方式区分关注代码的不同特色，例如语义、结构等。

当然无论是文本、视觉还是听觉输入，感知模块最终都要将接纳到的信息转换成适宜LLM处置的嵌入格局，为后续的推理和决策制订奠定基础。

记忆模块担任存储能够协助LLM启动有效推理决策的信息。它包括语义记忆、情形记忆和程序记忆三种类型。

记忆模块是Agent的大脑，它保留了一切关键的信息和阅历，协助Agent更好地理解疑问和做出决策。

重头戏，Action。执行模块包括外部执行和外部执行，它们依据LLM的输入做出推理决策，并依据与外部环境互动取得的反应来提升这些决策。

外部执行，触及Agent的思索环节，包括推理、检索和学习。

其中推理局部，可以概括为3种方式

其中检索局部，为了辅佐推理和决策环节，从外部或外部的常识库中检索关系信息。这包括查找文档、代码片段、API信息等，以允许的义务。依据召回内容不同，可以概括为以下几个类别：

召回分为密集Dense的语义搜查，稠密Sparse的关键词搜查：

learning Action局部，是LLM-based Agent继续提高和顺应新应战的关键。经过有效的学习机制，系统能够始终退化。普通包括从阅历中学习、提升外部模型和调整战略，以更好地成功未来的义务。

最后是External Action局部，它使得Agent能够被动地与外部环球启动交互，成功义务，并依据外部反应启动自我提升。如：经过与人或其余Agent交互，以失掉义务需求、廓清疑问或报告结果；与各种数字工具敌对台（如API服务）启动交互，以执行义务或验证结果。

本文转载自，作者：