一篇大模型Agent最新综述
嘿,大家好!这里是一个专一于AI自动体的频道~
最近这2篇综述有点撞车了,不是地道的Agent综述,可以了解一下最新的运行测的Agent开展状况!
事实中的Agent系统会面临很多的应战,经常出现的有以下几点:
一个Agent运行框架关键由三个关键的局部:感知、记忆和执行。
感知可以处置多种模态的输入,包括文本、视觉(如图像)和听觉(如声响)输入。
其中文本输入可以进一步细分为基于token的输入、基于tree/graph的输入和混合输入。这些不同的输入方式区分关注代码的不同特色,例如语义、结构等。
当然无论是文本、视觉还是听觉输入,感知模块最终都要将接纳到的信息转换成适宜LLM处置的嵌入格局,为后续的推理和决策制订奠定基础。
记忆模块担任存储能够协助LLM启动有效推理决策的信息。它包括语义记忆、情形记忆和程序记忆三种类型。
记忆模块是Agent的大脑,它保留了一切关键的信息和阅历,协助Agent更好地理解疑问和做出决策。
重头戏,Action。执行模块包括外部执行和外部执行,它们依据LLM的输入做出推理决策,并依据与外部环境互动取得的反应来提升这些决策。
外部执行,触及Agent的思索环节,包括推理、检索和学习。
其中推理局部,可以概括为3种方式
其中检索局部,为了辅佐推理和决策环节,从外部或外部的常识库中检索关系信息。这包括查找文档、代码片段、API信息等,以允许的义务。依据召回内容不同,可以概括为以下几个类别:
召回分为密集Dense的语义搜查,稠密Sparse的关键词搜查:
learning Action局部,是LLM-based Agent继续提高和顺应新应战的关键。经过有效的学习机制,系统能够始终退化。普通包括从阅历中学习、提升外部模型和调整战略,以更好地成功未来的义务。
最后是External Action局部,它使得Agent能够被动地与外部环球启动交互,成功义务,并依据外部反应启动自我提升。如:经过与人或其余Agent交互,以失掉义务需求、廓清疑问或报告结果;与各种数字工具敌对台(如API服务)启动交互,以执行义务或验证结果。
本文转载自,作者: