Agent四大范式
什么是自动体Agent
Autonomous agents 又被称为自动体Agent。能够经过感知周围环境、启动布局以及执执行作来成功既定义务。在这些才干中,布局尤为关键,它触及到复杂的了解、推理和决策制订。
大言语模型发生以前,咱们普统统过规定的方法,或许强化学习的方法来成功。但是这两种方法各有弊病:
近几年,大言语模型的兴原因此了自动体运行这个畛域的渺小变动。大言语模型在逻辑推理、工具运行、战略布局、指令遵照等方面都有十分不错的表现,这使得大家开局看法到,将大言语模型作为Agent运行的外围认知系统,可以极大的提高自动体的布局才干。
而且最近,吴恩达不时在吹Agent的风划重点 | 吴恩达:Agent形式将在不久的未来超越下一代模型,也确实,越来越多的人发现,模型训练老本高昂,还不如用Agent的方法来成功愈加自动的运行体。
这篇文章中,作者将Agent运行的才干分为五个关键类别:义务分解、多方案选用、外部模块辅佐布局、反思与优化、记忆增强布局。
• 义务分解是指借助LLM将义务拆解为若干个子义务,并依次对每个子义务启动布局。
• 多方案选用是指大型言语模型深化“思索”,针对特定义务提出多种或许的方案。接着,应用针对性的义务搜查机制,从中筛选一个最适合的方案来实施。
• 外部模块辅佐布局。该战略专门设计用于引入外部布局器,以增强布局环节的效率和方案的可行性,同时大型言语模型关键担任将义务规范化。
• 反思与优化。这种战略着重于经过自我反思和细节完善来增强布局才干。它处罚大型言语模型Agent运行在遭逢失败后启动深化反思,并据此优化布局方案。
• 记忆增强布局。该战略经过引入一个附加的记忆组件来优化布局才干,该组件中存储了各种贵重消息,包括基本知识、历史阅历、畛域专业知识等。在启动布局时,这些消息会被调取进去,充任辅佐揭示,以增强布局的成果。
这五大钻研方向并非相互独立,而是互关系联,往往须要同时运用多种技术手腕。
义务分解
无理想环球中,环境往往充溢了复杂性和变动,因此经过一次性布局来处置复杂义务往往比拟艰巨。所以将复杂义务简化是一个十分有效的方法,有点相似于“分而治之”的战略(如下图)。义务分解普通包括两个环节:
• 将复杂义务拆解为多个子义务,称为分解阶段
• 为子义务指定布局,这个阶段被称为子布局阶段
目前,普通有两种组合方式:
• 1.先分解后布局(Decomposition-First Methods)
• 2.边分解边布局(Interleaved Decomposition Methods)
先分解后布局(Decomposition-First Methods)
先分解后布局战略是先把义务拆解为子义务,而后再为每个子义务指定子布局。包括 HuggingGPT、Plan-and-Solve、ProgPrompt等典型方法都是用的这种方法启动布局。
• HuggingGPT整合Huggingface Hub的多种多模态模型,打造出一个能够应答多模态义务的自动代理。该代理长于处置如图像生成、分类、物体识别、视频注释、语音转文本等义务。LLM在此环节中充任指挥官,担任解析人类输入的义务、筛选适合的模型并产出最终回答。最为关键的初阶段义务拆解中,HuggingGPT明白指点LLM将接到的义务细化为一系列子义务,并明白义务间的依赖性。
• Plan-and-Solve 改良了Few Shot COT方法,将其原始的“让咱们一步步来思索”转变为“首先制订方案”和“执行方案”的两步揭示指令。这种COT方法在数学、知识及符号推理方面均有所优化。
•ProgPrompt 则将人造言语形容的义务转译为编程疑问,经过代码定义代理的举措空间和环境中的对象,每个举措都明白为一个函数,每个对象则作为一个变量。这样,义务布局便人造转化为生成函数的环节。执行义务时,代理会先创立一个以函数调用来表现的方案,随后逐渐实施。
边分解边布局(Interleaved Decomposition Methods)
边分解边布局方法是指义务分解和子义务布局交织启动。包括思想链、ReAct、PAL、PoT等方法都是用的这种战略。
• CoT展现了LLM在少样本学习上的才干。它经过几个构建的门路疏导LLM对复杂疑问启动推理,应用LLM的推理才干启动义务拆解。Few Shot CoT 经过“让咱们一步步思索”这一神奇指令,激活了LLM的Few Shot COT配置。
• ReAct与CoT不同,它将推理与布局离开处置,在推理(思索步骤)与布局(执行步骤)之间启动切换,清楚优化了布局才干。视觉ChatGPT驳回ReAct机制,将LLM作为代理的大脑,联合一系列视觉模型,赋予代理图像处置的才干。
• PAL 经过施展LLM的编码专长,优化了CoT,在推理环节中疏导LLM生成代码,并最终经过代码解释器(如Python)执行代码以失掉答案,有效助力代理处置数学和符号推理难题。
• PoT将推理环节彻底编程化,作者还运用了针对代码数据训练的CodeX模型,增强了处置数学和财务疑问的效劳。
利害
先分解后布局的优点在于,能够在子义务与原义务之间咨询愈加严密,所以可以降落义务遗漏和幻觉的危险。但是,因为子义务在最后就被固定上去,缺乏灵敏调整的机制,任何一步的错误都或许会造成全体的失败。
边分解边布局的战略,可以依据环境反应来调整分解战略,增强应答错误得才干。但是在处置复杂义务时,假设环节太长,或许会造成LLM发生幻觉,让后续的子义务和子布局偏离既定指标。
此外,义务分解带来了额外的时期和计算老本。
而且,关于一些被拆分的子义务太多的高复杂度义务而言,布局环节会遭到LLM高低文长度的限度,从而造成布局门路偏离原有门路。
多方案选用
鉴于义务自身的复杂性及大型言语模型(LLM)外在的不确定性,LLM-Agent为特定义务制订的方案或许千差万别。虽然LLM具有弱小的推理才干,但独自生成的方案或许并非最优,甚至无法执行。更人造的方法是驳回多方案选用,该环节包括两个关键步骤:多方案生成和最优方案筛选。
多方案生成
多方案生成的目的在于发生一系列方案门路,构成候选方案集。经常出现的方法有:
• 经过在解码环节中调整采样战略,比如温度参数、top-k参数,来失掉不同的多个推理门路。
• 思想树(ToT)包括两种生成方案战略,一种是与前述的采样战略参数调整分歧,另一种是指点LLm经过揭示词中的大指示例来生成不同的布局。
• 思想图(GoT)引入思想转换的概念,对ToT启动了裁减,允许恣意思想的聚合。
• LLM-MCTS 和RAP 则将LLM作为蒙特卡洛树搜查(MCTS)中的启示式战略函数,经过屡次调用失掉多种或许的执行方案。
如何在多个方案当选用最佳战略也有多种方法:
• 自洽性战略经过便捷的少数投票法来确定最受欢迎的方案作为最佳选用。
• 思想树(ToT)应用其树状结构,允许包括广度优先搜查(BFS)和深度优先搜查(DFS)在内的树状搜查算法。在选择裁减哪个节点时,ToT借助大型言语模型Agent运行(LLM)来评价多种或许的执行,并从中筛选出最佳选项。
• LLMMCTS 和RAP 也经常使用树状结构辅佐启动多方案搜查,但它们驳回的是蒙特卡洛树搜查(MCTS)算法。
外部模块辅佐布局
虽然大型言语模型(LLMs)在推理和义务分解方面表现杰出,但在面对如数学识题求解或生成非法执行等具有复杂解放的环境时,仍面临应战。为应答这些应战,钻研人员采取了将LLMs与外部布局器相联合的多种方法,这些方法大抵可分为符号布局器和神经布局器两大类。
符号布局器
• LLM+P 经过整合基于PDDL的符号布局器,优化了LLMs的布局效率。钻研者应用LLM的语义解析和编码才干,将疑问转化为文本言语揭示,输入至LLM。这样,LLM便能将环境内的行为和特定义务转化为PDDL言语格局。在取得正式化形容后,钻研者经常使用Fast-Downward 求解器来执行布局。
• 在LLM+P的基础上,LLM-DP专为灵活交互环境设计,它在接纳环境反应后,将消息方式化为PDDL言语,并应用BFS 求解器来生成方案。
• LLM+PDDL 雷同驳回PDDL言语来方式化义务,并参与了手动验证步骤,以审核LLM生成的PDDL模型中或许的疑问。在布局环节中,钻研者倡导经常使用LLM生成的方案作为初始启示式解,以放慢部分搜查布局器(如LPG)的搜查速度。
• LLM+ASP [Yang et al., 2023b]将LLM形容的人造言语疑问转化为原子理想,将义务转化为答案集编程(ASP)疑问,而后经常使用ASP求解器CLINGO来生成方案。
神经布局器
神经布局器,这类深度学习模型经过强化学习或模拟学习在搜集的布局数据上启动训练,能够在特定畛域内成功高效的布局。以DRRN 为例,它经过强化学习方法将布局环节视作马尔可夫决策环节,造就出一个战略网络来构建深度决策模型。决策变换器(DT)则让变换器模型能够模拟布局数据中的人类决策行为。
神经布局器虽然在部分畛域经常使用了更小的参数取得较高的布局效率,但是经常会遇到数据无余、泛化才干有限的状况。所认为了提高布局才干,钻研者普通吧Agent运行和轻量级神经布局器联合的方式。
• CALM 就是这种联合的早期尝试,它将言语模型与基于强化学习的神经布局器联合起来。言语模型担任处置文本方式的环境消息,并基于这些消息生成一系列候选执行。随后,DRRN战略网络对这些候选执前启动从新排序,以选出最优的执行方案。
• SwiftSage 鉴了认知心思学中的双系统切实,将布局环节划分为慢速思索和极速思索两个部分。慢速思索担任复杂的推理和理性决策,而极速思索则依赖于常年训练构成的直觉反响。钻研者们应用经过模拟学习训练的DT模型作为极速思索模型,以极速生成方案。当方案执行中发生错误,暗示疑问较为复杂时,系统会切换到慢速思索形式,此时LLM会基于形态启动深化的推理和布局。这种极速与慢速思索相联合的方法,在提高效率方面显示出了清楚的成果。
反思与优化(Reflection and Refinement)
反思和优化是布局环节中无法或缺的两大支柱,在优化模型Agent运行的容错和纠错才干上有很大作用。因为大言语模型的幻觉特点,曾经在处置复杂疑问时的局限性,Agent运行在做义务布局时,往往会堕入思想旋涡。经过回忆和总结阅历,可以使得Agent在后续的尝试中纠正错误,冲破循环。
• Self-refine:是经过迭代生成、反应、精炼,使得大言语模型每次生成方案后,都能提供反应,依据反应启动调整。
• Reflexion:则是在ReAct的基础上参与评价器,用来评价执行轨迹,在发现错误后启动自我反思,从而纠正错误。
•CRITIC:则是应用外部工具,比如知识库、搜查引擎来验证LLM生成的执行,而后借助外部知识启动自我纠错,缩小理想性错误。 Agent四大范式 | CRITIC:吴恩达力推Agent设计范式
• InteRecAgent 驳回了ReChain机制来启动自我纠错,LLM在此环节中评价交互介绍代理生成的照应和工具经常使用方案,总结错误反应,并选择能否须要从新开局布局。
• LEMA 则先搜集错误的布局样本,随后应用更初级的GPT-4启动修正,这些经过修正的样本用于微调LLM-Agent,清楚提高了LLaMA模型在不同规模上的性能。
记忆增强布局
大言语模型Agent运行在记忆方面关键有两种方法来增强布局才干:基于检索增强生成(RAG)的方法和基于 嵌入式记忆(Embodied Memory,这里我翻译成嵌入式记忆或许更正当,有更好的翻译也欢迎大家斧正。)。
RAG记忆
RAG如今也是很火的一种LLM运行技术框架,是指经过消息检索的方式辅佐文本生成,可认为LLM提供最新的知识降级。存储的内容方式多种多样,包括文本、表格、知识图谱等。
这里针对RAG不多讲,下次争取找几篇RAG的综述跟大家一同读一读。
嵌入式记忆
所谓嵌入式记忆,是相对RAG将知识存储在外部系统而言,嵌入式记忆是将知识经过Finetune的方式把知识存储在大模型外面,嵌入到模型参数外面。从头开局训练一个模型老本渺小,所以普通驳回PEFT的技术来启动微调,比如:LoRA、QLoRA、P-tuning等。
CALM经过训练一个GPT2模型,可以成功一些布局义务,并且还有比拟好的泛化才干。AgentTuning 将不同义务的布局轨迹整分解对话方式,对LLaMA模型启动微调,清楚优化了在未见布局义务上的性能表现。
Agent运行的局限性
虽然在吴恩达最近的观念中,Agent运行有后劲成为未来AGI的通用技术路途,但是现有的Agent运行还有很多疑问和局限性。
• 幻觉现象。在布局环节中,LLM经常发生幻觉,造成布局不正当,对义务揭示不虔诚,或无法遵照复杂指令。比如,方案中或许蕴含了与环境中不存在的东西启动交互的执行。虽然经过精心设计的揭示可以缓解这些疑问,但是切实上并不能齐全消弭幻觉带来的疑问。
• 生成方案的可行性。基于统计学习的LLM经过海量数据优化下一个词的发生概率,与符号化人工自动相比,这种方法在遵照复杂解放时存在应战,特意是在处置LLM训练时期不常遇到的解放。因此,LLM生成的方案或许在没有充沛思索先决条件的状况下缺乏可行性。将LLM与符号化布局模型联合,而不扭转LLM自身,是一个充溢宿愿的钻研方向。
• 生成方案的效率。高效地生成方案是布局中的关键议题。但是,现有的LLM代理在布局时,往往只基于LLM输入的生成方案启动贪心选用,疏忽了方案的效率。未来的钻研或许须要引入额外的效率评价模块,与LLM协同上班,以制订更高效的方案。
• 多模态环境反应的处置。LLM最后旨在处置文本输入,但理想环球的环境反应往往是多模态的,包括图像、音频等,这些内容在人造言语中难以表白。因此,LLM代理在处置这类情境时存在局限。未来的钻研或许须要思索整合多模态大型模型的开展,并从新思索关系的布局战略。
• 粗疏的评价方法。的基准测试关键依赖于义务的最终成功形态,缺少对每一步的粗疏评价。此外,环境反应通常是规定驱动的、过于简化的,与理想环球情境有较大差异。一个或许的钻研方向是应用像LLM这样的高自动模型来设计愈加实在的评价环境。
例如,生成代理将人类代理的日常阅历以文本方式存储,并基于情境的关系性和时效性来检索记忆。MemoryBank、TiM和RecMind等系统则应用文本编码模型将记忆编码成向量,并建设索引结构,以便检索。在检索时,形态的形容作为查问条件,用于从记忆库中检索记忆。不同系统在记忆降级方式上有所区别:MemGPT自创了计算机架构中的多级存储概念,将LLM的高低文视为RAM,而将额外的存储结构视作磁盘,LLM可以自主选择能否检索历史记忆或将高低文存储起来。REMEMBER系统则驳回Q值表来存储历史记忆,每条记载蕴含环境、义务、举措和Q值,以便在检索时依据环境和义务的相似性来生成方案Arxiv。
通往 AGI 的奥秘代码
if like_this_article():do_action('点赞')do_action('再看')add_wx_friend('iamxxn886')if like_all_arxiv_articles():go_to_link('https://github.com/HuggingAGI/HuggingArxiv')star_github_repo(
本文转载自,作者: