生成式AI的开展方向应当是Chat还是Agent

2024-11-15

如今看，应该是Agent。

前一段期间，比尔.盖茨在他的博客上宣布了：《AI is about to completely change how you use computers》比尔·盖茨在这篇文章中讨论了AI Agent对咱们未来生存的渺小影响。他谈到了AI Agent在医疗保健、教育、消费劲、文娱和购物等畛域的作用。这些Agent将为人们提供更共性化的服务，协助处置各种疑问并提供允许，从辅佐医生和老师上班四处置日常义务，甚至影响咱们与好友和家人的互动形式。AI Agent正在以各种形式迅速进入咱们的生存，将在未来几年内彻底扭转咱们的生存形式。

1 什么是AI Agent (LLM Agent)

1.1 AI Agent 的定义

AI Agent是一种逾越便捷文本生成的人工智能系统。它经常使用大型言语模型（LLM）作为其外围计算引擎，使其能够启动对话、执行义务、推理并展现必定水平的自主性。简而言之，Agent是一个具有复杂推理才干、记忆和执行义务手腕的系统。

1.2 AI Agent 的关键组成局部：

在LLM赋能的自主agent系统中(LLM Agent)，LLM充任agent大脑的角色，并与若干关键组件协作。

布局（planning）

记忆（Memory）

工具经常使用（tool use）

执行（Action）

2 AI Agent的意义

2.1 人机协同形式

基于大模型的Agent不只可以让每团体都有增强才干的专属智能助理，还将扭转人机协同的形式，带来更为宽泛的人机融合。生成式AI的智能反派演化至今，从人机协同出现了三种形式：

（1）嵌入（embedding）形式。用户经过与AI启动言语交换，经常使用揭示词来设定指标，而后AI协助用户成功这些指标，比如个别用户向生成式AI输入揭示词创作小说、音乐作品、3D内容等。在这种形式下，AI的作用相当于执行命令的工具，而人类负责决策者和指挥者的角色。

（2）副驾驶（Copilot）形式。在这种形式下，人类和AI更像是协作同伴，独特介入到上班流程中，各自施展作用。AI介入到上班流程中，从提供倡导到协助成功流程的各个阶段。例如，在软件开发中，AI可以为程序员编写代码、检测失误或优化性能提供协助。人类和AI在这个环节中独特上班，互补彼此的才干。AI更像是一个常识丰盛的协作同伴，而非单纯的工具。

实践上，2021年微软在GitHub初次引入了Copilot（副驾驶）的概念。GitHub Copilot是一个辅佐开发人员编写代码的AI服务。2023年5月，微软在大模型的加持下，Copilot迎来片面更新，推出Dynamics 365 Copilot、Microsoft 365 Copilot和Power Platform Copilot等，并提出“Copilot是一种全新的上班形式”的理念。上班如此，生存也雷同须要“Copilot”，“出门问问”开创人李志飞以为大模型的最好上班，是做人类的“Copilot”。

（3）智能体（Agent）形式。人类设定指标和提供必要的资源（例如计算才干），而后AI独立地承当大局部上班，最前人类监视进程以及评价最终结果。这种形式下，AI充沛表现了智能体的互动性、自主性和顺应性特色，凑近于独立的执行者，而人类则更多地表演监视者和评价者的角色。

人类与AI协同的三种形式

从前文对智能体记忆、布局、执行和经常使用工具四个关键模块的配置剖析来看，智能体形式相较于嵌入形式、副驾驶形式无疑更为高效，或将成为未来人机协同的关键形式。

基于Agent的人机协同形式，每个个别集体都有或许成为超级集体。超级集体是领有自己的AI团队与智能化义务上班流，基于Agent与其余超级集体建设更为智能化与智能化的协作相关。如今业内不乏一人公司、超级集体的踊跃探求。

2.2 AI Agent与软件开发

AI Agent将使软件架构的范式从面向环节迁徙到面向指标。现有的软件（包括APP）经过一系列预约义的指令、逻辑、规定和启示式算法将流程固定上去，以满足软件运转结果合乎用户的预期，即用户依照指令逻辑一步一步操作达成指标。这样一种面向环节的软件架构具有高牢靠性、确定性。但是，这种面向指标的架构只能运行于垂直畛域，而无法普遍运行到一切畛域，因此规范化和定制化之间如何平衡也成为SaaS行业面对的难题之一。

软件架构范式迁徙

AI Agent范式将本因由人类主导的配置开发，逐渐迁徙为以AI为关键驱能源。以大模型为技术基础设备，Agent为外围产品外形，把传统软件预约义的指令、逻辑、规定和启示式算法的义务层级演化成指标导向的智能体自主生成。这样一来，原本的架构只能处置有限范围的义务，未来的架构则可以处置有限域的义务。未来的软件生态，不只是最下层与一切人交互的媒介是Agent，整个产业的开展，无论是底层技术，商业形式，两边组件，甚至是人们的生存习气和行为都会围绕Agent来扭转，这就是Agent-Centric时代的开启。

RPA范式（Robotic Process Automation）与APA范式（Agentic Process Automation）的比拟

3 经常出现LLM Agent框架或许运行：

3.1 AutoGPT

可以说是LLM Agent的鼻祖了。Auto-GPT是一个试验性的开源运行程序，展现了GPT-4言语模型的才干。这个程序由GPT-4驱动，将LLM“思维”衔接在一同，以自主地成功您设置的任何指标。作为GPT-4齐全自主运转的最早示例之一，Auto-GPT打破了人工智能的极限，将AI进程推向了新高度 -- 自客人工智能。

3.2 AutoGen

微软颁布的AutoGen agent是可定制的、可对话的，并能以各种形式运转，这些形式驳回 LLM、人类输入和工具的组合。经常使用 AutoGen，开发人员还可以灵敏定义agent交互行为。人造言语和计算机代码都可用于为不同的运行编程灵敏的对话形式。AutoGen 可作为一个通用框架，构建具有不同复杂性和 LLM 才干的各种运行。实证钻研证实了该框架在许多样本运行中的有效性，运行畛域包括数学、编码、问答、运筹学、在线决策、文娱等。

3.3 ChatDev

清华大学 NLP 试验室联结面壁智能等科研机构研发的一个大模型驱动的全流程智能化软件开发框架。ChatDev (Chat-powered Software Development)。ChatDev 拟作一个由多智能体协作经营的虚构软件公司，在人类“用户”指定一个详细的义务需求后，不同角色的智能体将启动交互式协同，以消费一个完整软件（包括源代码、环境依赖说明书、用户手册等）。这一技术为软件开发智能化提供了新的或许性，允许快捷高效且经济实惠的软件制造，未来将有效地将局部人力从传统软件开发的惨重休息中束缚进去。

GitHub - OpenBMB/ChatDev: Create Customized Software using Natural Language Idea (through LLM-powered Multi-Agent Collaboration)(

GitHub - OpenBMB/XAgent: An Autonomous LLM Agent for Complex Task Solving(

XAgent是面壁智能联结清华大学 NLP 试验室独特研发开源的基于LLM的自主智能体，可以智能处置各种义务。它被设计为一个通用的智能体，可以运行于各种义务，终极指标是创立一个可以处置任何给定义务的超级智能体。换句话说，打造的是超级无敌的多边形兵士，不是独自为某个义务设计的特定智能体。

3.5 GPT-engineer

GitHub - gpt-engineer-org/gpt-engineer: Specify what you want it to build, the AI asks for clarification, and then builds it.(

3.6 HuggingGPT

HuggingGPT也是一个老牌的AI Agent名目了，关键思绪为应用LLM的框架（例如。ChatGPT）来衔接机器学习社区中的各种AI模型（例如huggingface）来处置人工智能义务。网址：HuggingGPT - a Hugging Face Space by microsoft(

代码：

论文：HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face(

4 AI Agent的展望与应战

4.1 展望

AI Agent是人工智能成为基础设备的关键推进力。回忆技术开展史，技术的止境是成为基础设备，比如电力成为像空气一样不易被人们发觉，但是又必无法少的基础设备，还如云计算等。当然这个要教训以下三个阶段：翻新与开展阶段–新技术被发明并开局运行；遍及与运行阶段–随着技术成熟，它开局被宽泛运行于各个畛域，对社会和经济发生深远影响；基础设备阶段–当技术变得遍及到简直无处不在，它就转变成了一种基础设备，曾经成为人们日常生存中无法或缺的一局部。简直一切的人都认同，人工智能会成为未来社会的基础设备。而智能体正在促使人工智能基础设备化。这不只得益于低老本的Agent软件消费长处，而且由于Agent能够顺应不同的义务和环境，并能够学习和优化其性能，使得它可以被运行于宽泛的畛域，进而成为各个行业和社会优惠的基础撑持。

人工智能智能体运行一览图

Agent下一步或许会朝着两个方向同时迭代。一是与人协助的智能体，经过执行各种义务来协助人类，并重工具属性；二是拟人化方向的迭代，能够自主决策，具有常年记忆，具有必定的类人格特色，并重于类人或超人属性。

4.2 应战

从技术优化迭代和成功过去看，AI Agent的开展也面临一些瓶颈。

技术方面，LLM模型依然不够弱小，即使是最弱小的GPT4在AI Agent运行时，依然面临以下一些疑问：

其次，太烧钱了，尤其是多智能体。斯坦福的虚构小镇一个Agent一天须要消耗20美金多少钱的token数，由于其须要记忆和执行的思索量十分大。这一多少钱是比很多人类上班者更高的，须要后续Agent框架和LLM推理侧的双重优化。

还有就是现阶段在很多场景，经常使用AI Agent对比Copilot形式的最终成果，还看不到十分大的优化，或许说能笼罩参与老本的优化。大局部AI Agent技术还都是钻研阶段。

最后，这些开展趋向预示着AI Agent或许面临诸如安保性与隐衷性、伦理与责任、经济和社会务工影响等多方面的应战。别的不说，对很多人的团体职业生涯的常年影响。

以ChatGPT的颁布为分水岭，世界自在职业平台上的写作/编辑类从业者的数量和支出都进入了断崖式上涨的轨道

原文链接:

<<Markdown编辑器减少Latex数学公式教程

中科大提出UniMEL框架>>

生成式AI的开展方向 应当是Chat还是Agent