planning终篇打造更痴呆的自动体！ Agent

2024-11-15

当天咱们从另外一个角度对布局才干启动总结，明日开局咱们会分享对于Memory关系的内容。当咱们议论LLM撑持的Agent时，布局模块（Planning Module）是它们自动行为的外围。构想一下，假设你要实现一项复杂的义务，比如组织一场大型优惠，你或许会把它合成成一系列小义务，而后逐个处置。自动体的布局模块也是这么干的！

布局模块的设计理念是模拟人类的布局才干，它能让自动体更正当、更弱小、更牢靠地执行。

首先，咱们得选择自动体在布局环节中能否能接纳外部反应。没有外部反应的状况下，自动体就像一个孤独的思索者，它依托外部的逻辑和预设的规定来制订方案。比如，经常使用CoT（Chain of Thought）模型，自动体会将复杂疑问合成成多个推理步骤，每一步都严密相连，疏导LLM按顺序处置疑问。这就像依照食谱做菜，食谱上的每个步骤都间接对应下一步，确保了最终的菜肴能够成功实现。

还有一种是多门路推理，这就像咱们在做选择时，脑海中或许会同时产生好几个选项。例如，ToT（Tree of Thoughts）模型，它将推理步骤组织成一个树状结构，每个两边步骤都或许有多个子步骤，模拟了人类在每个决策点上的多种或许性。

单门路和多门路推理战略的比拟

然而，事实环球是复杂的，有时刻咱们的方案须要依据外界的反应来调整。这就是有外部反应的布局。构想一下，你在建造一个模型飞机，每次试飞后你都会依据航行状况来调整设计。自动体也是这样，它会依据环境的反应来调整自己的执行方案。例如，Voyager模型在Minecraft游戏中经过环境反应来改良其修建技艺的执行代码，或许SayPlan模型经常使用场景图模拟器来验证和完善其战略布局。

环境反应是自动体从客观环球或虚构环境中取得的信号，比如游戏义务的实现信号或许自动体执行后的环境变动。人类反应则更客观，它可以协助自动体更好地合乎人类的价值观和偏好。例如，Inner Monologue模型经过踊跃地从人类那里失掉对于场景形容的反应，并将这些反应整合到自己的执行中。

还有模型反应，这是基于预训练模型生成的外部反应，可以协助自动体自我审核和改良。例如，SelfCheck模型准许自动体审核和评价自己在各个阶段生成的推理步骤，并经过比拟结果来纠正失误。

总的来说，布局模块是自动体成功实现义务的主要。它须要自动体能够了解义务、制订方案，并依据反应启动调整。这不只仅是一个技术疑问，更是对自动体如何模拟人类思想和执行模式的深化探求。随着技术的开展，咱们可以等候自动体在布局和执行上体现得越来越像人类。

本文转载自，作者：

<<评价的智能体具有自我学习 Q Agent

音乐生成更高品质人人都是音乐家！中科大&amp 更有乐感科大讯飞重磅开源OpenMusic>>

planning终篇 打造更痴呆的自动体！ Agent

您可能还会对下面的文章感兴趣：

随便看看

planning终篇打造更痴呆的自动体！ Agent