评价的智能体具有自我学习 Q Agent

2024-11-15

GPT-4、Gemini等大模型在人造言语处置义务中取得了提高，但在交互式、多步骤环境中的泛化才干仍有短少。例如，当咱们在网上购置一件特定的商品时，须要在泛滥网页中启动搜查、比拟和选用。

AGI平台MultiOn和斯坦福的钻研人员联结开发了一种智能体Agent Q，能自主布局、推理一些义务。Agent Q与其余智能体最大差异的是，它能从失败和成功的义务中智能学习、评价，从而提高在复杂多步骤推理义务中的泛化才干。

论文地址：

Agent Q框架驳回了蒙特卡洛树搜查（MCTS）算法来指点智能体的探求和决策环节。

MCTS是一种启示式搜查算法，宽泛运行于游戏和决策畛域，经过模拟或者的将去门路来评价和选用最优的执行战略。

在Agent Q中，MCTS用于在网页环境中导航，协助智能体在每一步选用最有宿愿的举措。这一环节触及选用、裁减、模拟和反向流传四个阶段，经过迭代地优化搜查树来提高战略的性能。

MCTS算法在复杂环境中面临的一大应战是环境鼓励的稠密性，或者会造成智能体在常年义务中遇到艰巨。

为了处置这个难题，Agent Q引入了自我批判机制，这是一种自我评价环节，智能体在每个决策节点上经常使用自身的评价来提供两边鼓励。这不只协助智能体在搜查环节中启动自我监视，而且经过提供即时反应能指点智能体学习正确的布局门路。

Agent Q的自我批判机制依赖于一个反应言语模型，该模型对智能体在每个节点上或者采取的举措启动评分，从而构成一个加权分数。

这个分数结合了MCTS的平均Q值和反应言语模型生成的分数，用于构建间接偏好优化（DPO）算法中的对比对。DPO算法是一种离线强化学习算法，经过比拟不同举措的偏好来优化战略，使得智能体能够从成功的和不成功的轨迹中学习。

Agent Q框架的另一个特征模块是“迭代式微调”，也是成功自我学习的关键所在。 在迭代中，智能体经过与环境的交互始终学习和改良。与传统的监视学习不同，迭代式微调准许智能体在没有明白标签的环境下启动学习，经过自我生成的数据和偏好对来指点优化环节。

此外，Agent Q框架还思考了智能体的形态示意疑问。在网络交互中，智能体的形态或者局部无法观察，因此构建一个有效的形态示意关于智能体的性能至关关键。Agent Q驳回了一种紧凑的历史示意方法，将智能体迄今为止生成的举措和阅读器形态结合起来，构成了一个高效的内存组件。

为了测试Agent Q的性能，钻研人员在一种模拟电子商务平台WebShop启动了综合测试。试验结果显示，Agent Q的体现清楚优于行为克隆和强化学习微调的基线模型，在某些义务中甚至超越了平均人类体现。

尤其是在实在环球的预订场景中，Agent Q将Llama-3 70B模型的零样本成功率从18.6%优化至81.7%，相对优化了340%，并在装备在线搜查配置后，成功率进一步提高到了95.4%。

原文链接:

评价的智能体 具有自我学习 Q Agent