评价的智能体 具有自我学习 Q Agent
GPT-4、Gemini等大模型在人造言语处置义务中取得了提高,但在交互式、多步骤环境中的泛化才干仍有短少。例如,当咱们在网上购置一件特定的商品时,须要在泛滥网页中启动搜查、比拟和选用。
AGI平台MultiOn和斯坦福的钻研人员联结开发了一种智能体Agent Q,能自主布局、推理一些义务。Agent Q与其余智能体最大差异的是,它能从失败和成功的义务中智能学习、评价,从而提高在复杂多步骤推理义务中的泛化才干。
论文地址:
Agent Q框架驳回了蒙特卡洛树搜查(MCTS)算法来指点智能体的探求和决策环节。
MCTS是一种启示式搜查算法,宽泛运行于游戏和决策畛域,经过模拟或者的将去门路来评价和选用最优的执行战略。
在Agent Q中,MCTS用于在网页环境中导航,协助智能体在每一步选用最有宿愿的举措。这一环节触及选用、裁减、模拟和反向流传四个阶段,经过迭代地优化搜查树来提高战略的性能。
MCTS算法在复杂环境中面临的一大应战是环境鼓励的稠密性,或者会造成智能体在常年义务中遇到艰巨。
为了处置这个难题,Agent Q引入了自我批判机制,这是一种自我评价环节,智能体在每个决策节点上经常使用自身的评价来提供两边鼓励。这不只协助智能体在搜查环节中启动自我监视,而且经过提供即时反应能指点智能体学习正确的布局门路。
Agent Q的自我批判机制依赖于一个反应言语模型,该模型对智能体在每个节点上或者采取的举措启动评分,从而构成一个加权分数。
这个分数结合了MCTS的平均Q值和反应言语模型生成的分数,用于构建间接偏好优化(DPO)算法中的对比对。DPO算法是一种离线强化学习算法,经过比拟不同举措的偏好来优化战略,使得智能体能够从成功的和不成功的轨迹中学习。
Agent Q框架的另一个特征模块是“迭代式微调”,也是成功自我学习的关键所在。 在迭代中,智能体经过与环境的交互始终学习和改良。与传统的监视学习不同,迭代式微调准许智能体在没有明白标签的环境下启动学习,经过自我生成的数据和偏好对来指点优化环节。
此外,Agent Q框架还思考了智能体的形态示意疑问。在网络交互中,智能体的形态或者局部无法观察,因此构建一个有效的形态示意关于智能体的性能至关关键。Agent Q驳回了一种紧凑的历史示意方法,将智能体迄今为止生成的举措和阅读器形态结合起来,构成了一个高效的内存组件。
为了测试Agent Q的性能,钻研人员在一种模拟电子商务平台WebShop启动了综合测试。试验结果显示,Agent Q的体现清楚优于行为克隆和强化学习微调的基线模型,在某些义务中甚至超越了平均人类体现。
尤其是在实在环球的预订场景中,Agent Q将Llama-3 70B模型的零样本成功率从18.6%优化至81.7%,相对优化了340%,并在装备在线搜查配置后,成功率进一步提高到了95.4%。
原文链接: