拥抱全新Agent ToolGen! 遗记Tool检索

传统大模型工具调用的方法依赖于将工具形容作为高低文输入,这遭到高低文长度的限度,并须要独自的、理论效率低下的检索机制。

之前基于检索的方法与ToolGen之间的比拟。以前的方法经常使用检索器依据相似性婚配检索关系工具,这些工具进一步被放入揭示中供LLMs选用。ToolGen可以经过间接生成工具标志来检索工具。ToolGen也可以在不依赖任何外部检索器的状况下成功义务。

为此,微软等提出ToolGen,这是一种将工具常识间接整合到LLM参数中的范式转变,将每个工具示意为大型言语模型(LLM)词汇表中的一个共同虚构标志(token),将工具检索和口头集成到LLM的生成环节中。

ToolGen框架的说明。在工具虚构化中,工具被映射到虚构标志中。在接上去的三阶段训练中,ToolGen首先经过基于文档预测工具标志来记忆工具。而后它学习经过从查问中预测工具标志来检索工具。最后,经常使用流水线数据,即轨迹,来微调最后阶段的检索器模型,从而发生ToolGen代理模型。

ToolGen的三个训练阶段:

ToolGen的推理方法:

在推理环节中,ToolGen或者会生成预约义工具标志集之外的举措标志。为了防止这种状况,设计了一个受限的束搜查(beam search)生成战略,将输入标志限度在工具标志集内。这在工具检索和端到端代理系统中都失掉了运行,清楚缩小了举措生成步骤中的幻觉(hallucination)。

ToolGen框架准许LLM无需额外的检索步骤即可访问和应用少量工具,清楚提高了功能和可裁减性。在超越47,000个工具的试验结果标明,ToolGen不只在工具检索和自主义务成功方面取得了优越的结果,而且为能够顺应不同畛域工具的AI代理的新时代铺平了路线。

在两种设置中启开工具检索评价:(1) 同域(In-Domain),在这种设置中,模型在同一畛域内启动训练和评价;以及 (2) 跨域(Multi-Domain),在这种设置中,模型在一切畛域上启动训练,并经常使用一切畛域的全套工具启动评价。BM25、EmbSim和Re-Invoke是未经训练的无监视基线模型。IterFeedback是一个具备多个模型和反应机制的检索系统。ToolRetriever是经常使用对比学习训练的,而ToolGen是经常使用下一个标志预测启动训练的。带*号的结果不是咱们成功的,而是从它们原来的论文中复制上来的,因此只在同域设置中有。关于同域设置中的ToolGen,咱们准许生成空间蕴含一切标志,这与其余模型相比是一个更具应战性的场景。每个类别中最好的结果都加粗显示。

在两种设置下对未见过的指令启动端到端评价功能。在R设置中,GPT3.5和ToolLlama经常使用ToolRetriever,而ToolGen不经常使用外部检索器。关于一切结果,SoPR和SoWR都评价了三次,并报告平均值。

工具记忆和检索训练的数据集示例。经常使用用户角色来代表输入,助手角色来代表输入。

端到端Agent调优的示例

ToolGen的推理示例。首先给出一个没无关系工具的系统揭示。而后用户提出义务查问。ToolGen生成思索(Thought),而后经常使用用户角色来揭示模型生成举措(action)。生成举措后,再次经常使用用户角色来提供工具文档。模型将依据这份文档生成工具输入。

UNIFIED TOOL RETRIEVAL AND CALLING VIA GENERATION

本文转载自​ ​PaperAgent​ ​

您可能还会对下面的文章感兴趣: