T

2024-11-14

AIAgent（自动体）作为大模型的关键运行形式，能够经过经常使用外部工具来执行复杂义务，成功多步骤的上班流程。为了能片面评价模型的工具经常使用才干，司南及协作同伴团队推出了T-Eval 评测基准，关系成绩论文已被ACL2024主会录用。

检查原文：

PART1为什么须要 T-Eval？

经常使用了工具的大言语模型有着冷艳的疑问处置才干，然而如何评价模型的工具经常使用才干还有很大的探求空间。现有评价方法理论只关注模型处置单步骤义务时的工具调用体现，缺少在多步骤复杂义务场景下模型经常使用工具才干的评价。

因此，为了更片面地评价大言语模型的工具经常使用才干，司南及协作同伴团队推出了T-Eval (a step-by-stepTool Evaluationbenchmark for LLMs)评测基准，相较于之前全体评价模型的形式，论文中将大模型的工具经常使用分解为多个子环节，包含：布局、推理、检索、了解、指令追随和审查。

PART2T-Eval构建环节

T-Eval 的构建关键包含 3 个阶段：工具搜集、指令生成和参考答案标注。

首先，咱们依据可用性和经常使用率，筛选了15种基本工具，涵盖了钻研、游览、文娱、网络、生存和金融等多个畛域。此外，还为每个工具生成了具体的API文档，以缩小因工具形容不充沛而造成的工具调用失败案例。

而后，咱们应用 GPT-3.5 生成了初始疑问，并经过 GPT-4 进一步完善疑问。之后，咱们开发了一个多自动体框架，应用所提供的工具处置疑问，同时搜集处置方案门路和工具照应。最后，咱们经常使用人类专家来筛选高品质样本。

PART3T-Eval关键奉献

细粒度评测：T-Eval将评测环节分解为多个子义务，区分评价模型在工具经常使用上的细粒度才干。

多自动体数据生成：经常使用了由人类专家验证的多自动体数据生成流程，清楚缩小了外部起因的影响，使评测结果愈加稳固、偏心。

宽泛试验：经过在各种大模型上的宽泛试验，验证了T-Eval的有效性和普适性，为大言语模型的工具经常使用才干瓶颈提供了贵重的见地，并为改良工具经常使用才干提供了新的视角。

PART4T-Eval 评测结果

咱们在 T-Eval 上对 20 种大言语模型启动了评测，包含基于 API 的商业模型和开源模型。结果显示，GPT-4 在全体评分上取得了最高分，显示出其出色的工具经常使用才干。关于开源模型，咱们对三种不同规模的模型启动了试验，它们的尺寸大概是7B、13B和70B，可以发现，随着模型参数的参与，其体现也愈加低劣。特意是 Qwen-72B 模型，其总得分已凑近 API 模型水平。

，作者：

<<LiDAR仿真新思绪

在消费级GPU上奔跑的瘦子 WordLlama>>

T

PART1为什么须要 T-Eval？

PART2T-Eval构建环节

PART3T-Eval关键奉献

PART4T-Eval 评测结果

您可能还会对下面的文章感兴趣：

随便看看