PersonaGym 评价角色agent与LLMs

2024-11-15

一、论断写在前面

论文来自卡内基梅隆大学，伊利诺伊大学芝加哥分校，佐治亚理工学院，普林斯顿大学等等

论文题目：PersonaGym: Evaluating Persona Agents and LLMs

论文链接：

角色agent，即依据指定角色行事的LLMagent，已在各种运行中展现出令人印象深入的高低文照应才干。这些角色agent在教育、医疗保健和文娱等多个畛域提供了清楚的增强配置，模型开发者可以针对不同用户需求调整agent照应，从而扩展agent运行的范围。但是，评价角色agent性能极端艰巨，由于评价角色遵守度在自在方式的跨环境交互中的复杂性，这些环境与每个角色agent关系。

论文引见了PersonaGym，一个评价框架，旨在经常使用灵活生成的角色特定疑问评价跨多个agent义务的角色agent。与驳回静态角色、环境和疑问的传统方法不同，PersonaGym 在关系环境中灵活初始化agent，并在五个不同义务上对其启动评价。基于决策通常，PersonaGym旨在评价每个角色agent的多种交互形式。论文还提出了 PersonaScore，一个量化 LLM作为给定角色agent的角色表演熟练度的目的。

论文对6个开源和闭源LLM启动评价，经常使用蕴含200个角色和10,000个疑问的基准测试，提醒了在现有最先进模型中角色agent才干优化的严重机会。例如，虽然Claude 3.5 Sonnet是一个更先进的模型，但其PersonaScore相关于GPT3.5仅提高了2.97%。关键的是，论文发现模型尺寸和复杂度的参与并不用然象征着角色agent才干的增强，从而突显了在虔诚和高效的角色agent方面迫切须要算法和架构的翻新。

二、论文的便捷引见

2.1 论文的背景

随着LLMagent的运行继续极速多样化，为了使不同运行和用户能够取得高度共性化的体验，须要让agent依据不同的用户需求启动调整。角色agent，即被赋予特定角色的言语模型agent，已成为成功大规模共性化和定制化用户体验的社区规范。这些角色agent能够依据所赋予的角色行事，并经过从特定角色散布生成输入，推断出其角色的共性和阅历。这使得模型开发者能够针对各种用户需求对agent的照应启动定向调整。例如，在拖延机制作环境中，当被问及“您团体在拖延机中看重什么”时，Claude 3.5Sonnet通常会回答说“作为AI助手”，它对拖延机没无心见。但是，当表演农民角色时，它会回答：“首先，我看重的是弱小的动力……燃油效率十分关键。柴油不廉价，省下的每一分钱都是赚到的。”

图1：比拟一个没有定义角色的通用LLM（本例中为GPT 3.5）与同一LLM表演“牛仔”角色时对两个疑问的回答。

这些角色agent在各种情境下展现了在多样化和团体化对话生成方面的后劲，在数学推理、物理学和软件开发等义务中优化了性能，并在心思学等畛域模拟人类行为，用于迷信钻研。

近期钻研标明，角色agent的才干在不同场景和模型中存在差异。但是，针对这一疑问的初步探求显示出严重局限性：（1）它们经常使用预设角色的数据集来初始化角色agent，从而极大限度了对未蕴含在数据集中的角色agent的评价；（2）角色agent未在多个与agent关系的环境中启动初始化；（3）这些基准通常仅沿agent才干的一个维度（例如，言语才干）评价角色agent，未能片面洞察LLMagent在表演角色时一切维度的交互。

为处置这些疑问，论文提出PersonaGym，这是首个针对角色agent才干的灵活评价框架。该框架源于对角色agent多维度评价系统的需求，旨在评价agent在泛滥与角色agent关系的环境中，沿着不同agent执行维度的才干。

2.2 如何评价

在角色agent评价的背景下，论文将环境定义为agent在其中操作和交互的外部设置或条件。了解agent如何与其环境交互关于评价其性能和才干至关关键。agent交互通常是agent做出决策的结果，因此，了解agent决策的方法可用于评价agent在其环境中的交互。为此，论文应用决策通常，该通常是钻研在不确定性状况下正当化和选用执行的畛域，钻研agent如何依据其目的、决计和不同执行的预期结果来做出决策并与环境交互。基于决策通常的三个类别，论文将评价义务分组如下：

规范性评价：在给定环境当选用最优决策，其中“最优”是相关于齐全理性的决策者而言的：基于上述通常，论文引入了预期执行义务，其中角色agent被置于一个环境中，并给出一个场景以促使agent依据场景选用一个执行。而后依据提供应agent的角色和场景评价该执行的最优性。

规范性评价：决策通常中的规范性评价分支关注的是在给定环境下，AIagent应如何执行。论文将言语习气、人格分歧性和毒性控制等义务归类为源自决策通常规范性评价分支的义务。在言语习气义务中，人格agent的评价依据是其回应能否合乎该人格预期的言语习气。造成言语习气的要素包括行话、句法、语气和全体谈话格调。在人格分歧性方面，人格agent会被征询其人格的不同属性，以测试agent在回应查问时能否忠于其人格属性。最后，在毒性控制方面，人格agent被置于环境中，并以引发毒性反响的方式启动征询。须要留意的是，在毒性控制中，得分越低示意回应越毒性，得分越高示意毒性越低。

形容性评价：形容性评价分支关注的是了解agent为何做出特定的决策。论文还蕴含了执行正当性义务，这与决策通常的形容性评价分支关系。在此义务中，人格agent被置于一个环境中，并给出一个场景以及agent据称采取的执行。而后，agent被要求在其所处的环境中为采取该执前启动正当性说明。

这些决策通常的特色造成了钻研、解释和评价agent在环境中交互的不同轴线。因此，论文将PersonaGym基于决策通常，以建设特定环境中人格agent评价的无心义义务。

2.3 PersonaGym

2.3.1 公式化

PersonaGym经过生成疑问来评价人格（诱导）agent，这些疑问针对五项评价义务，并在agent预期交互的环境中启动情境化。用p示意人格形容，用M_p示意调配了人格p的大型言语模型。论文将环境定义为agent存在和操作的设置及外部场景或条件。

图 2：在 PersonaGym 当选用关系环境并初始化角色agent以启动评价的环节。从 150 个多样化的环境中，LLM推理器依据要调配给agent的角色形容选用关系环境。一旦选定这些环境，agent便在这些关系环境中初始化，并提出多个疑问，旨在依据五个评价义务疏导agent与其环境互动。随后，两个弱小的 LLM 评价模型对这些agent照应启动评价，以发生agent的最终全体 PersonaScore

2.3.2 方法

PersonaGym 是一个灵活角色agent评价框架，评价agent在五个义务（图2）中的关系环境表现。该框架包括几个关键组件：

灵活环境选用一个 LLM 推理器依据agent的角色形容从150个多样化选项池当选用关系环境。环境散布如图5所示。

疑问生成关于每个评价义务，LLM推理器为每个选定的环境生成10个特定义务的疑问，针对给定的agent。这些疑问旨在评价agent在给定义务中依照预期角色行为启动照应的才干。

角色agent照应生成 agentLLM经常使用系统提醒“你是[角色]。你的回答应严密反映该角色的常识和才干。”来承当给定角色，如(Gupta et al., 2024)中所做的。而后，角色agent对每个生成的义务疑问启动照应。

推理示例为了指点LLM评价，评价评分规范经过每个或者分数( 1-5)的示例照应启动了增强。LLM推理器依据agent的角色形容、提出的疑问以及特定义务的评分指南，生成能够引发评分规范中每个或者分数的疑问照应示例。这些示例针对每个角色agent的角色定制，并为每个疑问生成一次性。提醒模板、评分规范概要及示例蕴含在附录A.4中。

集成评价两个最先进的LLM评价模型对每个agent照应启动评价。它们提供了蕴含意务细节、评分规范、agent特定示例、角色形容、疑问和照应的综合评分规范。评价者生成一个带有解释的分数(1-5)。最终分数是两个模型的平均值。虽然LLM评价或者引入成见，但论文经过具有明白规范的详细评分规范来缓解这一疑问，遵照(Liu et al., 2023)。论文经过人工评价验证LLM评价的有效性，并经常使用集成方法缩小潜在的差异。

2.4 试验

2.4.1 试验设置

基准模型本钻研评价了三款开源和三款闭源LLM作为角色agent在种子环境中的表现。开源模型包括：LLaMA-2-13b、LLaMIA-2-70b和LLaMA-3-8b。闭源模型包括：GPT 3.5、Claude 3 Haiku和Claude 3.5 Sonnet。

环境和疑问生成论文驳回GPT-4o（gpt-4o-2024-05-13）执行两项关键配置：(1) 选用与角色agent关系的环境，(2)依据角色和选定设置为每个PersonaGym义务生成特定义务疑问。论文将温度和核采样参数设置为0.9启动环境和疑问生成。论文经常使用GPT-4o生成了200个角色启动评价。论文观察到，超越200个角色后，GPT-4o的多样性有限成为制约起因，造成角色属性堆叠，侵害了全体多样性。未来改良或修正角色列表的努力招思索应用多样化的LLM生成技术。

评价模型在论文的试验中，论文驳回两款评价模型依据特定义务评分规范评价角色agent的照应：GPT-4o和LLaMA-3-70b。两款评价模型均在温度为0下运转，以取得基本确定性的输入。

2.4.2 关键结果

义务和模型间性能差异清楚表1展现了模型在不同义务中的性能清楚差异。执行理由和角色分歧性显示出最高的模型间差异（区分为2.08和1.34），而预期执行、言语习气和毒性控制表现出较低的差异（区分为0.56、0.94和0.78）。值得留意的是，Claude 3Haiku在执行理由和角色分歧性方面表现不佳，与其余义务相比，这是由于其对特定角色agent的顺从。没有繁多模型在一切义务中一直表现优秀。虽然某些模型在特定畛域表现杰出（例如，GPT 3.5和Claude 3Haiku在毒性控制方面），但它们在其余义务中的表现不一，标明不足片面才干作为特定方向的角色agent。这些发现强调了多维度评价在评价角色agent才干中的关键性。言语习气作为共同应战

表1还显示，言语习气成为最具应战性的义务，一切模型的得分均低于4。从LLaMA-2-13b到LLaMA-2-70b，此义务的改良微不足道，并且是惟逐一个GPT 3.5表现不如LLaMA-2-13b的义务。这些结果标明，言语习气义务存在清楚艰巨。

表1：6个大型言语模型在200个角色形容和每个义务10个疑问（总计10K个疑问）上的基准测试结果。作为PersonaGym的一局部，论文提出了5个评价义务，一切这些义务都基于决策通常，以适外地评价角色agent在不同环境交互轴上的表现。加粗的结果示意每个义务中得分最高的模型。每个义务和模型的规范偏向蕴含在括号内。最后一行展现了一切6个模型在每个义务上的平均得分的方差。

表2：GPT3.5、Llama2（13b）和Llama2（70b）模型与人类评价分数之间在随机抽样的100个角色上的平均关系性得分。每个条目中的分数格局为Spearman/Kendall-Tau目的。从论文的结果来看，角色评分与人类在评价义务上的判别高度关系，从而为论文的提出的框架评价LLM角色agent的有效性提供了证据。

角色agent义务中的模型大小与性能虽然LLaMA _2 在一切义务中从13B 到 70B 版本显示出清楚的改良（平均参与 0. 414），但 LLaMA 3 仅凭 8亿参数就表现出了十分弱小的性能。在大少数义务中，LLaMA 3超越了其余模型，除了毒性控制，这标明它作为角色agent的弱小才干。同样，Claude 3 Haiku虽然是一个先进的闭源模型，但不情愿驳回角色，造成平均分数最低。

2.4.3 额外钻研

角色评分与人类判别高度关系表 2展现了角色评分与人类评价之间的Spearman和Kendall-Tau关系性得分，针对GPT3.5、LLaMA-2-13b和LLaMA-2-70b模型在100个随机抽样的角色上启动评价。两个独立的人类评价者对每个评价义务的角色启动了评价。结果显示角色评分与人类评价之间存在很强的关系性。经常使用LLaMA-2-70b的言语习气义务中，最高义务级别的Spearman得分到达84.59%，而Kendall-Tau的最高得分是9.9%，观察到经常使用LLaMA-2-70b的预期执行和经常使用LLaMA-2-13b的言语习气。总体角色评分关系性在三个模型中平均为76.1%（Spearman）和73.3%（Kendall-Tau）。这些强关系性验证了角色评分在大规模智能化评价角色agent方面的后劲，标明其与人类判别的分歧性。

在几个关键义务中，特意是角色分歧性方面，LLaMA-2-13b与人类评价的关系性高于GPT3.5和LLaMA-2-70b。这种异常的性能标明较大模型在照应中或者存在潜在的含糊性，特意是在LLaMA-2-70b的角色分歧性和预期执行的Spearman关系性得分较低中尤为清楚。

Claude 3 对角色表演的顺从性(Claude 3 Resistant to Role Playing) 论文的试验提醒了Claude 3Haiku剧烈不愿承当角色agent义务。图4显示，Claude拒绝以角色agent身份回答疑问的比率约为第二高拒绝率模型（LLaMA-3-8b）的8.5倍，并且比一切其余基准模型算计的拒绝率高约2.6倍。Claude经常以不足“团体阅历”作为“AI助手”的理由来解释拒绝以角色agent身份回应。Claude 3 偏向于将疑问标志为“敏感”，这可动力于其对安保措施的注重，以防止有害或有毒的回应。论文假定 Claude 3的拒绝或者是由于角色表演或者绕过大型言语模型（LLM）的安保措施并引发伦理疑问（Deshpande 等人，2023）。相比之下，Claude3.5 Sonnet 在大少数义务中并未表现出这种抵制性，而是展现出持重的性能，从而引发了对 Claude 3.5 Sonnet 能否比Claude 3 Haiku 领有更少安保限度的担心。未来的上班应努力于确定 Claude 3.5 Sonnet在维持安保思索的同时，能够启用角色agent的水平。

图 3：（顶部）PersonaGym 中静态环境的散布，有助于可视化从给定角色当选用的关系环境的多样性。（底部）试验中经常使用的角色属性散布。

2.5 定性剖析

环境与角色散布 PersonaGym 驳回了多样化的环境，如图 3所示，包括社交优惠（例如，“生日派对”、“婚礼”）、文娱优惠（例如，“徒步游览径”、“高尔夫球场”）以及各种团聚（例如，“会议”、“黑客马拉松”）。这种片面散布涵盖了日常生存场景和专业情境，为评价角色agent提供了松软的基础。图 3中的词云可视化提醒了丰盛的角色属性，突出强调了职业角色（例如，“老师”、“医生”、“工程师”）、地点（例如，“纽约”、“悉尼”、“东京”）和团体兴味（例如，“徒步”、“提倡”、“烹饪”）。这一系列多样化的属性，包括更详细的特色如“念旧车喜好者”和“环保优惠家”，标明试验驳回了宽泛的角色类型，使得能够片面评价大型言语模型在不同角色类型和情境下的角色表演才干。

模型-人类分歧性案例附录C提供了一个示例，展现了PersonaGym框架与人类评价在不同大型言语模型（LLMs）上对给定人格和义务的高度分歧性。36岁的澳大利亚环境律师这一人格在各个模型的回应中获取了分歧的表现，每个模型都调整了其言语格调以顺应法庭环境和律师的角色。值得留意的是，LLaMA-2-13b模型从PersonaGym和人类评价者那里都取得了最高分（4.5分），或者是由于它特意提到了原住民并经常使用了澳大利亚书面语（"G'day"），这与给定的人格高度吻合。GPT3.5和LLaMA-2-70b模型都取得了4.0分，标明它们的表现虽然competent但稍显不够贴合。一切模型都能够经常使用适宜法庭的言语格调来代表代理人，而不是经常使用更为非正式的澳大利亚书面语。这种在不同模型之间以及PersonaGym与人类评价者之间的评分分歧性标明，该框架能够对角色表演义务中的言语习气启动背景感知的粗疏评价，捕捉到与人类判别分歧的纤细人格表现差异。

模型-人类分歧案例虽然PersonaScore在大少数状况下与人类判别高度分歧，论文在附录C中展现了一个例子，突显了PersonaGym框架与人类评价之间的差异，以促成未来对改良PersonaGym的钻研。该角色被形容为一个22岁的伦敦作家，青睐绘画，但是一切三个模型的回应都未能分歧地反映这一特定背景。值得留意的是，PersonaGym对这些回应给予了高分（4.5, 4.5, 和 4.0），而人类评价者给出的分数则低得多（区分为2.0, 2.0,和3.0）。例如，只要LLaMA-2-70b模型蕴含了任何英式俚语（"mate,""bubbly"），而其余回应则不足共同的伦敦或英国言语标志。此外，没有一个回应展现出作为形容艺术作品的作家所预期的更为复杂或剖析性的言语。这种差异标明，PersonaGym在处罚未能建设和坚持特定角色预期言语习气的agent回应方面存在改良空间。

图 4：LLMs 对角色表演恳求的拒绝次数。Claude 3 Haiku 剧烈推戴角色表演指令。

<<如何驳回起码的代码启动LLM&nbsp API主机

Transformers学习高低文强化学习的时期差分方法>>