Multi

2024-11-14

在人造言语处置（NLP）畛域，言语模型程序（Language Model Programs）正逐渐成为推进义务停顿的关键力气 。这些由多个模块化言语模型（LM）调用组成的复杂管道，为处置复杂的NLP义务提供了新的思绪和方法。但是，构建这些管道并非易事， 其中一个关键应战就是如何优化揭示（prompts），使得一切模块都能高效协同上班 。当天咱们就来引见一篇来自DSPy一作、斯坦福大学博士生、并且行将成为MIT助理传授的Omar Khattab指导的一项无心思的上班！

一、钻研背景

（一）言语模型程序的开展与应战

随着技术的开展，言语模型在处置复杂义务时，经常须要运用复杂的揭示技术，并将其组分解多阶段的管道。例如在问答系统、文本生成、消息检索等义务中，经过将多个言语模型按特定顺序和方式组合，可以成功更弱小的性能。但是，目前构建这些管道大多依赖于手动的“揭示工程”（prompt engineering），即经过重复实验来设计揭示，以促使特定的言语模型在特定的管道步骤中运转。这种方法不只耗时费劲，而且难以保障成果的最优性。

（二）现有揭示优化方法的局限性

近年来，虽然发生了一些揭示优化器（prompt optimizers），如APE、OPRO和EvoPrompt等，但它们大多针对单个言语模型的揭示优化，不可间接运行于多阶段的言语模型程序。在多阶段程序中，由于不足对单个言语模型调用的黄金标签或评价目的，使得揭示优化变得愈加艰巨。

图1：优化疑问的一个示例，以一个多跳检索言语模型程序展现。给定一些问答对和一个度量规范，优化器为每个阶段提出新的指令并疏导新的演示（未图示）。

二、疑问定义与应战剖析

（一）疑问正式化

思考一个由m个模块组成的言语模型程序Φ，每个模块经常使用一个言语模型，并由一个蕴含一组变量（开明插槽）v的揭示模板pi定义。咱们的目的是找到一个变量到字符串的总调配，使得程序在给定的训练集D上，依据评价目的μ到达最优性能。这个疑问面临着诸多应战，例如每个字符串可以取恣意值，评价目的只能在整个义务层面提供监视，不可失掉言语模型的梯度或嵌入，以及通常只要小数据集和有限的言语模型调用估算等。

（二）关键应战

三、处置战略

（一）应答提案应战的战略

图2：疏导随机搜查。在第1步中，经过将训练输入在程序Φ中运转，并保管依据度量规范µ判别能发生足够高得分输入的轨迹，来疏导演示。在第2步中，经常使用随机搜查对这些疏导出的演示集启动搜查，并前往性能最佳的汇合。

（二）应答信誉调配应战的战略

四、算法实例与实验

（一）算法实例

图3：模块级OPRO优化器。模块级指令和程序分数对的历史作为输入提供应提案言语模型，以便为每个模块生成一条新指令。而后在程序中对这些指令启动评价，并将所得分数与每个模块的指令一同参与回模块的历史记载中。这个环节重复I次。

图4：MIPRO优化器。在第1步中，经常使用与疏导随机搜查第1步相反的环节疏导演示。在第2步中，经常使用3.1节中形容的基础设定战略提出指令。在第3步中，经常使用贝叶斯优化来找到指令和演示候选的最佳性能组合。

（二）实验设置

表1：DSPy优化器基准测试和关系程序。咱们在七个不同的程序上对咱们的优化器启动基准测试。

（三）实验结果与讨论

表2：5次运转的平均结果，分为仅优化指令（即“0 - shot”揭示）、仅优化演示以及两者同时优化。每列中性能最佳的值用粗体突出显示。这些粗体值示意与第二高值相比的最高平均分数，相应运转平均值之间的威尔科克森符号秩测验（p <.05）允许其清楚性。假设清楚性未失掉确认，则多个结果用粗体示意它们具备可比的性能。

五、钻研奉献与局限

（一）奉献

（二）局限

总的来说，这项钻研在言语模型程序揭示优化方面取得了关键停顿，为未来的钻研和通常提供了有价值的参考和方向。虽然存在一些局限，但也为进一步的探求和改良提供了空间。

原文链接：

<<分歧性虚拟性和模拟性多自动体大模型协作中的角色不分歧性

DeepMind推出Gemma 2 咱们一同聊聊Google 技术报告>>