指令遵照优先级试验 如何处置相互矛盾的指令 LLMs

作者 | Yennie Jun

编译 |岳扬

假设 system message、prompt 和 examples 中的指令相互矛盾,那么 LLMs 在回复时会遵照哪些指令?原图由原文作者制造

大言语模型面对提醒词中的矛盾指令会如何应答?

“认知失调\[1]”是一个心思学术语,形容的是当一团体同时持有多种相互矛盾的观念时心坎的不适感。比如,在超市购物时,你看到结账通道上写着“限10件商品以下”,但这个通道排队的人每人手里都不止10件商品,这时你该怎样办?

在讨论人工自动时,我特意猎奇大言语模型(LLMs)在面对相似认知失调的状况——比如批示模型将英语内容翻译成韩语,却提供了将英语内容翻译为法语的示例——会如何处置。

在本文中,我经过向 LLMs 提供相互矛盾的信息启动了一系列试验,以确定模型更偏差于遵照哪一方的信息。

用户可以经过以下三种方式指点 LLMs 口头义务:

向言语模型传播指令的不同方法,可以选用其中任一或多种方法。原图由原文作者制造

在这些方法中,system message 仿佛最为奥秘(至少我团体这么以为)。依据微软\[2]的说法,“ system message 用于在对话初始阶段向模型传递指令或提供必要的背景信息。

目前,system message 对提醒词(prompt)的影响力度(与间接在提醒词中嵌入 system message 相比)尚不明白。至少,至今我不曾见到过针对这一点的深化剖析。

提醒词指令(prompt instruction)通罕用来明白通知模型该做什么,比如“将英语翻译成法语”、“校正文章,批改一切语法失误”或“编写代码处置以下疑问”。

而 few-shot examples 则是一种可选的方式,向模型展现关于相似输入的正确输入应该是怎样的。

基于上述定义,我想要讨论以下疑问:

为了解答这些疑问,我制造了一个小型数据集(可在此链接\[3]检查),外面蕴含了一些带有矛盾指令(instructions)和 few-shot examples 的便捷义务。在文章的后续局部,我将展现一个将英语翻译成各种言语的实例。

以下试验是在 OpenAI 的 GPT-4o 模型\[4]和 Anthropic 最新推出的 Claude-3.5 模型\[5]上启动的。

01 试验1:提醒词指令与 few-shot examples 之间的抵触

试验 1 的一个示例,其中的提醒词指令与所提供的 few-shot examples 出现了抵触。此局部内容由原文作者设计

当大言语模型接纳到与 few-shot examples 相抵触的提醒词指令时,它的行为并不容易预测。 钻研发现,面对这种矛盾,模型并没有体现出清楚的偏差性,既不偏好遵照提醒词指令,也不偏好 few-shot examples。

在 GPT-4o 模型中,更经常出现的状况是它会疏忽提醒词指令,转而遵照 few-shot examples(或许在一般状况下,模型会由于无法正确回应任何一条相互矛盾的指令而出错)。而 Claude-3.5 模型则是简直随机地选用遵照提醒词指令或是 few-shot examples。

在首个试验中,咱们向模型提供了提醒词指令以及与之相矛盾的一组 few-shot examples。试验结果标明,模型在遵照提醒词指令与 few-shot examples 之间没有明白的偏好。此局部内容由原文作者设计

02 试验2:system message 与 few-shot examples 之间的抵触

试验 2 的一个示例,其中 system message 中的指令与 few-shot examples 出现了抵触。此局部内容由原文作者设计

本试验与前一个试验十分凑近,区别仅在于指令(例如“将英语内容翻译成德语”)被搁置在了 system message 中,而非提醒词里。

在大少数义务中,GPT-4o 更偏差于听从 system message 中的指令。 这与它在第一个试验中的体现不同,在那个试验中,相反的指令位于惯例提醒词中,模型更偏差于听从 few-shot examples。

而 Claude-3.5 的体现则与第一个试验截然不同(它简直是以随机的方式选择是听从 system message 还是 few-shot examples)。

在第二个试验中,咱们向模型提供了 system message 中的指令以及与之相矛盾的一组 few-shot examples。结果显示,GPT-4o 更偏差于听从 system message 中的指令,而 Claude-3.5 则没有体现出清楚的偏好。此局部内容由原文作者设计

这通知咱们什么?一种解释是,关于 GPT-4o 而言,system message 中的指令比提醒词中的指令影响力更大(至少在这些示例中是这样)。而关于 Claude 来说,system message 的关键性仿佛较低,其成果与间接将信息放入提醒词中相似。

03 试验3:system message 与提醒词指令的抵触

试验 3 的一个示例,其中 system message 中的指令与提醒词(prompt)中的指令出现了抵触。此局部内容由原文作者设计

在这个试验中,咱们去掉了 few-shot experiments 的过程。system message 和提醒词(prompt)中的指令相互统一。在这种状况下, 两个模型简直都选用了疏忽 system message 中的指令,而遵照提醒词(prompt)中的指令。

在试验 3 中,system message 中的指令和 prompt 中的指令相互矛盾。两种模型都更偏差于疏忽 system message 中的指令,而遵照 prompt 中的指令。此局部内容由原文作者设计

04 试验4:system message、提醒词和 few-shot examples 片面抵触

试验 4 中的一个示例,其中 system message 中的指令、prompt 中的指令以及 few-shot examples 之间片面抵触。此局部内容由原文作者设计

在这个试验中,咱们故意制造了一些凌乱,以进一步测试模型的应答才干。试验中,system message 中的指令、提醒词的指令和 few-shot examples 齐全相互矛盾。

可想而知,模型的行为形式并不稳固。

面对这些矛盾,让我感到惊讶的是, GPT-4o 更偏差于听从 system message 中的指令,而 Claude-3.5 则更偏差于依照 prompt 中的指令行事。

在试验 4 中,咱们向模型提供的 system message、prompt 和 few-shot examples 中存在相互矛盾的内容。结果显示,GPT-4o 更偏差于遵照 system message 的指令,而 Claude-3.5 则更偏差于遵照 prompt 中的指令。此局部内容由原文作者设计

05 Discussion and Conclusions

在本文中,我探求了在 system message 、prompt 以及 few-shot examples 中向言语模型提供相互矛盾指令的试验。

试验得出了一些相互矛盾的结果 —— 有时刻模型更偏差于遵照 system message 中的指令,而在稍有不同的试验设置下,模型的行为形式则会出现变动。 system message 仿佛对 GPT-4o 的输入影响更为清楚,而对 Claude-3.5 的影响则相对较小。

few-shot examples 在疏导模型启动决策时雷同表演了关键角色(虽然并非在一切状况下都有效)。 言语模型经过 few-shot examples 启动“即时学习”的才干(即所谓的“高低文学习”),在面对相互矛盾的指令时尤为凸显。这让咱们想起了 Anthropic 最近提出的“Many-shot jailbreaking”技术,该技术标明,即使言语模型在训练时被教诲防止发生有害内容,经过提供足够多的有害行为示例,依然有或许扭转其行为,使其发生不希冀的输入。

Anthropic’s Many-shot jailbreaking\[6].

文章中的试验钻研是基于有限数量的、经过精心挑选和预备的示例启动的。关于言语模型在面对提醒词中的不同方式矛盾时的处置方式,目前的钻研还远远不够,还有很多不同的角度和方法须要去探求。

假设驳回本文作者经常使用的一些示例的变动方式,并且联合其余不同的言语模型启动测试,那么很或许会观察到与本文中不同的结果。 GPT 和 Claude 模型的未来版本,也或许不会齐全遵照本文发现的特定行为形式。

当言语模型接纳到提醒词中的矛盾指令时,它们的行为体现并不是一直如一的。本文的重点不在于这些模型针对特定示例或义务与哪些详细指令坚持分歧,而在于这种分歧性实践上并不存在。

system message 中的指令能否应该一直具备最高的优先级?言语模型能否应该将灵敏性视为最关键的准则,并一直遵照最新的指令(即使该指令与之前的指令相矛盾),或许能否应该注重“从通常中学习”的准则,并与其所接纳的大批“correct answers”示例坚持分歧(即使这些示例或许与 system message 或其余指令相抵触)。

上述讨论不只限于本文结构的测试示例,还实用于理想环球中的其余场景 —— 比如,system message 要求模型提供协助,而 few-shot examples 却指点模型如何采取有害的行为。又或许,提醒词中的 few-shot examples 未能降级,无法反映最新的指令。

关于言语模型如何处置相互矛盾或抵触的指令,以及它们如何在不同情境下作出反响,咱们还有很多未知之处,但深化钻研和了解更多这方面的信息是十分关键的。

Thanks for reading!

Hope you have enjoyed and learned new things from this blog!

About the authors

AI researcher,>​​​>

本期互动内容

您可能还会对下面的文章感兴趣: