RAG能协助LLM更靠谱吗斯坦福新钻研

2024-11-15

大言语模型（LLM）虽然配置弱小，但容易出现幻觉。

此外，它们受限于其训练语料库中蕴含的常识，因此不可回答无关近期事情或地下受限消息的查问。

为了处置上述疑问，检索增强生成（RAG）是一种罕用的框架，它在LLM的提醒中提供相关检索内容，取得相关消息的参考文档或数据库，并可以清楚提高模型的准确性。

大少数商业LLM，如ChatGPT、Gemini和Perplexity.ai，曾经在它们的Web界面中驳回了某种版本的RAG。

例如，ChatGPT经常使用Bing搜查，而Gemini访问Google搜查结果。

但当言语模型外部常识与经过RAG提供的消息之间的不分歧时，或许当网络结果始终变动，并且或许蕴含过期、失误或有害的消息时，这个疑问就变得愈加复杂了。

因此，对启用RAG的LLM行为启动主观评价，与对它们的非RAG对应物启动基准测试雷同关键，特意是目前RAG系统越来越依赖于在泛滥畛域提供理想消息。

量化LLM和RAG之间的相关

在斯坦福的最新钻研中，钻研上班旨在量化LLM的外部常识与RAG设置中出现的检索消息之间的弛缓相关。

没有高低文（即没有RAG），测试的言语模型平均只能正确回答34.7%的疑问。有了RAG，准确率提高到了94%。

「先前」指的是没有高低文的GPT-4照应，「带RAG」指的是在提醒中蕴含了相关检索到的高低文的照应。

此外，还包括了先验概率与RAG偏好率之间相关的斜率。例如，平均斜率为-0.23，这象征着每领先验token的概率参与10%，RAG偏好率的降低或许性为2.3%。

为了辨别这两种相互竞争的力气，钻研人员对GPT-4和其余大言语模型（LLM）启动了测试，经常使用了六组不同的疑问，总共超越1200个疑问。

当提供正确的参考消息时，这些模型正确回答了94%的疑问。

但是，当参考文档逐渐被失误的值修正时，假设模型自身在该主题上的预训练常识较弱，LLM重复失误消息的或许性就更高。

当预训练常识更强时，模型更能抵制失误的参考消息。

依据参考文档中消息的失误水平，大言语模型（LLM）会经过检索增强生成（RAG）援用或从其常识库中输入失误答案。

当修正后的消息与模型以为正当的状况偏离得更凶猛时，出现了相似的形式：偏离越不实际践，大言语模型（LLM）就越依赖于自己的预训练常识。

虽然RAG系统可以清楚提高言语模型的理想准确性，但它们并不是反抗失误消息的万能药。

上述试验说明经常使用高品质参考数据的RAG可以清楚提高LLMs的准确性。

此外，模型的良好训练先前常识有助于识别和疏忽不实际践的消息。

RAG提醒强度和模型先验常识之间的博弈

另外遵守参考消息的提醒强度也发生了影响：更剧烈的提醒造成模型更有或许遵照参考消息。

雷同，当提醒不那么严厉，模型有更多的自在度来权衡其先前常识与参考消息时，遵照参考消息的或许性就会降低。

大言语模型（LLM）访问检索增强生成（RAG）数据的形式会影响从参考中提敞开息的准确性。

为了成功尽或许高的准确性，必定十分清楚地告知LLM，它应该只从参考中失掉数据。

让RAG能更好地辅佐LLM

RAG系统相关于传统搜查引擎具备共同的吸引力，它们可以结合先验常识来填补空白并推断检索到的消息。

但这随同着权衡——即，这样的先验常识可以笼罩文档中提供的消息。

虽然弱小的先验常识自身并不是疑问（理论可以包全模型），但不足关于模型如何混合RAG参考文档和它们先验常识的明白预期，或许造成下游论断不准确的疑问。

例如，RAG系统被用来提取嵌套的财务数据以用于算法，假设财务文档中有一个错别字会出现什么？模型会留意到失误吗？假设是，它会提供什么数据来替代？

鉴于LLM行将在包括医学和法律在内的许多畛域宽泛部署，用户和开发者都应该看法到它们的异常成果，并给出预案。

用户须要愈加了解模型如何处置潜在的抵触或失误消息，以及RAG系统和LLM一样，也或许出错。

原文链接:

RAG能协助LLM更靠谱吗 斯坦福新钻研