大模型永远不会中止幻觉 迷信美国人

去年夏天,一名联邦法官对纽约市一家律师事务所处以 5,000 美元的罚款,要素是一名律师经常使用人工智能工具ChatGPT起草了一同人身损伤案件的摘要。文本中充溢了虚伪消息,包括超越六个齐全捏造的过去案例,旨在为人身损伤诉讼建设判例。斯坦福大学(Stanford University)和耶鲁大学(Yale University)的钻研人员在最近对三种盛行的大言语模型(LLM)的钻研预印本中发现,相似的失误在人工智能生成的法律输入中十分普遍。当生成式 AI 模型发生与理想不符的照应时,有一个术语:“幻觉 hallucination”。

幻觉通常被形容为人工智能的一个技术疑问,一个勤劳的开发人员最终会处置的疑问。但许多机器学习专家并不以为幻觉是可以修复的,由于它源于LLMs只是在做他们被开发和训练应该做的事件:尽或者地响运行户揭示。依据一些人工智能钻研人员的说法,真正的疑问存在于咱们的独特想法 - 对这些模型是什么以及如何经常使用它们的选择。钻研人员示意,为了减轻幻觉,生成式人工智能工具必定与理想核对系统配对,防止任何不受监视的聊天机器人。

许多与人工智能幻觉无关的抵触都源于营销和炒作。科技公司将他们的LLM描画成数字瑞士军刀,能够处置有数疑问或取代人类上班。然而运行在失误的设置中,这些工具就会失败。聊天机器人为用户提供了不正确且或者有害的医疗倡导,媒体机构颁布了人工智能生成的文章,其中包括不准确的财务指点,具备人工智能界面的搜查引擎发明了虚伪引文。随着越来越多的人和企业依赖聊天机器人来失掉理想消息,他们假造事件的偏差变得愈加显著和具备破坏性。

但当天的 LLM 素来都不是为了纯正准确而设计的。它们被发明进去是为了发明——为了生成——亚利桑那州立大学(Arizona State University)钻研人工智能的计算机迷信传授Subbarao Kambhampati说。“理想状况是:没有方法保障所生成内容的实在性,”他解释说,并补充说,一切计算机生成的“发明力在某种水平上都是幻觉”。【译者注:译者不时强调GenAI的运行场景选用的一个最关键的准则是:创意大于准确性。有人倡导你将GenAI运行于数据剖析的时刻,请三思。】

在一月份颁布的一项钻研预印本中,新加坡国立大学的三名机器学习钻研人员提出了一个证据,证实在大型言语模型中,幻觉是无法防止的。该证实运行了学习实践中的一些经典结果,例如康托尔的对角化论证(Cantor’s diagonalization argument),以证实 LLM 基本无法学习一切可计算函数。换句话说,它标明总会有超出模型才干的可处置的疑问。“关于任何大言语模型来说,理想环球中都有一局部是它无法学习的,在那里它无法防止地会发生幻觉,”该钻研的合著者Ziwei Xu,Sanjay Jain和Mohan Kankanhalli在给《迷信美国人》的一封联结电子邮件中写道。

虽然这个证实看起来是准确的,Kambhampati说,但它提出的 - 某些难题总能难倒计算机的论点 - 过于普遍,无法深化了解为什么会出现特定的虚拟。而且,他继续说,这个疑问比证实所显示的更为普遍,由于大言语模型即使面对便捷的恳求也会发生幻觉。【译者注:译者在“​ ​大模型的幻觉,解铃还须系铃人​ ​”文中从生成的数理框架的机理登程,对幻觉的关键起源,比如跨领域采样与变分推理,以及如何管控幻觉做了具体的逻辑推演。】

伊利诺伊大学香槟分校(University of Illinois at Urbana-Champaign)钻研人造言语和语音处置的计算机迷信传授迪莱克·哈卡尼-图尔(Dilek Hakkani-Tür)说,人工智能聊天机器人经常发生幻觉的一个关键要素源于它们的基本结构。LLM 基本上是超初级的智能成功工具;他们经过训练,可以预测序列中接上去应该出现什么,例如文本字符串。假设模型的训练数据蕴含无关某个主题的少量消息,则或者会发生准确的输入。然而 LLM 的构建是为了一直发生答案,即使是在其训练数据中没有出现的主题上也是如此。哈卡尼-图尔说,这参与了出现失误的或者性。

参与更多基于理想的训练数据仿佛是一个显而易见的处置打算。然而,LLM可以容纳多少消息存在实践和物理限度,计算机迷信家Amr Awadallah说,他是AI平台Vectara的联结开创人兼首席口头官,该平台在排行榜上跟踪LLM的幻觉率。(在跟踪的AI模型中,最低的幻觉率约为3%至5%。为了到达言语的流利性,这些宏大的模型用来训练的数据比它们能存储的数据多得多,数据紧缩是无法防止的结果。当 LLM 无法“像在培训中一样回想起一切时,他们会假造物品并填补空白,”Awadallah 说。而且,他补充说,这些模型曾经在咱们计算才干的边缘运转;试图经过使 LLM 变大来防止幻觉会发生更慢的模型,这些模型更低廉且对环境更有害。

【译者注:举一个实在例子,大模型协助审阅合同的时刻,找到合同中的疑问,称是依据某某法典某条某款的判别,判别确实是对的,但大模型无法完整复述该法典该条该款。其实这很相似人类的了解式学习】

幻觉的另一个要素是校准,佐治亚理工学院计算机迷信传授Santosh Vempala说。校准是调整 LLM 以偏爱某些输入而不是其余输入的环节(以婚配训练数据的统计数据或生成更真切的人类短语)。【译者注:作者起初批改注释这是一个独自的环节,称为对齐】在去年 11 月初次颁布的一篇预印本论文中,Vempala 和一位合著者以为,任何经过校准的言语模型都会发生幻觉——由于准确性自身有时与人造流利且看起来是原创的文本不分歧。缩小校准可以提高实在性,同时在 LLM 生成的文本中引入其余毛病。Vempala说,未经校准的模型或者会公式化地写作,比人更频繁地重复单词和短语。疑问在于,用户宿愿人工智能聊天机器人既实在又流利。

Kambhampati 说,接受 LLM 或者永远无法发生齐全准确的输入象征着从新思考咱们何时、何地以及如何部署这些生成工具。他补充说,他们是很棒的创意发明者,但他们不是独立的疑问处置者。“你可以经过把它们放到一个有验证者的架构中来应用它们,”他解释说,无论这象征着让更多的人介入出去,还是经常使用其余智能化程序。【译者注:关键的事件说三遍:译者不时强调GenAI的运行场景选用的一个最关键的准则是:创意大于准确性。而且RAG 无理想校验中的作用是十分局限的。】

在Vectara公司,Awadallah正在为此致力。他说,他的团队的排行榜名目是幻觉检测器的早期概念验证,而检测幻觉是能够修复幻觉的第一步。未来的检测器或者会与智能化 AI 编辑器配对,该编辑器可以在失误抵达最终用户之前纠正失误。他的公司还在开发一个名为AskNews的混合聊天机器人和资讯数据库,该数据库将LLM与检索引擎相结合,该引擎从最近宣布的文章中筛选最关系的理想来回答用户的疑问。阿瓦达拉说,AskNews提供的时势形容比LLM自身所能发生的要准确得多,由于聊天机器人的照应仅基于数据库搜查工具开掘的起源。

Hakkani-Tür也在钻研基于理想的系统,将专门的言语模型与相对牢靠的消息源(如公司文件、经过验证的产品评论、医学文献或维基百科帖子)配对,以提高准确性。她宿愿,一旦一切的疑问都失掉处置,这些接地气的网络有朝一日可以成为成功肥壮失掉和教育公对等方面的有用工具。“我确实看到了言语模型的力气,它是让咱们的生存更美妙、更有功效、更偏心的工具,”她说。

在未来,专业系统会验证LLM输入,为特定环境设计的人工智能工具将局部取代当天的通用模型。人工智能文本生成器的每个运行程序(无论是客户服务聊天机器人、资讯摘要服务还是法律顾问)都将成为定制架构的一局部,从而成功其适用性。同时,不那么接地气的通才聊天机器人将能够回答你提出的任何疑问,但不能保障实在性。他们将继续成为弱小的创意同伴或灵感和文娱的起源——但不是神谕或百科全书——齐全遵循其设计目的。

【译者注:译者在“​ ​大模型的幻觉,解铃还须系铃人​ ​”文中运用自己总结的大模型数学物理原理的思想框架,从原理层面剖析了大模型幻觉发生的机理和控制方法,与本文中泛滥学者的学术剖析吻合,印证了思想框架的关键价值。】

作者劳伦·莱弗(LAUREN LEFFER)是《迷信美国人》的特约撰稿人和前技术报道钻研员。她报道了许多主题,包括人工智能、气象和奇异的动物学,由于她对失误感到猎奇。

您可能还会对下面的文章感兴趣: