LLM
嘉宾 |欧迪佐
编辑|李美涵
出品 | 技术栈(微信号:blog51cto)
本文整顿自快手初级技术专家欧迪佐在WOT2024大会上的主题分享,更多精彩内容及现场PPT,请关注技术栈群众号,发送【WOT】即可间接支付。
日前,在主办的WOT环球技术翻新大会上,快手初级技术专家欧迪佐带来了主题演讲《LLM-based Agent在B端商业化的技术探求与通常》,围绕着B端商业化的业务场景,具体引见了构建Agent技术平台的通常阅历与深化思索,为观众出现了全新的视角。
本文将摘选其中精彩内容,一致整顿,宿愿为诸君带来启示。 本文将从以下三个局部开展:
1.大模型运行树立背景
2. SalesCopilot技术平台
3. 大模型运行研发的思索
1.大模型运行树立背景
首先是咱们的树立背景,快手的商业化业务中台,所服务的对象包括咱们公司外部的一线的开售、运营以及咱们的代理商和服务商,业务触及数据剖析的一系列的场景。
在大模型进去之后,咱们看法到很多场景都无时机去做默认化更新。
咱们可选用的技术方向不少,联合自身的场景,最终选用了做RAG和Agent,前者是常识助手,后者就是默认体。
咱们舍弃了其余与自身业务场景有关的局部,比如说AIGC、垂直畛域等,保证咱们能够聚焦于这两个技术方向上。
2.SalesCopilot技术平台
在做默认化更新的环节中,咱们缓缓积淀出SalesCopilot技术平台。
咱们做的第一个运行是咱们销帮帮的默认客服。在推动的环节中,咱们逐渐看法到咱们无时机协助技术部积淀一个大模型运行研发平台的。因此,咱们一边孵化运行,一边去为咱们整个技术平台做架构方面的伏笔。
上图为SalesCopilot的系统架构图,在大体上分为四个局部,三横一纵。
三横局部从上方往上看,最外围的局部就是AI引擎的局部。AI引擎蕴含前面所提到的RAG,这局部会在前面具体开展。还有业务用意(Agent),它起到承前启后的作用——上方衔接业务,上方衔接各种业务系统。这里还有一个成果评测中心,再加上语义向量相关的一些组件。以上共同组成了AI引擎。
第二层是Chathub,咱们目前关键服务的是面向默认客服的场景,所以咱们就形象出ChatHub这层,基于这个框架去接入多个默认客服的才干。
最上方一层是业务运行,所谓的业务运行是以一个租户的身份接入出去,基于租户去做数据隔离、业务共性化等。
一纵,蕴含两局部:插件框架、多租户框架。这就是咱们整个平台化的基础架构。
上方重点讲AI引擎的局部。
第一个局部是RAG。RAG是在大模型运行后,很快被大家识别和接受的技术范式,它在针对大模型的局限性做了有效的补充。这里顺便讲下大模型的几个局限,协助大家了解。
第一,幻觉疑问。在RAG的范式下,咱们基于召回,给了LLM一个具备高度确定性的高低文,让它在这个高低文中去组织回答。所以RAG并不能齐全消弭幻觉,只是极大地缓解幻觉。
第二,大模型的常识时效疑问。大模型的训练老本时期老本和经济老本十分高,很容易面临刚训练完就失效了的形态。基于RAG的外挂常识库,它可以做到常识的实时更新。
第三,大模型的记忆容量有局限。这个疑问雷同可以经过召回加精排处置,把与用户疑问最相关的消息提早整顿进去,放在一个有限的Prompt里。
第四,数据安保疑问。咱们在大模型训练时是绝无法能拿到其余企业外部数据的,这也有赖于RAG缓解由此带来的矛盾。
上图为目前整个RAG的技术链路,由四个局部组成。离线链路上常识构建和运营的局部,其是整个RAG运转的关键基础。这里很容易被漠视,在座的各位都是偏技术的同窗,咱们通常以为把技术链路构建起来,如同就肯定能失掉一个好的结果,其实不是。假设没有一个专门的团队去做常识的运营、常识品质的保证、常识规模的增长等等,就好比没有油的车一样跑不起来。
第二个局部是常识预处置,这局部比拟惯例,比如说要做切片、要做Embedding。快手有个比拟不凡的状况,咱们大局部常识都是以云文档的格局存在的,有对内、对外两种方式。而常识之间经常相互援用,所以咱们研发了一个常识下钻的才干,举个实践的例子,200篇常识文档,经过咱们的下钻裁减后,最终库里到达700篇。
以上是离线链路。离线链路里会有一个多路召回,这局部呢曾经在向量和ES中预备好了。
在线链路的外围由三局部组成。
RAG的R是咱们惯例的检索。RAG的A是向量召回的局部,也是三局部中的外围。G就是咱们最终构建的RAG Prompt,让LLM总结的局部。
咱们不时在优化配置。在最开局上线多路召回,咱们发现这个战略能够在向量上优化70%的成果。随着开展,肯定会发如今对Query的了解上要求调整——由于用户对系统的边界、定义是没有感知的,会轻易地提出疑问。这里就会倒逼咱们调整对整个Query的了解,优化应答追问、反诘的才干。而这些才干会缓缓成为疏导这个系统进一步开展的关键点。
上方来看几个咱们自己的案例。
这是整个咱们自己做的第一个运行及其成果。
可以看到,销帮帮在整个商业化中笼罩了30%以上的开售人员;在保养常识库方面,五团体的专门团队保养了200多篇常识,而咱们经过销帮帮裁减到700多篇;此外,机器人的阻拦率到达78%左右。
运行外围就是咱们上个月做的多路召回+精排,对成果优化十分清楚。倡导大家在实践上班中优先尝试。
在做业务的环节中,咱们会遇到很多应战,可以分红以下几类。首先是RAG自身的疑问,例如用户的提问泛化、不明白。这样的提问很容易被辨以为一个Bad Case,但假设咱们细心剖析,咱们会发现是模型要求一些追问能、疑问分类了解的才干。而漏召回、回答准确率的疑问,经过多路召回和精排就可以处置。最后是畛域黑话带来的疑问,要求在垂直畛域里去做相关的积淀。
其次是大模型相关的疑问。咱们有时刻会发现大模型的总结才干特意不靠谱,要求去做相关的Temperature和 Prompt的调整。在调整时,肯定要有相对应的评测工具来保证调整后的成果是干燥增长的,否则有或者处置了一个疑问后,反而使原来好多的Good Case变成了Bad Case。像大模型的高低文长度疑问,要求尝试去做一些有限多轮的调整。
最后是用户需求和配置的不婚配。例如,咱们观测用户经常使用环节中发现,很多用户与客服的交互是先甩一张图,而后再启动提问。这说明用户在实践经常使用时,对多模态的需求是十分剧烈的。
再讲一下咱们Agent的通常。
咱们如今阶段对Agent的了解或者是,比tool use再初级一点。但这不是对Agent的片面的了解,首先,Agent最基本的才干确实有一个tool use的物品,再往上它要衔接业务,从实质来看是在回运行户的需求、处置用户义务。所以Agent要下连系统,系统外面有业务接口、数据模型相关的才干。
在运转态的时刻,这些消息是如何被关联起来的?关键是设计了一套对于接口和用意的schema的物品。这套schema里蕴含了很多协助大模型去了解这些API以及业务用意的消息。
大家可以看红字局部,咱们在表白一个业务用意的时刻,会有三个概念:称号、形容和举例说明。当你把这些消息组织到Prompt中之后,你会发现,大模型对指令的听从性会优化。
其实,咱们最开局通常时,并没有把那个shot(举例)放在一个特意高的位置上,然而这时发现大模型做用认识别时准确度较低。当咱们添加了不止一个shot时,用认识别准确率马上就提过去了。
整个用意的口头有三种形式。
其中,最便捷的是所谓的单Plugin,单Plugin就是一个用意间接对应一个API,比如说帮用户搜一个网页、查一下天气,间接把参数拿去口头就可以。
然而实践做业务的时刻,无法能这么便捷,比如开售说帮我查一下某个客户签合同的进展,这外面或者触及到这个客户是不是非法的、签的是哪个合同、签了价格,再把进展的比例算进去。
所以,咱们要求一个多Plugin用意口头才干。目前有两种方式,一种是知道这个用意是什么,提早编排好了大模型的口头逻辑;另一种是大家谈得比拟多的ReAct,AI来做推理+口头。不过,咱们在通常中发现,虽然推理+口头这个概念特意性感,但稳固性不佳,比如说AutoGPT最好的体现只要50%左右,把这套物品推到线上系统是无法接受的。
这里几个案例中,咱们用意口头的方式有两种:一种是经过人造言语的方式去提取用户的用意,而后口头;另一种方式是,识别到用户用意后,经过弹出卡片的方式确认,并极速口头最终义务。
再讲一下,咱们对于大模型的关键设计,关键是以下三点。
可插拔,能依据需求极速交流或更新模型,支持多模型单干,让不同义务调用最适宜的模型;
LSP,LLM Specific Prompt/模型公用揭示LLM各有调性,皆有适宜自己的Prompt格调;
量化LLM,量化大模型经过缩小参数精度来降落资源需求,仅大批默认损失可跑高性能跑在CPU上。
这个就是咱们的成果评测中心。要求分享的是,咱们在做大模型驱动的运行研发时刻,肯定面临着不确定,成果永远不会到达100%。肯定要婚配相应的评测中心,以保证你的系统是可控的、干燥的到达成果的优化。
3.大模型运行研发的思索
最后讲四点思索。
第一,消费劲:默认化技术平权。大模型技术成功了默认化技术的遍及,使得即使是十团体的小团队也能经差错掉大模型服务,极速成功高品质的基础成果,做一个大的名目。除非走到十分深水区的中央,才要求算法的参与。
第二,成果优化:乘积效应(RAG)。RAG经过系统性优化,如Query了解、常识保养和多路召回等关键环节,清楚优化了常识问答的成果。但当成果到达70%后,再往上打破就会有肯定难度,要求深化的上班。
第三,门路选用:从垂直细分畛域开局。咱们选用从垂直细分畛域开局运行大模型,阶段性地选用优先做标杆运行,同时做架构规划,逐渐向成熟的Agent平台开展。雷同,假设起步时去做通用化大Agent,则面临研发周期长、用户反应慢的疑问。
第四,需求趋向:多模态。多模态交互将成为Agent开展的趋向,因其合乎人类人造交互体验且消息密集,估量随着技术提高,多模态才干将不时优化。
想了解更多AIGC的内容,请访问:
AI.x社区