什么是RAG 爆火的本地常识库名目是什么本地常识库与大模型的相关

2024-11-15

本地常识库就相当于大模型的外部资料库。

很多人应该都听过本地常识库名目，它是当今人工自动畛域爆火的名目之一，那么究竟什么是本地常识库？它和大模型有什么相关？怎样构建本地常识库？

其实本地常识库和大模型自身没有什么间接相关，可以说它们是两个齐全独立的技术。

但由于大模型的幻觉疑问和大模型的数据降级缓慢，因此才把常识库技术与大模型技术相联合，发生了大模型常识库技术。

常识库便捷来说就是资料库，比如国度图书馆收录了我国几千年来的历史书籍和资料；每家企业都会有一些外部数据；各个畛域都有自己畛域内的数据和资料。

而怎样治理这些资料和数据，就是常识库技术，常识库的外围有两点，一是数据的存储，二是数据的检索。

在互联网技术发生之前，常识库都是以档案室或资料室的方式存在；而计算机技术发生之后，特意是大数据技术发生之后，常识库就可以从线下走到了线上。

而大数据技术也为处置少量复杂数据提供了或许。

大模型技术是以先人工自动畛域爆火的技术之一，但它有一个致命的毛病就是，它的训练数据是有期间限度的，比如chatGPT的数据还是两年前的，它对近两年的状况就什么都不知道了。

处置这个疑问其实有多种方式，比如用最新的数据对大模型启动从新训练，或许经常使用微调技术比如lora，用最新的数据启动微调。

但这两种方式一来老本太高，二来门槛太高，对很多小公司是无法接受的。其次就是，哪怕从新训练进去的大模型，在一些垂直畛域的疑问上经常会发生“幻觉”疑问。

所以，大模型常识库技术就发生了，大模型就相似于一个大在校生；它有足够的基础常识，而后在一些没有接触过的畛域或许疑问的疑问，就去图书馆查资料。

更笼统的表白应该是相似于在校生期末考试之前，会发考前资料，而后通知你考试内容在资料里。

这样既处置了大模型的期间限度疑问，也处置了老本和门槛疑问，也大大缩小了幻觉的发生。

成功大模型常识库切实上很便捷，就是在问大模型的时刻，带上“资料”，大模型依据资料内容启动回答。

但这里须要处置几个疑问：

第一，资料的加载疑问，随着技术的开展资料的类型也是多种多样，比如有文本文档，图片，视频，声响等等；文本文档还有txt，word，excel等多种格局，还有很多格局化及非格局化数据，因此文档的加载是一个十分费事的事件。

第二，资料的存储疑问，有了资料之后，须要把资料启动加载而后一致处置，而假设这些资料是给人看，那么只有要把文档依照原本的格局保留即可。但由于大模型只意识向量格局的数据，因此须要把文档转化为向量格局存储，而这就是向量数据库。

第三，数据的检索疑问，数据加载到向量数据库之后，应该怎样检索就是一个疑问。由于假设资料库比拟小疑问还不大，假设资料库很宏大，怎样极速的检索，也是一个值得思索的疑问。

大模型常识库加载流程如下：

文档加载，经过加载工具把各种格局的文档加载到向量数据库中；其次，须要对文档启动转换拆分，比如依照固定长度启动拆分；而后，经过embedding大模型，把拆分后的文档依据语义转换为向量格局；最后存储到向量数据中。

而后经常使用的时刻，从向量数据库中检索数据。

embedding模型的作用是为了把文档启动无心义的语义转换，否则文档数据间接存储到数据库中就会发生资料失误的疑问。

流程如下图所示：

上一步加载完文档之后，就可以启动经常使用了。

经常使用的步骤是，用户对大模型启动提问，而后经过embedding把用户提问转化为向量格局，而后依据提问从向量数据库中检索和提问内容无关的资料。如下图8-11步所示。

检索到资料之后，依据用户提问和检索资料，构建prompt template(揭示词模板)，最后输入到大模型中，取得结果。

整个常识库的流程如下图所示：

原文链接：

什么是RAG 爆火的本地常识库名目是什么 本地常识库与大模型的相关