一文读懂大模型构建牢靠的自动问答服务基于Havenask向量检索

2024-11-15

01Havenask引见

Havenask 是阿里巴巴宽泛经常使用的自研大规模散布式检索系统，是过去十多年阿里在电商畛域积攒上去的外围竞争力产品，宽泛运行在搜推行和大数据检索等典型场景。在2022年云栖大会-云计算减速开源翻新论坛上成功开源首发，同时作为阿里云开明搜查OpenSearch底层搜查引擎，OpenSearch 自2014年商业化，目前已有千余家外部客户。

02向量检索

近年来，随着短视频、电商等畛域的兴盛，发生了越来越多的非结构化数据，如图片、音频、视频、行为数据等。人们通经常常使用人工自动算法从中提取出特色向量，再经过对这些特色向量的计算和检索来成功对非结构化数据的剖析与检索，以成功搜查介绍、人脸识别等配置场景。因此，须要存储这些特色向量，并启动高效率的检索。

传统的基于关键字的消息检索，只要命中所有或许局部关键字的数据才会被召回。与此不同的是，向量检索是一种近似搜查（Approximate Nearest Neighbor），从少量数据中找出最相似的n个结果。在业界重要有两种支持向量检索的模式：一是针对向量构建索引、提供召回服务的向量数据库。另一种是将向量检索融合进传统的搜查引擎或中，作为搜查引擎的一种索引。将传统倒排索引与向量检索配合经常使用，二者互补，提高召回结果的关系性。

Havenask作为传统的搜查引擎，深度集成阿里自研的高性能向量库Proxima，成功了对向量检索的支持。在Havenask中有多种倒排索引，如文本索引、数字索引、字符串索引等。而向量作为一种不凡的自定义索引，与其余个别的倒排索引一样地经常使用，从而可以将向量检索与文本检索联合起来，成功向量与文本的混合检索。

2.1 经常使用模式

与文本倒排联合

目前，向量索引是Havenask的一种自定义索引，可以与其余倒排索引一同联合经常使用。业务上比拟经常出现的经常使用模式，如在nlp场景，将向量检索的结果与文本检索的结果兼并起来，丰盛结果内容。文本检索保障查问的准确度，向量检索裁减语义提供更宽泛的内容。二者相互补充，能够优化结果的准确性，降落无结果率。

vector:'0.1,0.2,0.3' OR ((title:'havenask' OR content:'havenask') AND type:'1')

解析后的查问语法树：

每个叶子节点做索引的查问，之后兼并结果。

带条件过滤检索

在大少数业务场景中，通常会带有特定的过滤条件，只召回满足条件的结果。Havenask的向量检索将条件过滤和向量相似度计算联合起来，准确判别过滤条件，启动高效的向量检索。从而使得结果愈加准确，且不会缺少结果。

如：

Query: vector:‘0.1,0.2,0.3’Filter: count > 10

带标签检索

在一些场景下，数据是按某些特定的标签启动分类。如数据按用户维度组织，一次性查问只查问某个指定用户下的数据。针对这种场景，Havenask提供了按标签查问的配置，在建索引时就将数据按标签分类，从物理上将数据按标签隔离，区分构建索引。查问时，只要要检索相运行户的索引数据。这样能够提高向量检索的性能和准确性。

2.2 索引构建模式

目前Havenask支持HNSW（图）、QC（量化距离）、Linear（暴力计算）三种索引构建模式。

HNSW是经典的多层图算法，召回率高、性能好，实用于对召回结果要求高的场景。

QC示意量化聚类，与Fassis的IVF相似，经过聚类的模式构建向量索引。且支持int8、int16量化，量化后能够清楚地缩小索引的体积，并且保障较高的召回率。实用于超大规模的向量场景，节俭资源。

Linear为暴力计算，会遍历一切的索引数据，实用于数据规模十分小的场景。

03LLM问答

ChatGPT的发生带起了大模型热，大模型能够协助从少量的消息里总结出关键的消息。很多企业或许团体都宿愿构建常识库，经过大模型启动演绎、总结后回答疑问。

下图是典型的常识库构建流程：-

全体流程可以分为两局部：数据解决和问答流程。

这局部重要配置是将已有的常识数据向量化，依赖文本向量化模型，将文本数据向量化，生成的向量数据存入Havenask中。解决步骤如下：

从原始文档中提取出一切的文本数据，按文本语义将文本切分红多个chunk

将这些chunk丢给文本模型，生成embedding数据

将embedding和chunk，以及chunk所属的原始文档的一些属性消息（如文件名、文章地址等）一同存入Havenask中

这局部重要解决与LLM的交互，依赖和数据解决一样的文本模型以及一个大模型。可以分为三个步骤：

将输入的疑问丢给文本模型，生成embedding数据

将embedding数据以及一些其余的查问条件（如：查问的用户ID等）给到Havenask，查问失掉最关系或相似的内容。这里的查问条件可以将向量与文本以及其余一些属性消息相联合，以便查问出愈加准确的常识，降落无结果率。

让LLM依据取得的最关系的内容，以及疑问推理出答案。查问LLM的prompt或许如下：

请依据以下已知消息，繁复和专业的来回答用户的疑问。假设不可从中失掉答案，请说不知道，不准许在答案中增加编形成分，答案请经常使用中文。已知消息：内容1内容2...疑问:疑问内容

最后将结果展现给用户：

04性能

上方是Havenask向量检索的测试数据：

05总结

Havenask经过深度集成proxima向量库，以Havenask中的一种索引类型的模式支持向量检索。支持向量与文本的混合查问、带标签的向量查问、以及支持按过滤条件的向量查问。支持HNSW、QC、Linear等3种向量索引构建模式。支持超大规模的向量数据，支持水平裁减，具备低提前、高吞吐的特点。

关系资料

[01]Havenask 开源官方[02] Havenask-Github 开源名目地址

[03] 阿里云 OpenSearch 官方

本文转载自阿里技术，作者：本岩原文链接：

<<经常使用大型言语模型的即插即用组合推理 Chameleon

一文读懂OpenGVLab带来的最新视觉预训练框架>>

一文读懂 大模型 构建牢靠的自动问答服务 基于Havenask向量检索