大模型运行落地如何选用适宜的 Embedding 模型

2024-11-15

0、背景落地

在生成式人工智能(GenAI)畛域，检索增强生成(RAG)作为一种战略锋芒毕露，它经过集成外部数据来扩大像 ChatGPT 这样的大型言语模型(LLM)的现有常识库。

RAG 系统外围触及三种关键的人工智能模型组件：嵌入(Embedding)模型担任将消息转化为数学向量，重排名(Reranker)模型则用于优化搜索结果，而弱小的基础言语模型确保了丰盛的语境了解和生成。

本篇文章旨在指点您依据数据个性及指标畛域，比如：金融专业，来挑选最适宜的嵌入模型，从而最大化 RAG 系统的效劳与准确性。

1、文本数据：MTEB 排行榜

HuggingFace 推出的 MTEB leaderboard 是一个综合性的文本嵌入模型比拟平台，让您可以一览各模型的综合性能表现。

为了满足向量搜索的需求，倡导优先关注“Retrieval Average”这一列，并按降序陈列，以识别在检索义务中表现最优的模型。在此基础上，寻觅那些内存占用小、效率高的佼佼者。

在挑选现实模型时，您不只可依据检索性能排序，还能够依据特定条件进一步挑选：

值得留意的是，MTEB上的排名或者因新地下的训练数据而有所偏向，某些模型的评分或者存在虚高现象。因此，参考 HuggingFace 的官网博客，学习如何别离模型排名的实在牢靠性显得尤为关键。在访问每个模型的“模型卡片”页面时，以下几个步骤至关关键：

基于上述考量，我倡导经常使用 Snowflake 新推出的“snowflake-arctic-embed-1”模型。该模型不只在排名上表现抢眼，而且以其较小的体积适宜在有限资源的设施上运转，此外，模型卡片提供的博客和论文链接也参与了其透明度和可信度。

2、图像数据：ResNet50

假设您宿愿查找与某张图片格调或内容相似的其余图片，比如：搜索更多对于苏格兰折耳猫的图像资料，一种方法是上行一张该种类猫的照片，并应用图像搜索引擎去开掘相似图片。

ResNet50 作为一种宽泛采用的卷积神经网络(CNN)模型，自2年微软基于 ImageNet 数据集的训练成绩以来，便成为了图像识别畛域的基石之一。

相似地，在面对视频搜索需求时，ResNet50 能够施展作用，经过将视频合成成一系列静态帧，对每一帧运行模型以生成对应的嵌入向量。随后，基于这些向量启动相似性比对，系统能够甄选出与查问视频最为凑近的视频内容，从而为用户提供高度婚配的搜索结果。

3、音频数据：PANNs

就似乎图像搜索一样，您也能够依据提供的音频片段去探寻相似的音频内容。

PANNs（预训练音频神经网络）作为一种干流的音频检索 Embedding 模型，其长处在于它基于宏大的音频资料库启动了预先训练，对此在音频分类与标签调配等义务上展现出出色的才干。

4、多模态图像与文本数据：SigLIP 或 Unum

近年来，一系列旨在对文本、图像、音频及视频等多种非结构化数据启动综合训练的 Embedding 模型应运而生。这些翻新模型能够在一致的向量空间框架下，有效掌握并表白不同外形的非结构数据所包括的深层语义消息。

多模态 Embedding 技术的开展，使得跨畛域的运行如文本导向的图像检索、图像内容的智能生成形容，乃至图像间的相似性搜索成为或者，极大地拓宽了人工智能的运行范围。

2021年，OpenAI 颁布的 CLIP 作为 Embedding模型的模范，开拓了新畛域，虽然其定制化微调的需求参与了经常使用的复杂度。这一应战随后在2024年迎来了转折，谷歌推出了SigLIP（Sigmoidal-CLIP），该模型仰仗在 zero-shot prompt义务上的出色表现，清楚降落了部署难度，优化了用户体验。

与此同时，轻量级的小型LLM（言语模型）日益遭到青眼。它们的吸引力在于能够解脱对上流云计算资源的依赖，轻松实如今团体笔记本上的运转。这些“小而美”的模型，因内存占用低、照应速度快以及解决效率高的特点，正逐渐扭转着 AI 运行的格式。Unum 等平台更是提供了集成多模态配置的小型 Embedding 模型，进一步推进了 AI 技术的遍及与运行方便性。

5、多模态文本、音频、视频数据

多模态的文本-音频 RAG（检索增强的生成）系统宽泛采用了多模态生成型 LLMs。此环节启始于音频消息的文本化转换，发明音频-文本配对，继而将文本内容编码为 Embedding 方式的向量，以便应用 RAG 机制启动惯例的文本查问。最终阶段触及将检索到的文本逆向关联回相应的音频片段。

OpenAI 的 Whisper 技术在这方面起到了桥接作用，它能够成功语音到文本的高效转写。同样地，OpenAI 还开发了 Text-to-Speech（TTS）模型，成功了从文本到语音的逆向转换，丰盛了多模态交互的闭环。

至于多模态文本-视频的 RAG 运行，则采取了相似的战略，先将复杂的视频内容简化为可解决的文本形容，经 Embedding 转化后口头文本查问，最后输入关系的视频片段作为检索成绩。

OpenAI 的翻新工具 Sora，则在文本到视频的生成畛域展现了特殊才干，与 Dall-E 在图像生成畛域的成就相似，Sora仅需用户输入文本揭示，即可借助弱小的 LLM 生成对应的视频内容。Sora的灵敏性不只限于文本，还能基于静态图像或现有视频启动视频的衍生创作，进一步拓展了多模态内容生成的边界。

Milvus目前曾经集成了干流的Embedding模型，体验链接：

原文链接：

<<企业级运行落地框架细节差异对比 RAG

基于LLM的多Agent框架在金融市场数据的运行>>

大模型运行落地 如何选用适宜的 Embedding 模型