AutoRAG一键锁定最佳RAG技术栈！丢弃折腾

2024-11-15

AutoRAG：RAG AutoML工具可智能为你的数据找到最佳RAG Pipeline。

市面上有许多RAG Pipeline和模块，但不知道哪种Pipeline最适宜“你自己的数据”和“你自己的用例”。制造和评价一切 RAG 模块十分耗时且难以成功。

AutoRAG 允许一种 便捷的方法 来评价许多RAG模块组合。可以经常使用自己的 评价数据 智能评价各种 RAG 模块，并找到最适宜 自己用例 的 RAG Pipeline。

允许16种解析模块、10种切块模块

解析模块：PDFMiner，PDFPlumber，PyPDFium2，PyPDF，PyMuPDF，UnstructuredPDF，NaverClovaOCR，llama Parse，Upstage Document Parser，Directory，Unstructured，csv，json，unstructuredmarkdown，bshtml，unstructuredxml切块模块：Token，SentenceTransformersToken，Character，RecursiveCharacter，Sentence，Konlpy ，Semantic_llama_index，SemanticDoubleMerging，SentenceWindow，SimpleFile

允许40种检索、排序、生成模块

重排：UPR，Tart，MonoT5，Cohere reranker，RankGPT，Jina Reranker，Sentence Transformer Reranker，Colbert Reranker，Flag Embedding Reranker，Flag Embedding LLM Reranker，Time Reranker，OpenVINO Reranker，VoyageAI Reranker，MixedBread AI Reranker，，，Ko-reranker，，，pass_rerankerQuery了解：query_decompose，hyde，multi_query_expansion，pass_query_expansion检索：bm25，vectordb，hybrid_rrf，hybrid_cc

允许15种评价目的

Precision，Recall，F1，MRR (Mean Reciprocal Rank)，MAP (Mean Average Precision)，NDCG (Normalized Discounted Cumulative Gain)，Token Precision，Token Recall，Token F1，BLEU，ROUGE，METEOR，Sem Score，G-Eval，Bert Score

数据创立

RAG提升须要两种类型的数据： QA 数据集 和 Corpus 数据集 。

QA数据集关于准确牢靠的评价和提升十分关键。

语料库数据集关于 RAG 的功能至关关键。这是由于 RAG 经常使用语料库来检索文档并经常使用它生成答案。

RAG提升步骤

AutoRAG 如何提升 RAG 管道？

Set YAMLFile ->RunEvaluation -> ing -> Evaluation Done ->Best RAGPipeline->Deploy

Automated Framework for optimization of Retrieval Augmented Generation P

本文转载自 PaperAgent

<<基于疑问生成的文档检索增强 RAG初级优化

RAG 技术 15种先进的检索增强生成>>

AutoRAG一键锁定最佳RAG技术栈！ 丢弃折腾

允许16种解析模块、10种切块模块

您可能还会对下面的文章感兴趣：

随便看看

AutoRAG一键锁定最佳RAG技术栈！丢弃折腾