AutoRAG一键锁定最佳RAG技术栈! 丢弃折腾

AutoRAG:RAG AutoML工具可智能为你的数据找到最佳RAG Pipeline。

市面上有许多RAG Pipeline和模块,但不知道哪种Pipeline最适宜“你自己的数据”和“你自己的用例”。制造和评价一切 RAG 模块十分耗时且难以成功。

AutoRAG 允许一种 便捷的方法 来评价许多RAG模块组合。可以经常使用自己的 评价数据 智能评价各种 RAG 模块,并找到最适宜 自己用例 的 RAG Pipeline。

允许16种解析模块、10种切块模块

解析模块:PDFMiner,PDFPlumber,PyPDFium2,PyPDF,PyMuPDF,UnstructuredPDF,NaverClovaOCR,llama Parse,Upstage Document Parser,Directory,Unstructured,csv,json,unstructuredmarkdown,bshtml,unstructuredxml切块模块:Token,SentenceTransformersToken,Character,RecursiveCharacter,Sentence,Konlpy ,Semantic_llama_index,SemanticDoubleMerging,SentenceWindow,SimpleFile

允许40种检索、排序、生成模块

重排:UPR,Tart,MonoT5,Cohere reranker,RankGPT,Jina Reranker,Sentence Transformer Reranker,Colbert Reranker,Flag Embedding Reranker,Flag Embedding LLM Reranker,Time Reranker,OpenVINO Reranker,VoyageAI Reranker,MixedBread AI Reranker,,,Ko-reranker,,,pass_rerankerQuery了解:query_decompose,hyde,multi_query_expansion,pass_query_expansion检索:bm25,vectordb,hybrid_rrf,hybrid_cc

允许15种评价目的

Precision,Recall,F1,MRR (Mean Reciprocal Rank),MAP (Mean Average Precision),NDCG (Normalized Discounted Cumulative Gain),Token Precision,Token Recall,Token F1,BLEU,ROUGE,METEOR,Sem Score,G-Eval,Bert Score

数据创立

RAG提升须要两种类型的数据: QA 数据集 Corpus 数据集

QA数据集关于准确牢靠的评价和提升十分关键。

语料库数据集关于 RAG 的功能至关关键。这是由于 RAG 经常使用语料库来检索文档并经常使用它生成答案。

RAG提升步骤

AutoRAG 如何提升 RAG 管道?

Set YAMLFile ->RunEvaluation -> ing -> Evaluation Done ->Best RAGPipeline->Deploy

Automated Framework for optimization of Retrieval Augmented Generation P

本文转载自​ ​PaperAgent​ ​

您可能还会对下面的文章感兴趣: