开源的文档与网页数据提取工具 MinerU一款全能

MinerU 是一款由上海人工智能试验室OpenDataLab团队颁布的全能、开源的文档与网页数据提取工具。它能够将蕴含图片、表格、公式等元素的多模态PDF文档转化为明晰、易于剖析的Markdown格局,同时也允许从蕴含广告等搅扰消息的网页中极速解析、抽取正式内容,并将其批量转化为Markdown格局。

一、重要特点

多性能性:MinerU 蕴含两个重要局部:Magic-PDF和Magic-Doc,区分担任PDF文档提取和网页与电子书提取。

多模态处置:Magic-PDF能够处置PDF中的图像、表格、公式等多种内容类型,并保管原文档的结构和格局。

高品质解析:MinerU经常使用了先进的模型,如LayoutLMv3、YOLOv8、UniMERNet和PaddleOCR,以确保数据提取的高准确度。

宽泛的运行场景:适用于学术、财务、法律等多个畛域,并允许多达176种言语的准确识别。

跨平台允许:能够在Windows、Linux和Mac平台上运转,并允许CPU和GPU环境。

二、经常使用场景

MinerU 适用于须要从复杂格局的文档中提取数据的场景,尤其适宜于AI钻研和大模型训练中处置少量非结构化数据的需求。

三、技术细节

PDF文档提取:MinerU的PDF提取环节包括PDF文档分类预处置、模型解析和管线处置等环节。它能够识别和处置文本型、图层型和扫描版的PDF文档,并经过一系列深度学习模型启动版面剖析、OCR和公式识别。

网页与电子书提取:Magic-Doc能够从多种类型的网页和电子书中提敞开息,允许包括epub、mobi在内的多种格局,并能够处置文章、论坛、音乐、视频等外容类型。

四、极速装置与经常使用

# 1. 装置依赖conda create -n MinerU pythnotallow=3.10conda activate MinerUpip install -U magic-pdf[full] --extra-index-url-i2. 下载模型权重文件# 依据官网文档()批示操作# 3. 性能Magic-PDFcp magic-pdf.template.json ~/magic-pdf.json# 编辑 ~/magic-pdf.json,设置正确的模型文件门路# 4. 开局经常使用magic-pdf --helpmagic-pdf -p {some_pdf} -o {some_output_dir} -m auto
# 审核您的设施能否允许Docker上的CUDA减速。docker run --rm --gpus=all nvidia/cuda:12.1.0-base-ubuntu22.04 nvidia-smi# 运转 docker 部署wgetbuild -t mineru:latest .docker run --rm -it --gpus=all mineru:latest /bin/bashmagic-pdf --help

更多经常使用形式,请查阅如下提供地址

总结

MinerU 是一款弱小且多性能的数据提取工具,它能够协助用户从各种文档中提取高品质的数据,特意适宜于AI钻研和大数据模型训练。虽然存在一些局限性,但其开源个性和继续的社区允许使其成为一个值得关注和尝试的工具。

您可能还会对下面的文章感兴趣: