MinerU：一个能把 PDF/Word/PPT 都转成 Markdown 的开源工具-ZXCV Hub

做 RAG、搭知识库、喂文档给 AI——这几件事有一个共同的起点：你得先把 PDF 变成机器能读的结构化数据。

现实是，PDF 恰恰是最难搞的格式。学术论文里混合着公式和表格，财务报表有跨页合并单元格，扫描件需要 OCR，多栏排版要还原阅读顺序。传统工具（pdfplumber、PyMuPDF、Tesseract）各自能解决一部分问题，但拼在一起总是差一口气：表格拆了、公式丢了、顺序乱了。

MinerU 是上海人工智能实验室 OpenDataLab 团队开源的文档解析工具，登顶过 GitHub Trending。它把 PDF、Word、PPT、Excel、图片、网页这些复杂文档，一次性转成干净的 Markdown、JSON 或 LaTeX——表格还原成 HTML，公式转成 LaTeX，阅读顺序自动排列。

项目诞生于 InternLM（书生·浦语）大模型预训练过程，最初用来解决科研文献里的符号转换问题。最新版本 3.1.0（2026 年 4 月发布），许可证从 AGPLv3 切换到基于 Apache 2.0 的自定义许可，商业使用门槛大幅降低。

MinerU 核心能力概览

核心能力

全格式输入

MinerU 支持六种输入格式：

PDF 文档（文本型、扫描件、乱码 PDF 均可）
图片（JPG、PNG 等）
Word 文档（.docx）——原生解析，不需要先转 PDF
PowerPoint（.pptx）
Excel（.xlsx）
网页 URL

输出三种格式：Markdown、JSON、LaTeX。其中 JSON 按阅读顺序排序，可以直接喂给 RAG。

表格智能还原

这是 MinerU 区别于其他解析工具的关键能力之一。它能处理：

旋转表格——表格在页面上是歪的，输出是正的
跨页表格——一个表格跨了两页，输出是一个完整的表
合并单元格——复杂的表头结构，输出是标准 HTML 或 Markdown 表格

输出格式支持 CSV、HTML、Markdown，可以直接接入下游数据处理流程。

公式精准转换

长公式、多行公式、嵌套数学结构，MinerU 都能识别并转换为 LaTeX 或 MathML 格式。这对科研类文档和数理大模型的训练数据准备来说，是刚需。

109 种语言 OCR

自动检测扫描件和乱码 PDF，启用 OCR 模式。支持 109 种语言的文字识别，包括中英日韩、阿拉伯语、印地语等。

化学论文解析

MinerU 与 A4Chemistry 合作，提供专业级化学文献解析：分子结构图识别（SOTA 性能）、化学反应过程提取、跨图片和文本的全局分子关联。这是大多数文档解析工具完全不具备的能力。

Agent 生态原生集成

MinerU 原生支持 MCP 协议，可以直接接入 Cursor、Claude Desktop、Windsurf 等 AI 编码工具。同时原生集成 LangChain、LlamaIndex、Dify、FastGPT、RAGFlow 等 RAG 框架。有 Python、Go、TypeScript 三种 SDK，以及 REST API 和 CLI。

技术架构

MinerU 采用 VLM（视觉语言模型）+ OCR 双引擎架构：

推理后端	精度（OmniDocBench v1.6）	特点	硬件需求
pipeline	85+	快速稳定，无幻觉，支持纯 CPU	4GB 显存或纯 CPU
vlm-engine	95+	高精度，支持 vLLM/LMDeploy	8GB 显存，需要 GPU
hybrid-engine	95+	高精度 + 原生文本提取，低幻觉	8GB 显存，需要 GPU

三种后端的取舍很清楚：追求速度和低资源消耗用 pipeline，追求精度用 VLM，两者都要用 hybrid。

VLM 主模型是团队自研的 MinerU2.5-Pro-2604-1.2B，专门针对文档理解任务训练。pipeline 后端在纯 CPU 环境也能跑，最低 16GB 内存就够。

解析流程分四个阶段：

文档输入
    ↓
分类预处理（检测文档类型、乱码、扫描件）
    ↓
模型解析（布局检测 + 公式检测 + OCR）
    ↓
管线处理（排序、去噪、结构化输出）
    ↓
输出 Markdown / JSON / LaTeX

MinerU 解析流程

怎么用

MinerU 提供四种使用方式，从零代码到完全私有化部署都有覆盖。

在线使用

最简单的方式，打开 mineru.net，注册登录即可。功能和桌面客户端完全一致，适合不想折腾部署的用户。

也可以在 ModelScope 或 HuggingFace 上体验 Gradio Demo，不需要登录，只有核心解析功能。

API 调用

MinerU 提供 RESTful API，支持同步和异步两种模式：

同步接口：POST /file_parse，适合单文件快速解析
异步接口：POST /tasks，支持任务提交、状态查询、结果获取

有 Python SDK 可以直接 pip 安装。适合需要批量处理文档、或者要把解析能力集成到自己产品里的开发者。

桌面客户端

提供 Windows 和 macOS 桌面客户端，图形界面操作，不需要敲命令行。功能和在线版一致，但数据在本地处理，适合有数据合规要求的场景。

私有化部署

最灵活的方式，适合企业级场景：

# pip 安装
pip install uv
uv pip install -U "mineru[all]"

# 一行命令解析
mineru -p input.pdf -o output/

也支持 Docker 部署和源码编译。生产环境推荐搭配 mineru-router 做多 GPU 部署和自动负载均衡。

MinerU 已适配 10+ 款国产 AI 芯片：昇腾、寒武纪、燧原、壁仞、摩尔线程、昆仑芯、天数智芯、海光、沐曦、平头哥。需要国产化部署的环境也能用。

资源与链接

官方网站：mineru.net
GitHub 仓库：github.com/opendatalab/MinerU
API 文档：mineru.net/apiManage/docs
在线体验：mineru.net/OpenSourceTools/Extractor
ModelScope Demo：modelscope.cn/studios/OpenDataLab/MinerU
HuggingFace Demo：huggingface.co/spaces/opendatalab/MinerU
常见问题：FAQ

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

MinerU：一个能把 PDF/Word/PPT 都转成 Markdown 的开源工具