MinerU:一个能把 PDF/Word/PPT 都转成 Markdown 的开源工具

封面图做 RAG、搭知识库、喂文档给 AI——这几件事有一个共同的起点:你得先把 PDF 变成机器能读的结构化数据。

现实是,PDF 恰恰是最难搞的格式。学术论文里混合着公式和表格,财务报表有跨页合并单元格,扫描件需要 OCR,多栏排版要还原阅读顺序。传统工具(pdfplumber、PyMuPDF、Tesseract)各自能解决一部分问题,但拼在一起总是差一口气:表格拆了、公式丢了、顺序乱了。

MinerU 是上海人工智能实验室 OpenDataLab 团队开源的文档解析工具,登顶过 GitHub Trending。它把 PDF、Word、PPT、Excel、图片、网页这些复杂文档,一次性转成干净的 Markdown、JSON 或 LaTeX——表格还原成 HTML,公式转成 LaTeX,阅读顺序自动排列。

项目诞生于 InternLM(书生·浦语)大模型预训练过程,最初用来解决科研文献里的符号转换问题。最新版本 3.1.0(2026 年 4 月发布),许可证从 AGPLv3 切换到基于 Apache 2.0 的自定义许可,商业使用门槛大幅降低。

MinerU 核心能力概览

核心能力

全格式输入

MinerU 支持六种输入格式:

  • PDF 文档(文本型、扫描件、乱码 PDF 均可)
  • 图片(JPG、PNG 等)
  • Word 文档(.docx)——原生解析,不需要先转 PDF
  • PowerPoint(.pptx)
  • Excel(.xlsx)
  • 网页 URL

输出三种格式:Markdown、JSON、LaTeX。其中 JSON 按阅读顺序排序,可以直接喂给 RAG。

表格智能还原

这是 MinerU 区别于其他解析工具的关键能力之一。它能处理:

  • 旋转表格——表格在页面上是歪的,输出是正的
  • 跨页表格——一个表格跨了两页,输出是一个完整的表
  • 合并单元格——复杂的表头结构,输出是标准 HTML 或 Markdown 表格

输出格式支持 CSV、HTML、Markdown,可以直接接入下游数据处理流程。

公式精准转换

长公式、多行公式、嵌套数学结构,MinerU 都能识别并转换为 LaTeX 或 MathML 格式。这对科研类文档和数理大模型的训练数据准备来说,是刚需。

109 种语言 OCR

自动检测扫描件和乱码 PDF,启用 OCR 模式。支持 109 种语言的文字识别,包括中英日韩、阿拉伯语、印地语等。

化学论文解析

MinerU 与 A4Chemistry 合作,提供专业级化学文献解析:分子结构图识别(SOTA 性能)、化学反应过程提取、跨图片和文本的全局分子关联。这是大多数文档解析工具完全不具备的能力。

Agent 生态原生集成

MinerU 原生支持 MCP 协议,可以直接接入 Cursor、Claude Desktop、Windsurf 等 AI 编码工具。同时原生集成 LangChain、LlamaIndex、Dify、FastGPT、RAGFlow 等 RAG 框架。有 Python、Go、TypeScript 三种 SDK,以及 REST API 和 CLI。

技术架构

MinerU 采用 VLM(视觉语言模型)+ OCR 双引擎架构

推理后端 精度(OmniDocBench v1.6) 特点 硬件需求
pipeline 85+ 快速稳定,无幻觉,支持纯 CPU 4GB 显存或纯 CPU
vlm-engine 95+ 高精度,支持 vLLM/LMDeploy 8GB 显存,需要 GPU
hybrid-engine 95+ 高精度 + 原生文本提取,低幻觉 8GB 显存,需要 GPU

三种后端的取舍很清楚:追求速度和低资源消耗用 pipeline,追求精度用 VLM,两者都要用 hybrid

VLM 主模型是团队自研的 MinerU2.5-Pro-2604-1.2B,专门针对文档理解任务训练。pipeline 后端在纯 CPU 环境也能跑,最低 16GB 内存就够。

解析流程分四个阶段:

文档输入
    ↓
分类预处理(检测文档类型、乱码、扫描件)
    ↓
模型解析(布局检测 + 公式检测 + OCR)
    ↓
管线处理(排序、去噪、结构化输出)
    ↓
输出 Markdown / JSON / LaTeX

MinerU 解析流程

怎么用

MinerU 提供四种使用方式,从零代码到完全私有化部署都有覆盖。

在线使用

最简单的方式,打开 mineru.net,注册登录即可。功能和桌面客户端完全一致,适合不想折腾部署的用户。

也可以在 ModelScope 或 HuggingFace 上体验 Gradio Demo,不需要登录,只有核心解析功能。

API 调用

MinerU 提供 RESTful API,支持同步和异步两种模式:

  • 同步接口:POST /file_parse,适合单文件快速解析
  • 异步接口:POST /tasks,支持任务提交、状态查询、结果获取

有 Python SDK 可以直接 pip 安装。适合需要批量处理文档、或者要把解析能力集成到自己产品里的开发者。

桌面客户端

提供 Windows 和 macOS 桌面客户端,图形界面操作,不需要敲命令行。功能和在线版一致,但数据在本地处理,适合有数据合规要求的场景。

私有化部署

最灵活的方式,适合企业级场景:

# pip 安装
pip install uv
uv pip install -U "mineru[all]"

# 一行命令解析
mineru -p input.pdf -o output/

也支持 Docker 部署和源码编译。生产环境推荐搭配 mineru-router 做多 GPU 部署和自动负载均衡。

MinerU 已适配 10+ 款国产 AI 芯片:昇腾、寒武纪、燧原、壁仞、摩尔线程、昆仑芯、天数智芯、海光、沐曦、平头哥。需要国产化部署的环境也能用。

资源与链接

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。