编程 MarkItDown 深度实战：当微软把文档转换做成 AI 时代的「数据入口」——从 15 种格式到生产级 RAG 管道的完全指南（2026）

2026-06-13 06:48:24 +0800 CST views 441

MarkItDown 深度实战：当微软把文档转换做成 AI 时代的「数据入口」——从 15 种格式到生产级 RAG 管道的完全指南（2026）

背景：为什么文档预处理是 AI 应用最大的坑

做过 RAG 的开发者一定深有体会——文档预处理环节会吃掉整个项目 60% 以上的精力。PDF 表格错位、Word 嵌套结构丢失、扫描件直接变空白，喂给大模型一团乱文本，检索和生成的质量直线崩盘。

这不是夸张。假设你构建了一个企业知识库 RAG 系统：

财务团队给你 200 份 PDF 年报，里面全是嵌套表格和图表
法务团队给你 500 份 Word 合同，格式千奇百怪
市场团队给你 300 份 PPT 方案，图表和文字混排
数据团队给你 Excel 报表，多 Sheet 页、合并单元格

传统做法是什么？写 Python 脚本调各种库——pdfminer、python-docx、python-pptx、openpyxl……每个库的 API 风格不同，解析逻辑不同，输出的文本格式更不同。拼凑出来的预处理管线脆弱无比，任何格式变化都能让它崩掉。

更关键的问题在于：LLM 只认结构清晰的文本。你把一团没有层次的文本丢给 GPT-4o，它的推理质量会骤降——因为它分不清哪个是标题、哪个是表格、哪些内容是并列关系。

这就是 MarkItDown 要解决的核心问题：把任意格式文档高效、保留结构地转换为 LLM 友好的 Markdown。

MarkItDown 是什么

MarkItDown 是微软 AutoGen 团队开源的轻量级 Python 工具，GitHub Star 数已突破 108K，MIT 协议可商用。它可以把 PDF、Word、PowerPoint、Excel、图片、音频、HTML、EPub、ZIP 等 15 种以上文件格式一键转换为 Markdown，智能保留标题、列表、表格、链接等文档结构。

但如果你只把它当成一个「格式转换器」，那就小看它了。MarkItDown 的真正定位是 AI 应用链路中「数据入口」的基础设施。它不是 Pandoc 的竞品——Pandoc 追求的是格式保真度，MarkItDown 追求的是 LLM 消费友好度。

两者的差异非常微妙但极其重要：

Pandoc 转出的 Markdown 追求视觉还原，会保留大量 HTML 标签和复杂嵌套
MarkItDown 转出的 Markdown 追求语义清晰，标题就是标题、表格就是对齐表格、列表就是列表

对于人类阅读，前者更友好；对于 LLM 理解，后者才是正解。

支持的文件格式全景

先看一张完整的格式支持表：

类别	支持格式	处理方式
办公文档	Word (.docx)、PowerPoint (.pptx)、Excel (.xlsx/.xls)	保留标题、列表、表格结构
PDF	.pdf	文本提取 + 表格对齐 + OCR（扫描件）
图片	.jpg、.png 等	EXIF 元数据提取 + LLM Vision 智能描述
音频	.mp3、.wav 等	EXIF 元数据 + 语音转录
网页	HTML	正文提取，去除导航栏等噪音
数据格式	CSV、JSON、XML	结构化数据自动映射为 Markdown 表格
电子书	EPub	章节结构保留 + 图片提取
压缩包	ZIP	自动遍历内部文件逐一转换
视频	YouTube URL	字幕提取
Outlook	.msg	邮件正文和附件提取

有一个设计细节值得一提：ZIP 文件的处理。MarkItDown 会自动遍历压缩包内的所有文件并逐一转换。这意味着你丢一个包含各种格式文档的 ZIP 进去，出来就是一个完整的 Markdown 文本。对于批量文档处理场景，这个设计极大简化了工作流。

快速上手：从安装到核心 API

安装

Python 3.10+ 环境，一条命令搞定：

# 基础安装（只含核心格式）
pip install markitdown

# 按需安装特定格式依赖
pip install 'markitdown[pdf, docx, pptx]'

# 一步到位，安装所有依赖
pip install 'markitdown[all]'

0.1.0 版本的一个重要变化：之前所有格式的依赖都打包在一起，现在拆分成了可选依赖。这是一个合理的 Breaking Change——核心包更轻量了，不会因为你只需要转 PDF 却被迫安装 pptx 的全部依赖。

当前可用的可选依赖组：

依赖组	用途
`[all]`	安装所有可选依赖
`[pptx]`	PowerPoint 文件
`[docx]`	Word 文件
`[xlsx]`	Excel 文件
`[xls]`	旧版 Excel 文件
`[pdf]`	PDF 文件
`[outlook]`	Outlook 邮件
`[az-doc-intel]`	Azure Document Intelligence
`[az-content-understanding]`	Azure Content Understanding
`[audio-transcription]`	音频转录
`[youtube-transcription]`	YouTube 字幕

命令行使用

最简单的用法，一条命令搞定：

# 转换并输出到终端
markitdown path-to-file.pdf

# 转换并保存到文件
markitdown path-to-file.pdf -o output.md

# 管道重定向
markitdown path-to-file.pdf > document.md

# 从标准输入读取
cat path-to-file.pdf | markitdown

# 批量转换目录下所有 PDF
find ./documents -name "*.pdf" | xargs markitdown

命令行工具适合快速验证和批量脚本处理，日常开发中用起来非常顺手。

Python API

代码集成的场景，Python API 同样简洁：

from markitdown import MarkItDown

md = MarkItDown()

# 转换 PDF
pdf_result = md.convert("annual_report.pdf")
print(pdf_result.text_content)

# 转换 Word
docx_result = md.convert("meeting_notes.docx")
print(docx_result.text_content)

# 转换 Excel——自动输出为 Markdown 表格
xlsx_result = md.convert("sales_data.xlsx")
print(xlsx_result.text_content)

# 直接转换 URL
url_result = md.convert("https://example.com/document.pdf")
print(url_result.text_content)

convert() 方法会根据文件类型自动选择合适的转换器，不需要手动指定。返回的 result 对象包含 text_content、title、metadata 等属性，直接拿 Markdown 文本即可。

0.1.0 的 Breaking Changes

升级到 0.1.0 需要注意几个变化：

convert_url() 更名为 convert_uri()，并且现在支持 data: 和 file: URI scheme：

md = MarkItDown()

# 新的 URI 方式
result = md.convert_uri("file:///path/to/file.txt")
print(result.text_content)

# 支持 data URI
result = md.convert_uri("data:text/plain;base64,SGVsbG8sIFdvcmxkIQ==")
print(result.text_content)

convert() 不再接受文本文件类对象（如 io.StringIO），只接受二进制流。升级时务必检查代码。
返回对象的 .markdown 属性替代了部分场景下的 .text_content，建议统一用 .markdown。

大文件流式处理

对于超大文件，建议用流式处理避免内存溢出：

with open("large_document.pdf", "rb") as f:
    result = md.convert_stream(f, file_extension=".pdf")
    print(result.text_content)

核心增强特性一：LLM 集成，让图片和音频「开口说话」

这是 MarkItDown 最令人惊艳的特性。接入 OpenAI 等多模态大模型后，MarkItDown 可以对图片内容生成智能描述，对音频进行语音转录：

from markitdown import MarkItDown
from openai import OpenAI

client = OpenAI()  # 需要配置 OPENAI_API_KEY
md = MarkItDown(llm_client=client, llm_model="gpt-4o")

# 对图片生成描述
result = md.convert("architecture_diagram.jpg")
print(result.text_content)
# 输出类似：
# ## Image Description
# This diagram shows a microservices architecture with three main components:
# - API Gateway (top) routing requests to...
# - User Service (left) managing authentication...
# - Order Service (right) handling business logic...

# 对音频进行转录
audio_result = md.convert("meeting_recording.mp3")
print(audio_result.text_content)

实测下来，对于架构图、流程图这类技术图片，GPT-4o 的描述质量相当不错——基本能识别出模块名称、箭头方向和数据流向。但对于纯文字截图，OCR 的效果比 LLM 描述更直接。

你还可以自定义 LLM 的 prompt，让描述更贴合你的场景：

md = MarkItDown(
    llm_client=client,
    llm_model="gpt-4o",
    llm_prompt="Describe this image in Chinese, focusing on technical details, data flow, and architecture decisions."
)

result = md.convert("system_architecture.png")
print(result.text_content)

深入理解 LLM 集成的架构设计

MarkItDown 的 LLM 集成不是简单的「图片→LLM→文本」调用。它的设计是：

转换器内部判断：每个格式的转换器在遇到嵌入图片时，检查是否配置了 llm_client
分层处理：文本内容走原生提取管道，图片内容走 LLM Vision 管道
结果合并：两部分结果按照文档的原始顺序拼接，保持逻辑连贯

这个设计的巧妙之处在于——不配置 LLM 也完全能用。没有 llm_client 时，图片只提取 EXIF 元数据，音频只提取元数据；配置了 llm_client 后，能力自动升级。渐进式增强，零配置也能跑。

核心增强特性二：插件系统——从工具到平台

0.1.0 版本引入了全新的插件架构，允许第三方开发者扩展 MarkItDown 的功能。这是项目从单一工具走向平台的关键一步。

使用插件

# 命令行启用插件
markitdown path-to-file.pdf --use-plugins

# 查看可用插件
markitdown --list-plugins

# Python API 启用插件
md = MarkItDown(enable_plugins=True)
result = md.convert("document.pdf")

内置 OCR 插件

项目内置了 markitdown-ocr 插件，为 PDF、DOCX、PPTX、XLSX 转换器添加 OCR 支持。它使用 LLM Vision 从嵌入图像中提取文本——不需要安装 Tesseract 或 EasyOCR 这些重量级依赖，只需要一个 LLM API Key 就能获得 OCR 能力。

pip install markitdown-ocr
pip install openai  # 或任何 OpenAI 兼容客户端

from markitdown import MarkItDown
from openai import OpenAI

md = MarkItDown(
    enable_plugins=True,
    llm_client=OpenAI(),
    llm_model="gpt-4o",
)
result = md.convert("document_with_images.pdf")
print(result.text_content)

如果没有提供 llm_client，插件仍然会加载，但 OCR 功能会被静默跳过，回退到标准内置转换器。

开发自定义插件

插件系统的开放性意味着：遇到 MarkItDown 原生不支持的格式，完全可以自己写插件扩展，不需要 fork 整个项目。

一个最简插件的结构：

# markitdown_mycustom/plugin.py
from markitdown import MarkItDownBase, ConverterBase

class MyCustomConverter(ConverterBase):
    """自定义格式转换器"""
    
    supported_extensions = [".myformat"]
    
    def convert(self, stream, **kwargs):
        # 你的转换逻辑
        text = self._parse_my_format(stream)
        return text
    
    def _parse_my_format(self, stream):
        # 实现格式解析
        ...

def register_plugin(markitdown_instance):
    """插件注册入口"""
    markitdown_instance.register_converter(MyCustomConverter())

在 GitHub 上搜索 #markitdown-plugin 标签可以找到社区开发的插件。官方也提供了示例插件仓库 packages/markitdown-sample-plugin 作为开发参考。

核心增强特性三：MCP 协议——接入 AI Agent 工作流

MarkItDown 提供了 MCP（Model Context Protocol）服务器包，可以把文档转换能力直接集成到 Claude Desktop、Cursor 等 AI 应用中。

安装和启动

# 安装 MCP 包
pip install markitdown-mcp

# 启动 MCP 服务器——stdio 模式，适配 Claude Desktop
markitdown-mcp

# HTTP 模式
markitdown-mcp --http --host 127.0.0.1 --port 3001

Docker 部署：

docker build -t markitdown-mcp:latest .
docker run -it --rm markitdown-mcp:latest

Claude Desktop 集成

在 Claude Desktop 的配置文件中添加：

{
  "mcpServers": {
    "markitdown": {
      "command": "markitdown-mcp",
      "args": []
    }
  }
}

配置完成后，直接丢一个 PDF 文件让 AI 分析，AI 会自动调用 MarkItDown 先转成 Markdown 再处理，整个过程完全无感。

MCP 的架构意义

对 AI Agent 工作流来说，MCP 集成是「干净输入」的关键基础设施。想象一个 Agent 的典型工作流：

用户上传一份 PDF 合同
Agent 调用 MarkItDown MCP 把合同转为结构化 Markdown
Agent 基于清晰的 Markdown 内容进行条款分析、风险识别
Agent 输出分析报告

如果没有 MarkItDown MCP 这一步，Agent 拿到的可能是从 PDF 复制出来的乱文本——表格对不齐、段落粘连、层次丢失。在这样的输入上做分析，结果的可信度大打折扣。

安全提醒：有安全研究人员发现 MarkItDown MCP 服务器在早期版本中存在 URI 验证缺失的问题，攻击者可以通过 SSRF 读取 AWS 凭证等敏感信息。建议使用最新版本，并在生产环境中做好网络隔离和权限控制。MarkItDown performs I/O with the privileges of the current process，在不可信环境中务必做好输入清洗。

重磅更新：PDF 表格对齐提取

之前的版本在提取 PDF 表格时，经常出现列对不齐、数据错位的问题。新版本通过改进 pdfminer.six 依赖和表格提取逻辑，实现了对齐的 Markdown 表格输出。

之前 vs 现在

之前的输出可能是这样的：

| 项目 | Q1 | Q2 | Q3 |
收入 150万 180万 200万
成本 90万 100万 110万

现在的输出：

| 项目 | Q1 | Q2 | Q3 |
|------|------|------|------|
| 收入 | 150万 | 180万 | 200万 |
| 成本 | 90万 | 100万 | 110万 |

对齐后的表格在 LLM 中的解析准确率显著提升，尤其是财务报表和数据统计这类对表格精度要求极高的场景。

md = MarkItDown()
result = md.convert("financial_report.pdf")
# 表格输出现在是对齐的 Markdown 格式
print(result.text_content)

重磅更新：OCR 层服务

新版本增加了针对嵌入图片和 PDF 扫描件的 OCR 层服务。当 PDF 中包含扫描件图片时，MarkItDown 会自动检测并调用 OCR 进行文字识别。

Azure Document Intelligence 集成

# 使用 Azure Document Intelligence 进行 OCR
markitdown document.pdf -d -e "<your_azure_endpoint>" -o output.md

from markitdown import MarkItDown

md = MarkItDown(docintel_endpoint="<document_intelligence_endpoint>")
result = md.convert("scanned_document.pdf")
print(result.text_content)

Azure Content Understanding 集成

Azure Content Understanding 提供更高质量的转换，支持结构化字段提取、多模态支持和可配置分析器：

from markitdown import MarkItDown
from markitdown.converters import ContentUnderstandingFileType

# 零配置——按文件类型自动选择分析器
md = MarkItDown(cu_endpoint="<content_understanding_endpoint>")
result = md.convert("report.pdf")  # 文档 → prebuilt-document
result = md.convert("meeting.mp4")  # 视频 → prebuilt-video
result = md.convert("call.wav")     # 音频 → prebuilt-audio
print(result.markdown)

使用自定义分析器进行领域特定字段提取：

md = MarkItDown(
    cu_endpoint="<content_understanding_endpoint>",
    cu_analyzer_id="my-invoice-analyzer",
)
result = md.convert("invoice.pdf")
print(result.markdown)
# 输出包含 YAML front matter 和提取的字段：
# ---
# contentType: document
# fields:
#   VendorName: CONTOSO LTD.
#   InvoiceDate: '2019-11-15'
# ---

三种转换方式的能力对比：

能力	内置转换器	Azure Document Intelligence	Azure Content Understanding
文档转换	离线，格式特定提取	云端布局提取	云端多模态提取
结构化字段	不支持	不暴露	YAML front matter
自定义分析器	不支持	不可配置	支持 cu_analyzer_id
音频和视频	基础音频，无视频	不支持	音频和视频分析器
成本	仅本地计算	Azure API 计费	Azure API 计费

控制哪些格式走 CU 路径：

md = MarkItDown(
    cu_endpoint="<content_understanding_endpoint>",
    cu_file_types=[ContentUnderstandingFileType.PDF],  # 只有 PDF 走 CU
)

实战：构建生产级 RAG 文档管道

讲完了每个特性，我们来看一个完整的实战案例——用 MarkItDown 构建生产级 RAG 文档管道。

架构设计

[异构文档] → [MarkItDown 转换层] → [Markdown 中间态] → [分块 + Embedding] → [向量数据库] → [检索 + 生成]

核心设计决策：Markdown 作为中间态。所有格式先统一转为 Markdown，再进行后续处理。这样做的好处是：

分块逻辑只需要处理一种格式
Markdown 的标题层级天然提供分块边界
表格、列表的结构信息可以在分块时保留

完整代码实现

"""
生产级 RAG 文档管道
基于 MarkItDown 的异构文档预处理 + 向量检索 + LLM 生成
"""

import os
import hashlib
from pathlib import Path
from typing import Optional
from dataclasses import dataclass, field

from markitdown import MarkItDown
from openai import OpenAI


@dataclass
class DocumentChunk:
    """文档分块"""
    content: str
    source: str
    chunk_index: int
    metadata: dict = field(default_factory=dict)
    chunk_hash: str = ""

    def __post_init__(self):
        self.chunk_hash = hashlib.md5(self.content.encode()).hexdigest()[:12]


class MarkItDownRAGPipeline:
    """基于 MarkItDown 的 RAG 文档管道"""

    def __init__(
        self,
        llm_model: str = "gpt-4o",
        chunk_size: int = 1000,
        chunk_overlap: int = 200,
        enable_plugins: bool = True,
    ):
        self.llm_client = OpenAI()
        self.md = MarkItDown(
            llm_client=self.llm_client,
            llm_model=llm_model,
            enable_plugins=enable_plugins,
        )
        self.chunk_size = chunk_size
        self.chunk_overlap = chunk_overlap
        self.chunks: list[DocumentChunk] = []

    def convert_document(self, file_path: str) -> str:
        """将任意格式文档转换为 Markdown"""
        path = Path(file_path)
        if not path.exists():
            raise FileNotFoundError(f"文件不存在: {file_path}")

        # 根据文件大小选择处理方式
        file_size = path.stat().st_size
        if file_size > 50 * 1024 * 1024:  # > 50MB
            with open(path, "rb") as f:
                result = self.md.convert_stream(f, file_extension=path.suffix)
        else:
            result = self.md.convert(str(path))

        return result.text_content

    def smart_chunk(self, markdown_text: str, source: str) -> list[DocumentChunk]:
        """
        智能分块：基于 Markdown 标题层级分块
        优先在标题边界切分，保持语义完整性
        """
        chunks = []
        current_section = []
        current_headers = []
        current_length = 0

        lines = markdown_text.split("\n")

        for line in lines:
            # 检测标题行
            if line.startswith("#"):
                header_level = len(line.split(" ")[0])
                header_text = line.strip("#").strip()

                # 如果当前分块已经够大，且遇到新标题，先保存当前分块
                if current_length > self.chunk_size and current_section:
                    chunk_content = "\n".join(current_section)
                    chunks.append(DocumentChunk(
                        content=chunk_content,
                        source=source,
                        chunk_index=len(chunks),
                        metadata={
                            "headers": current_headers.copy(),
                            "length": current_length,
                        }
                    ))
                    # 保留 overlap
                    overlap_lines = current_section[-self.chunk_overlap // 10:]
                    current_section = overlap_lines
                    current_length = sum(len(l) for l in overlap_lines)

                # 更新当前标题层级
                current_headers = [h for h in current_headers if len(h[0]) < header_level]
                current_headers.append((header_level, header_text))

            current_section.append(line)
            current_length += len(line)

        # 处理最后一个分块
        if current_section:
            chunk_content = "\n".join(current_section)
            chunks.append(DocumentChunk(
                content=chunk_content,
                source=source,
                chunk_index=len(chunks),
                metadata={
                    "headers": current_headers.copy(),
                    "length": current_length,
                }
            ))

        return chunks

    def process_directory(self, directory: str) -> list[DocumentChunk]:
        """
        批量处理目录下的所有文档
        支持 PDF、Word、Excel、PPT 等格式
        """
        supported_extensions = {
            ".pdf", ".docx", ".pptx", ".xlsx", ".xls",
            ".html", ".csv", ".json", ".xml", ".epub",
            ".zip", ".jpg", ".jpeg", ".png", ".mp3", ".wav",
        }

        all_chunks = []
        dir_path = Path(directory)

        for file_path in dir_path.rglob("*"):
            if file_path.suffix.lower() in supported_extensions:
                print(f"处理: {file_path}")
                try:
                    markdown = self.convert_document(str(file_path))
                    chunks = self.smart_chunk(markdown, str(file_path))
                    all_chunks.extend(chunks)
                    print(f"  → 生成 {len(chunks)} 个分块")
                except Exception as e:
                    print(f"  ✗ 转换失败: {e}")
                    continue

        self.chunks.extend(all_chunks)
        print(f"\n总计: {len(all_chunks)} 个分块")
        return all_chunks

    def query(self, question: str, top_k: int = 5) -> str:
        """
        检索增强生成
        简化版：用 Embedding 相似度检索 + LLM 生成
        """
        # Step 1: 计算查询的 Embedding
        query_embedding = self.llm_client.embeddings.create(
            model="text-embedding-3-small",
            input=question,
        ).data[0].embedding

        # Step 2: 检索相关分块（实际项目中用向量数据库）
        # 这里用简化的文本匹配演示
        relevant_chunks = self.chunks[:top_k]

        # Step 3: 构建提示词并生成回答
        context = "\n\n---\n\n".join(
            f"[来源: {c.source} | 分块: {c.chunk_index}]\n{c.content}"
            for c in relevant_chunks
        )

        response = self.llm_client.chat.completions.create(
            model="gpt-4o",
            messages=[
                {"role": "system", "content": "基于提供的文档内容回答问题。如果文档中没有相关信息，请如实说明。"},
                {"role": "user", "content": f"文档内容:\n{context}\n\n问题: {question}"},
            ],
        )

        return response.choices[0].message.content


# 使用示例
if __name__ == "__main__":
    pipeline = MarkItDownRAGPipeline(
        chunk_size=1000,
        chunk_overlap=200,
        enable_plugins=True,
    )

    # 批量处理文档目录
    chunks = pipeline.process_directory("./documents")

    # 查询
    answer = pipeline.query("Q3 的收入增长趋势如何？")
    print(answer)

管道设计要点

大文件流式处理：超过 50MB 的文件自动切换到 convert_stream，避免内存溢出
基于标题层级的智能分块：不是简单按字符数切，而是优先在标题边界切分，保持语义完整性
Overlap 机制：分块之间保留重叠内容，避免关键信息被切断
元数据保留：每个分块记录来源文件、标题层级等信息，方便溯源

性能优化：生产环境的调优指南

1. 批量处理的并发优化

MarkItDown 本身是同步 API，但文件转换是 CPU/IO 密集型任务，批量处理时可以用线程池提升吞吐：

from concurrent.futures import ThreadPoolExecutor, as_completed

def batch_convert(file_paths: list[str], max_workers: int = 4) -> dict[str, str]:
    """并发批量转换"""
    md = MarkItDown()
    results = {}

    def convert_one(path):
        try:
            result = md.convert(path)
            return path, result.text_content
        except Exception as e:
            return path, f"ERROR: {e}"

    with ThreadPoolExecutor(max_workers=max_workers) as executor:
        futures = {executor.submit(convert_one, p): p for p in file_paths}
        for future in as_completed(futures):
            path, content = future.result()
            results[path] = content

    return results

注意：max_workers 不宜设太大，因为 PDF 解析和 LLM 调用都有资源开销。一般 4-8 个并发是合理的起始值。

2. 内存优化：流式处理 + 增量写入

处理大量文档时，不要把所有 Markdown 都加载到内存中：

import json
from pathlib import Path

def convert_and_save_incrementally(directory: str, output_dir: str):
    """增量转换并保存，避免内存堆积"""
    md = MarkItDown()
    output_path = Path(output_dir)
    output_path.mkdir(exist_ok=True)
    index = []

    for file_path in Path(directory).rglob("*"):
        if file_path.suffix.lower() not in {".pdf", ".docx", ".xlsx", ".pptx"}:
            continue

        result = md.convert(str(file_path))
        # 每个文件单独保存
        md_file = output_path / f"{file_path.stem}.md"
        md_file.write_text(result.text_content, encoding="utf-8")

        # 维护索引
        index.append({
            "source": str(file_path),
            "output": str(md_file),
            "title": result.title or file_path.stem,
            "size": len(result.text_content),
        })

    # 保存索引文件
    (output_path / "index.json").write_text(
        json.dumps(index, ensure_ascii=False, indent=2),
        encoding="utf-8"
    )

    return index

3. LLM 调用优化

当你同时需要 LLM Vision 和 OCR 时，注意避免重复调用：

# 错误：每个图片都单独调用 LLM
md = MarkItDown(llm_client=client, llm_model="gpt-4o")

# 优化：批量处理时复用 client，并设置合理的超时和重试
from openai import OpenAI

client = OpenAI(
    timeout=60.0,          # 单次请求超时 60 秒
    max_retries=3,         # 最多重试 3 次
)

md = MarkItDown(
    llm_client=client,
    llm_model="gpt-4o-mini",  # 对于 OCR 场景，mini 通常够用
    enable_plugins=True,
)

gpt-4o-mini 在 OCR 场景下的准确率通常够用，但成本只有 gpt-4o 的十分之一。只有在需要理解复杂架构图、流程图时才建议用 gpt-4o。

4. 缓存策略

对于不变的文档，转换结果应该缓存：

import hashlib
import json
from pathlib import Path

class CachedMarkItDown:
    """带缓存的 MarkItDown 封装"""

    def __init__(self, cache_dir: str = ".markitdown_cache", **kwargs):
        self.md = MarkItDown(**kwargs)
        self.cache_dir = Path(cache_dir)
        self.cache_dir.mkdir(exist_ok=True)

    def _cache_key(self, file_path: str) -> str:
        # 基于文件内容 + 修改时间生成缓存键
        stat = Path(file_path).stat()
        raw = f"{file_path}:{stat.st_size}:{stat.st_mtime}"
        return hashlib.sha256(raw.encode()).hexdigest()[:16]

    def convert(self, file_path: str) -> str:
        cache_key = self._cache_key(file_path)
        cache_file = self.cache_dir / f"{cache_key}.md"

        if cache_file.exists():
            return cache_file.read_text(encoding="utf-8")

        result = self.md.convert(file_path)
        cache_file.write_text(result.text_content, encoding="utf-8")

        return result.text_content

与同类工具对比

维度	MarkItDown	Pandoc	textract	Unstructured
定位	LLM 文档预处理	通用格式转换	文本提取	文档解析平台
格式覆盖	15+ 种	50+	约 10 种	广
输出格式	Markdown	多种	纯文本	JSON/CSV
LLM 优化	专门设计	无	无	部分支持
LLM 集成	原生 GPT-4o	无	无	需额外配置
OCR 支持	内置（插件 + Azure）	需外部工具	需外部工具	内置
插件系统	有（0.1.0 新增）	Filter 机制	无	无
MCP 支持	有	无	无	无
学习成本	极低	较高	低	中等
安装复杂度	pip 一键	需 Haskell	轻量	依赖较重
维护方	微软官方	社区	社区	社区

MarkItDown 的核心差异化：输出格式天然对 LLM 友好 + LLM 增强 + MCP 集成。它不是要替代 Pandoc，而是在「文档→Markdown→LLM」这条链路上做到了极致。

进阶：Docker 化部署与 CI/CD 集成

Docker 部署

FROM python:3.12-slim

WORKDIR /app

# 按需安装依赖，不要无脑 [all]
RUN pip install --no-cache-dir 'markitdown[pdf,docx,xlsx,pptx]'

# 如果需要 OCR 插件
RUN pip install --no-cache-dir markitdown-ocr

COPY . .

ENTRYPOINT ["markitdown"]

# 构建
docker build -t markitdown:latest .

# 使用
docker run --rm -i markitdown:latest < ~/your-file.pdf > output.md

# 批量处理
docker run --rm -v $(pwd)/docs:/docs -v $(pwd)/output:/output markitdown:latest \
  bash -c 'for f in /docs/*.pdf; do markitdown "$f" > "/output/$(basename "${f%.pdf}.md")"; done'

GitHub Actions 集成

在 CI/CD 中自动转换文档：

name: Convert Documents

on:
  push:
    paths:
      - 'docs/**'

jobs:
  convert:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4

      - name: Install MarkItDown
        run: pip install 'markitdown[pdf,docx]'

      - name: Convert all documents
        run: |
          mkdir -p output
          for f in docs/*.{pdf,docx}; do
            basename=$(basename "${f%.*}")
            markitdown "$f" > "output/${basename}.md"
          done

      - name: Commit converted files
        run: |
          git config user.name "github-actions[bot]"
          git config user.email "github-actions[bot]@users.noreply.github.com"
          git add output/
          git diff --quiet && git diff --staged --quiet || git commit -m "docs: auto-convert documents"
          git push

常见问题与排障

Q1: PDF 表格提取还是不对齐怎么办？

如果内置转换器的表格对齐效果不理想，有两个升级路径：

使用 Azure Document Intelligence（需要 Azure 账号）
使用 OCR 插件 + GPT-4o Vision，让 LLM 直接理解表格结构

md = MarkItDown(
    enable_plugins=True,
    llm_client=OpenAI(),
    llm_model="gpt-4o",
)
result = md.convert("complex_table.pdf")

Q2: 扫描件 PDF 转出来是空的？

扫描件 PDF 的文字是图片形式存储的，需要 OCR。三种方案：

Azure Document Intelligence：质量最高，需付费
Azure Content Understanding：支持更多模态，需付费
markitdown-ocr 插件：基于 LLM Vision，需要一个 API Key

# 方案 1：Azure Doc Intel
markitdown scanned.pdf -d -e "<endpoint>" -o output.md

# 方案 2：OCR 插件
pip install markitdown-ocr openai
markitdown scanned.pdf --use-plugins -o output.md

Q3: 处理 ZIP 文件时内存溢出？

大 ZIP 文件内可能包含大量文档，建议解压后逐个处理：

import zipfile
from pathlib import Path

def process_zip_safely(zip_path: str, output_dir: str):
    """安全处理大 ZIP 文件"""
    md = MarkItDown()
    output_path = Path(output_dir)
    output_path.mkdir(exist_ok=True)

    with zipfile.ZipFile(zip_path, 'r') as zf:
        for name in zf.namelist():
            if not name.endswith(('.pdf', '.docx', '.xlsx', '.pptx')):
                continue

            # 逐个解压并转换，避免同时占用内存
            zf.extract(name, "/tmp/markitdown_work/")
            result = md.convert(f"/tmp/markitdown_work/{name}")

            out_file = output_path / f"{Path(name).stem}.md"
            out_file.write_text(result.text_content, encoding="utf-8")

Q4: MCP 服务器的安全加固？

生产环境中部署 MCP 服务器，务必：

使用最新版本（修复了早期版本的 SSRF 漏洞）
网络隔离——MCP 服务器不应暴露在公网
限制可访问的文件路径
使用 convert_local() 替代 convert()，限制只能处理本地文件

# 安全的调用方式
from markitdown import MarkItDown

md = MarkItDown()

# 只接受本地文件路径
result = md.convert_local("/safe/directory/document.pdf")

# 只接受二进制流
with open("document.pdf", "rb") as f:
    result = md.convert_stream(f, file_extension=".pdf")

总结与展望

MarkItDown 的出现，解决的是 AI 时代的「数据入口」问题。LLM 再强大，如果输入的是一团没有结构的文本，推理能力也会大打折扣。MarkItDown 通过把各种格式的文档统一转换为结构化的 Markdown，为 LLM 提供了高质量的输入。

从 0.0.1 到 0.1.0，进化路径非常清晰：

单一工具 → 可扩展平台：插件系统让第三方开发者可以扩展格式支持
离线处理 → 云端增强：Azure Doc Intel / Content Understanding 集成提供更高质量的转换
手动调用 → Agent 集成：MCP 协议让 AI Agent 无缝调用文档转换能力
文本提取 → 文档理解：OCR 层服务 + LLM Vision 让扫描件和图片不再是盲区

108K Star 和活跃的社区迭代，证明了它在开发者心中的地位。以下是适合马上上手的人群：

RAG 开发者：统一文档格式，提升检索质量，减少预处理工作量
AI Agent 开发者：通过 MCP 集成，让 Agent 直接理解文档内容
技术博主和文档工程师：快速把 Word、PDF 转为 Markdown，告别手动搬运
企业知识管理：批量转换内部文档，构建统一的知识库

一行命令开启：

pip install 'markitdown[all]'

项目地址：https://github.com/microsoft/markitdown
MCP 服务器：https://github.com/microsoft/markitdown/tree/main/packages/markitdown-mcp
OCR 插件：https://github.com/microsoft/markitdown/tree/main/packages/markitdown-ocr
协议：MIT License（可商用）