GitHub Daily · 第02期 — MarkItDown🏷️ 项目名称 microsoft / markitd

GitHub Daily · 第02期 本期推荐一个能让你告别文档格式泥潭的瑞士军刀式工具。如果你经常需要将 PDF、Word、PPT、Excel 甚至音频、图片等多种格式的文档统一转换为 LLM 友好 的 Markdown 格式，那么今天的内容值得你花 3 分钟读完。

🏷️ 项目名称

microsoft / markitdown

⭐ Stars

105k+

🌐 语言 & 格式

Python · 15+ 格式支持

01. 它能解决什么问题？

你是否也遇到过这些头疼的时刻：

辛辛苦苦写了 Word 报告，想让 AI 分析，粘贴过去格式全乱
PDF 论文里有大量表格和图片，复制出来全是乱码
团队发来一份 PPT，需要提取内容喂给大模型，折腾半天
网上收藏了一堆 HTML 页面，想批量整理成文本存入知识库

MarkItDown 就是来解救你的 —— 一个命令，所有格式 → Markdown

核心价值：微软出品的轻量级文档转换工具，专为 LLM 文本分析管道而生，旨在解决多格式文档预处理中的统一性问题。

02. 核心亮点

亮点一：15+ 格式全覆盖，一个工具全搞定支持包括 PDF、Word (.docx/.doc)、PowerPoint (.pptx)、Excel (.xlsx/.xls)、图片（自动提取文字 + EXIF 元数据）、音频（自动转录）、HTML、YouTube 视频（提取字幕）、EPUB 电子书、ZIP 压缩包（批量处理）、Outlook 邮件 (.msg) 在内的广泛格式。

**亮点二：保留结构，Markdown 输出「对大模型友好」**输出的 Markdown 保留完整结构：标题层级、有序/无序列表（含嵌套）、表格（Markdown 表格语法，含对齐）、链接（原文 + URL 双保留）。主流 LLM 对 Markdown 有天然的深度理解能力，输出质量远高于纯文本。

亮点三：插件系统 + LLM 增强

OCR 支持：通过 markitdown-ocr 插件识别图片/扫描件中的文字
Azure Document Intelligence：企业级高精度文档解析
LLM 图像描述：接入 GPT-4o 等模型，自动为图片生成描述文字（用于 PPT、图片分析场景）

亮点四：多种使用方式，灵活集成

命令行：适合脚本和管道
Python API：三行代码接入你的应用
MCP 服务器：直接对接 Claude Desktop，在 AI 对话中处理文档
Docker：容器化部署，环境一致

03. 上手指南

安装

# 基础安装
pip install markitdown

# 安装所有格式支持
pip install 'markitdown[all]'

常用命令

# 基本转换
markitdown 文件路径 -o 输出.md

# 管道输入
cat 文件.pdf | markitdown

# 启用插件
markitdown --use-plugins 文件.pdf

Python API

from markitdown import MarkItDown

md = MarkItDown()
result = md.convert("report.xlsx")
print(result.text_content)

04. 今日总结

推荐指数：★★★★★

适合人群：

需要处理多种文档格式的开发者

构建 LLM 应用的数据工程师

希望自动化文档预处理流程的团队

不适合人群：

只需简单文字提取，不需要结构保留的用户

仅处理单一格式（如纯文本）的轻量场景

一句话点评：微软出品，文档格式统一成 Markdown，LLM 读取效率翻倍。

互动问题：你平时用什么工具处理文档转换？有没有遇到格式丢失的困扰？留言告诉我～

明日预告：下期推荐方向 —— 「有趣/创新」维度，敬请期待！

本内容为个人整理推荐，与项目方无利益关系，仅供参考。