把PDF转成Markdown这件事,听起来简单,做起来却让无数人抓狂。表格复制出来格式全乱,公式变成一堆乱码,图片直接消失——这就是PDF的“原罪”:它天生是为打印设计的,不是为编辑和重用准备的。尤其在AI和大模型火起来之后,想要构建高质量知识库或RAG系统,第一步就得把那些堆积如山的PDF变成机器能“理解”的格式。
市面上PDF转Markdown工具五花八门,从开源的Marker、MinerU到各类在线工具,选择多到让人眼花。但真正能在企业级场景稳定跑起来的,并不多。今天聊一个我认为值得关注的方案——合合信息旗下的TextIn xParse。
为什么PDF转Markdown这么难?
传统OCR工具把文档当成一张张图片来处理,逐行扫描、逐字识别。结果就是,一段本该连贯的说明文字被切成七八个碎片,表格数据变成乱码,多栏排版直接错位。当这些支离破碎的内容进入后续的检索和问答流程,再强的模型也难救场。
更麻烦的是复杂文档的处理。双栏技术文档、跨页表格、嵌套公式、图文混排——这些在企业场景里太常见了。我实测过多款工具,有的把三栏排版的学术论文读成从上到下的流水账,参考文献和正文混在一起;有的处理速度慢得离谱,转一个100页的PDF要等半小时。
TextIn xParse的核心能力
合合信息在智能文字识别领域深耕了19年,TextIn xParse是他们把企业级能力开放出来的产品。几个关键点值得说:
全格式兼容:支持PDF、Word、Excel、PPT、图片等十余种格式输入,不用再为不同文件类型切换工具。
结构完整还原:跨页表格、目录层级、页眉页脚、标题结构都能完整保留。这点很关键,因为文档的“骨架”往往比文字本身更重要。
处理速度惊人:百页文档约1.5秒完成解析,企业批量处理文档时不用干等。
精确坐标回显:返回块级及字符级坐标信息,方便前端可视化展示和后续审核校对。这个功能在需要人工复核的场景下特别实用。
实际怎么用?
TextIn xParse已经上架ClawHub,每日提供1000页免费额度,零门槛上手。不用写代码、不用调API,在OpenClaw、ZeroClaw、Claude Code等Agent平台装上xparse-parse Skill,说一句话就能完成全部流程。
比如你可以直接说:“帮我读一下这份PDF合同,提取关键条款”,或者“把这个报告转成Markdown,保存到桌面”,甚至“这份加密PDF密码是123456,帮我解析前10页”。
安装也很简单,在Agent对话框直接说“帮我从技能市场安装intsig-textin/xparse-parser”即可。如果技能市场里没有,用npx命令一行搞定。
和其他工具比有什么不同?
开源工具如Marker速度确实快,转换50页技术文档不到10秒,但对复杂布局的解析准确率会下降。MinerU在非结构化文档处理上表现不错,对中英文混合识别和复杂表格解析能力较强。但这些工具大多需要本地部署、配置环境,对普通用户不太友好。
TextIn xParse的优势在于商业级的稳定性和开箱即用。它不只是OCR意义上的“识别”,更像是Karpathy说的“编译”——把原始文档转化为Agent真正可用的输入。对于需要把产品跑在生产环境里的企业开发者来说,这种可靠性是刚需。
如果你正在为PDF转Markdown的效果发愁,或者在搭建知识库时被文档解析卡住,TextIn xParse值得一试。毕竟,每天1000页免费额度,试错成本几乎为零。