别再让 PDF 毁掉你的 LLM-Wiki:给 AutoClaw 装上 PaddleOCR

1 阅读4分钟

别再让 PDF 毁掉你的 LLM-Wiki:给 AutoClaw 装上 PaddleOCR

一次补上 AutoClaw 的高精度文档解析能力!

上一篇《别再把 RAG 当知识库:用 AutoClaw 搭一套会进化的 Karpathy LLM Wiki》发出后,很多朋友已经把基础流程跑起来了。

但很快,一个问题反复出现:

AutoClaw 为什么一读 PDF 就容易翻车?

有人论文顺序乱了,有人财报表格被拆碎,有人公式没了、图注错位了,扫描件更是直接读不出来。

这通常不是 LLM-Wiki 的问题,也不是 AutoClaw 不行。

真正的问题在入口:

PDF 解析这一步,已经把原材料弄坏了。

LLM-Wiki 的核心不是“临时问答”,而是在 ingest 阶段把资料编译成 source、concept、analysis、索引、日志和 QA。入口错了,后面生成得再漂亮,也是在错误原料上加工。

所以这篇只解决一个关键问题:

给 AutoClaw 装上 PaddleOCR 文档解析和 OCR 技能,让 LLM-Wiki 先读准,再沉淀。

PDF 是 LLM-Wiki 的第一道险关

很多人最开始用 *pdfplumber *读 PDF。它对文本层干净、排版简单的文件很好用,但真正放进 LLM-Wiki 的资料往往没这么乖。

更常见的是:

  • 论文:双栏、公式、图表、参考文献
  • 财报研报:跨页表格、指标口径、附注说明
  • 手册资料:截图、流程图、代码块、复杂目录
  • 扫描件:没有文本层,本质是一张张图片

普通文本提取最容易出四类问题:阅读顺序错、表格结构丢、公式符号坏、扫描件失准。临时问答还能忍,但 LLM-Wiki 会把结果写进 pages/,后续继续引用和回写。入口错误会变成长期错误

要升级的不是 prompt,而是阅读能力

遇到 PDF 翻车,很多人的第一反应是继续改 prompt。但如果解析层已经失败,prompt 没法凭空还原原文结构。

正确思路是:

先让 AutoClaw 具备更强的文档解析能力,再让 LLM-Wiki 做知识编译。

这次安装两个 PaddleOCR Skills:

paddleocr-doc-parsing:文档解析

适合复杂 PDF、论文、财报、研报、白皮书和产品手册。重点是保留标题、段落、阅读顺序、表格、公式、图表和版面结构。

paddleocr-text-recognition:文字识别

适合图片、照片、截图、扫描件和图片型 PDF。

一句话:

复杂文档走文档解析,图片文字走文字识别。

三、链路会变成什么样

原来的 LLM-Wiki 流程是:把资料放进 raw/,让 AutoClaw 按 SCHEMA.md 生成 source、concept、analysis、index、log 和 QA。

paddleocr-llm-wiki.png

当 raw/ 里是 PDF、扫描件或图片时,中间要补一层高精度解析:先用 PaddleOCR 读准结构,再让 LLM 理解、压缩、链接和回写。

四、安装前准备

1. ClawHub Token

访问 clawhub.ai,登录后进入 Settings,创建 API tokens。它通常以 clh_ 开头。

claw_tokens.png

2. PaddleOCR API 信息

访问 www.paddleocr.com,进入模型服务页面,复制三项信息:

  • PaddleOCR-VL-1.5 的 API_URL
  • PP-OCRv5 的 API_URL
  • PaddleOCR 官网 的 Access Token

文档解析 API 给复杂 PDF 用,文字识别 API 给图片和扫描件用,Access Token 两个技能共用。

paddleocr_tokens.png

把安装提示词发给 AutoClaw

克隆提示词仓库:

git clone https://github.com/AIwork4me/llm_wiki_prompt.git打开: prompts/install_paddleocr_skills_prompt.md

只改开头“配置区”里引号内的值:

4019c92a-8540-46a9-b205-7da619b76a1e.png

然后,把整份提示词发给 AutoClaw。

看到安装成功、配置持久化、smoke test 通过,就说明 PaddleOCR 技能已经安装成功。

install_paddleocr_skills.png

让 LLM-Wiki 真正用上它

技能装好后,不要只说 请 ingest raw/articles/attention.pdf,而要明确分两步:

请先使用 paddleocr-doc-parsing 解析 raw/articles/attention.pdf, 尽量保留章节、阅读顺序、表格、公式、图表标题和图注。 解析完成后,再按当前 SCHEMA.md 执行 LLM-Wiki ingest: 创建或更新 source 页,提炼 concept / entity / analysis, 同步 index.md,在 log.md 记录,并生成 qa-reports/self-check。

paddleocr_results.png

如果处理截图或扫描件:  请使用 paddleocr-text-recognition 提取 raw/images/xxx.jpg 的文字, 再把识别结果作为 raw source 写入 LLM-Wiki。 QA 中说明原始文件、使用技能、低置信区域,以及哪些内容是模型综合。重点是:不要直接“总结 PDF”。先解析,再 ingest;先保真,再压缩。

小结

LLM-Wiki 最重要的不是“自动生成很多 Markdown”,而是让资料成为可追溯的 source,更新已有概念,修正旧结论,并在未来继续被复用

这一切都有一个前提:

原始资料必须先被读准。

PaddleOCR 给 AutoClaw 补上的,正是这个前提。

PDF 读准了,source 页才稳;source 页稳了,concept 页才不会乱;query-writeback 才真的有复利。

从现在开始,把资料放进 raw/,让 AutoClaw 先用 PaddleOCR 读懂它,再按 SCHEMA.md 编译进 wiki。

好资料进来,好结构留下,好知识越用越多。

参考资料