把喜欢的公众号文章,OpenClaw一键变成自己的知识库

6 阅读5分钟

把喜欢的公众号文章,OpenClaw一键变成自己的知识库

用 OpenClaw + 自建脚本工具,把零散的公众号内容沉淀成可检索、可分类的本地知识库


你是不是也有这样的经历:

刷到一篇好文章,随手收藏,想着「有空再看」。结果收藏夹越堆越多,真要用的时候却找不到;或者文章被删了、链接失效了,想回头翻都翻不出来。

更麻烦的是,当你在做某个主题的调研——比如「AI 组织转型」「人机协同」——需要系统性地整理一批公众号内容时,只能一个个打开、复制、粘贴,再手动建文件夹、起名字,费时费力。

有没有办法,让公众号文章自动下载、自动分类,还能生成本地知识库索引?

有。我基于 OpenClaw 搭了一套工具,实现了这件事。


一、我用的方案:OpenClaw + 公众号抓取脚本

具体做法是:

  1. 写一个 Python 脚本:用 Playwright 打开公众号链接,抓取正文和图片,保存为 HTML + TXT
  2. 用 jieba 做关键词分类:根据预设的类别(战略与框架、实践与案例、工具与方法、组织与文化等),自动把文章归到对应目录
  3. 生成知识库索引:自动生成 README.md,包含分类、标题、摘要、关键词,方便检索
  4. 在 OpenClaw 的 TOOLS.md 里声明这个工具:AI 助手在对话中收到公众号链接时,可以主动调用脚本,帮你下载并整理

这样一来,你只需要:

  • 在飞书或 Web 里对 AI 说:「帮我把这几篇文章保存到知识库」
  • 或者把链接丢进 urls.txt,跑一条命令批量下载

剩下的——抓取、分类、建索引——全部自动完成。


二、知识库长什么样?

下载完成后,本地会有一个类似这样的目录结构:

~/knowledge_base/WeChat_Articles_Knowledge_Base/
├── README.md              # 全库索引(分类 | 编号 | 标题 | 摘要 | 关键词)
├── des_wx_url_list.txt    # 原文链接列表,便于追溯
├── _images/               # 文章配图,按文章编号分目录存放
├── 01-战略与框架/
├── 02-实践与案例/
├── 03-工具与方法/
├── 04-组织与文化/
└── 05-未分类/

每篇文章会保存为:

  • .html:完整正文 + 本地图片引用,双击即可在浏览器里看
  • .txt:纯文本,方便做摘要、关键词提取,或喂给 AI 做 RAG

README 里会有一张表格,类似:

分类编号文章标题核心观点简介关键词
01-战略与框架010001某篇文章本文探讨...战略, 框架, 范式

你可以按分类浏览,也可以按关键词搜索,再也不用在收藏夹里大海捞针。


三、和 AI 助手怎么配合?

在 OpenClaw 的 workspace 里,我往 TOOLS.md 写了一段工具说明,告诉 AI:

当用户提供公众号链接、要求保存或整理为知识库时,调用 run_playwright.sh,传入 URL 或 -f urls.txt

这样,当你在飞书或 openclaw聊天窗口里发一句「帮我把这篇文章存进知识库」,并附上链接,AI 就会:

  1. 执行 run_playwright.sh "https://mp.weixin.qq.com/s/xxxxx"
  2. 等待脚本完成
  3. 读取知识库的 README,告诉你「已保存到 02-实践与案例,编号 020003」

这类对话记录,也可以在飞书等工具里直接贴个链接保存,方便后续回顾或分享。你甚至可以让 AI 基于某几篇文章做摘要、写读书笔记,因为 .txt 内容可以直接被 AI 读取。


四、技术要点(给想自己搭的朋友)

依赖:Python 3、Playwright、jieba。脚本里已经写好 run_playwright.sh,首次运行会自动创建虚拟环境并安装依赖。

分类逻辑:预设了 4 个主题类别 + 1 个「未分类」,每个类别有对应的关键词列表。jieba 分词后统计关键词命中数,取最高分的类别;得分太低就进「未分类」。你可以根据自己关注的领域,改 CATEGORY_KEYWORDS 自定义分类。

图片处理:正文里的图片会下载到 _images/,HTML 中的引用会改成相对路径,离线也能正常查看。

去重:已下载过的文章(按 URL 或标题判断)默认会跳过,避免重复抓取。需要强制重下时加 --no-skip

输出目录:默认是 ~/knowledge_base/WeChat_Articles_Knowledge_Base,可通过环境变量 WECHAT_KB_DIR 自定义。


五、一点心得

以前我收藏文章,多半是「先存着再说」,结果很少回头看。有了这套工具之后,我会刻意把同一主题的文章攒一批,一次性下载、分类,再让 AI 帮忙做综述或提炼要点。知识不再是散落的链接,而是结构化的本地资产。

如果你也在用 OpenClaw,或者类似的 AI 助手框架,不妨试试把「公众号 → 知识库」这条链路打通。脚本本身是通用的,你可以按自己的需求改分类、改输出路径,甚至接上 Obsidian、Notion 等做二次整理。

把信息变成知识,从「能存」到「能用」,这才是知识库的意义。


--- ## 如果觉得有用 欢迎关注公众号 「智码探路」 回复「知识库」获取本文配套脚本和使用指南 公众号每周分享 AI 工具实践、技术管理、人机协同相关内容,感兴趣的朋友可以关注一下 👇