从公众号到全网收藏:OpenClaw 如何把碎片信息统一进知识库

0 阅读4分钟

从公众号到全网收藏:OpenClaw 如何把碎片信息统一进知识库

公众号、任意网页、小红书收藏、RSS 订阅……散落各处,用时找不到。本文记录如何用 OpenClaw 把多源信息统一沉淀到本地,配合 AI 随时检索调用。


日常会遇到几个常见场景:

  • 公众号、技术博客、专栏文章,收藏了很多,再也没翻过
  • 小红书收藏了几百条笔记,沉在 App 里吃灰
  • RSS 订阅了几十个源,根本看不过来

最近用 OpenClaw 搭了一套自动化链路,把这些散落的内容统一沉淀到本地知识库,配合 AI 随时检索。核心做了三件事:

  • 工具从「只认公众号」升级到「任意链接」
  • 把小红书收藏从「吃灰」变成可整理、可选入库
  • 用 RSS + 定时任务解决「订阅太多看不完」

知识库存哪、怎么统一管理

所有内容都落在本地目录(默认 ~/knowledge_base/),统一文件夹 + 索引体系——不是散落在各个 App 收藏夹里,而是可检索、可追溯的资料池。

备份或跨机器协作时,把整个目录推到 GitHub 即可。OpenClaw 里的 AI 可以按路径读文件、做问答和调用工具。

分了几套知识库,各自一套分类目录和关键词(自动归类用):

知识库侧重分类示例
AI_KnowBaseAI 与组织变革战略与框架、实践与案例、工具与方法、AI Coding
Engineering_KnowBase技术与工程系统架构、后端与中间件、前端与移动端、数据与存储
Management_KnowBase管理与团队战略与组织、团队与人才、机制与流程
PM_KnowBase产品与运营产品战略、用户研究、产品设计、数据分析

分类可按需调整,打开配置改关键词即可,改完立即生效。

目前以图文/偏文字为主。视频类内容(小红书视频、B站视频)需要另做转写/字幕处理,是下一个阶段。


一、kb_collector:从公众号,到任意链接都能进知识库

上一版只支持公众号(mp.weixin.qq.com),用 Playwright 抽正文再分类建索引。

升级后的 kb_collector 改成了统一页面抓取模块:

  • 微信文章:仍用 #js_content
  • 其他站点:按语义结构 fallback(articlemain.content 等)
  • 使用方式:在对话里丢任意链接,或维护 urls.txt 批量跑

不是所有站点都能 100% 成功——登录墙、强反爬会影响抓取;公开可读、结构正常的页面成功率最高。对日常读文章、做主题调研已经够用。

抓取成功后按配置路由写入对应知识库,README 索引 + 原文可追溯。


二、xhs_collector:小红书收藏,先整理再决定是否入库

另一个痛点是收藏 ≠ 入库

  • 用浏览器会话拉取收藏笔记(首次需登录,会话状态存在本地)
  • 整理成可阅读的文本/HTML,带标题、正文、标签、原文链接
  • kb_collector 共用同一套路由与知识库配置

关键思路:先批量把笔记"拉出来、结构化",再决定哪些值得长期进知识库。不是一股脑全塞进库。


三、rss_daily:订阅几十个源,用「日报 + AI」读得完

信息过载场景:

  • 订阅了几十个技术博客、公众号 RSS,根本看不过来
  • 传统 RSS 阅读器擅长聚合,但不会帮你做摘要、去重
  • 纯 AI 对话没有稳定的"每日新文章入口"

rss_daily 的核心思路:

  1. 定时抓取:按配置拉取 RSS/Atom 源,增量入库
  2. 结构化输出:生成今日新文章列表
  3. AI 摘要与精选:用模型做摘要、去重、热点归纳
  4. 推送:可接定时任务 + 飞书/微信 Webhook(按需)

RSS 负责「不漏更新」,AI 负责「读得完、抓重点」


四、三条线指向同一件事

能力解决什么和 AI 的关系
kb_collector把零散网页变成本地可检索资产助手可读库内文件,做问答与综述
xhs_collector把「收藏夹吃灰」变成可整理、可选入库先结构化,再由你决定要不要进 kb
rss_daily订阅多、看不完 → 日报 + 摘要在 OpenClaw 里用模型做「今日精选」

它们是一条 输入 → 结构化沉淀 → 再被 AI 利用 的流水线。


写在最后

最值得投资的可能不是更长的系统提示词,而是把「能稳定落盘」的链路和工具先搭好。工具会迭代,但「能存、能找、能喂给 AI」这一层逻辑不会过时。


首发于公众号:智码探路