从公众号到全网收藏:OpenClaw 如何把碎片信息统一进知识库
公众号、任意网页、小红书收藏、RSS 订阅……散落各处,用时找不到。本文记录如何用 OpenClaw 把多源信息统一沉淀到本地,配合 AI 随时检索调用。
日常会遇到几个常见场景:
- 公众号、技术博客、专栏文章,收藏了很多,再也没翻过
- 小红书收藏了几百条笔记,沉在 App 里吃灰
- RSS 订阅了几十个源,根本看不过来
最近用 OpenClaw 搭了一套自动化链路,把这些散落的内容统一沉淀到本地知识库,配合 AI 随时检索。核心做了三件事:
- 工具从「只认公众号」升级到「任意链接」
- 把小红书收藏从「吃灰」变成可整理、可选入库
- 用 RSS + 定时任务解决「订阅太多看不完」
知识库存哪、怎么统一管理
所有内容都落在本地目录(默认 ~/knowledge_base/),统一文件夹 + 索引体系——不是散落在各个 App 收藏夹里,而是可检索、可追溯的资料池。
备份或跨机器协作时,把整个目录推到 GitHub 即可。OpenClaw 里的 AI 可以按路径读文件、做问答和调用工具。
分了几套知识库,各自一套分类目录和关键词(自动归类用):
| 知识库 | 侧重 | 分类示例 |
|---|---|---|
| AI_KnowBase | AI 与组织变革 | 战略与框架、实践与案例、工具与方法、AI Coding |
| Engineering_KnowBase | 技术与工程 | 系统架构、后端与中间件、前端与移动端、数据与存储 |
| Management_KnowBase | 管理与团队 | 战略与组织、团队与人才、机制与流程 |
| PM_KnowBase | 产品与运营 | 产品战略、用户研究、产品设计、数据分析 |
分类可按需调整,打开配置改关键词即可,改完立即生效。
目前以图文/偏文字为主。视频类内容(小红书视频、B站视频)需要另做转写/字幕处理,是下一个阶段。
一、kb_collector:从公众号,到任意链接都能进知识库
上一版只支持公众号(mp.weixin.qq.com),用 Playwright 抽正文再分类建索引。
升级后的 kb_collector 改成了统一页面抓取模块:
- 微信文章:仍用
#js_content - 其他站点:按语义结构 fallback(
article、main、.content等) - 使用方式:在对话里丢任意链接,或维护
urls.txt批量跑
不是所有站点都能 100% 成功——登录墙、强反爬会影响抓取;公开可读、结构正常的页面成功率最高。对日常读文章、做主题调研已经够用。
抓取成功后按配置路由写入对应知识库,README 索引 + 原文可追溯。
二、xhs_collector:小红书收藏,先整理再决定是否入库
另一个痛点是收藏 ≠ 入库:
- 用浏览器会话拉取收藏笔记(首次需登录,会话状态存在本地)
- 整理成可阅读的文本/HTML,带标题、正文、标签、原文链接
- 与
kb_collector共用同一套路由与知识库配置
关键思路:先批量把笔记"拉出来、结构化",再决定哪些值得长期进知识库。不是一股脑全塞进库。
三、rss_daily:订阅几十个源,用「日报 + AI」读得完
信息过载场景:
- 订阅了几十个技术博客、公众号 RSS,根本看不过来
- 传统 RSS 阅读器擅长聚合,但不会帮你做摘要、去重
- 纯 AI 对话没有稳定的"每日新文章入口"
rss_daily 的核心思路:
- 定时抓取:按配置拉取 RSS/Atom 源,增量入库
- 结构化输出:生成今日新文章列表
- AI 摘要与精选:用模型做摘要、去重、热点归纳
- 推送:可接定时任务 + 飞书/微信 Webhook(按需)
RSS 负责「不漏更新」,AI 负责「读得完、抓重点」
四、三条线指向同一件事
| 能力 | 解决什么 | 和 AI 的关系 |
|---|---|---|
| kb_collector | 把零散网页变成本地可检索资产 | 助手可读库内文件,做问答与综述 |
| xhs_collector | 把「收藏夹吃灰」变成可整理、可选入库 | 先结构化,再由你决定要不要进 kb |
| rss_daily | 订阅多、看不完 → 日报 + 摘要 | 在 OpenClaw 里用模型做「今日精选」 |
它们是一条 输入 → 结构化沉淀 → 再被 AI 利用 的流水线。
写在最后
最值得投资的可能不是更长的系统提示词,而是把「能稳定落盘」的链路和工具先搭好。工具会迭代,但「能存、能找、能喂给 AI」这一层逻辑不会过时。
首发于公众号:智码探路