把公众号、网页、视频收进知识库,这套工具我放到 GitHub 了

7 阅读4分钟

不是什么大项目,就是自己一直在用的东西,整理了一下,如果你也需要可以直接拿去。


过去一个多月,陆续写了几篇"怎么把散落各处的内容收进知识库"的文章。

公众号、全网网页、B 站视频、小红书收藏、RSS 订阅——一条线写下来,其实背后都是同一套脚本在跑。

期间有不少读者私信问代码,也有人问"怎么配置"、"能不能直接用"。一直拖着,这两天终于整理好了,放到 GitHub 了。

地址在这里:github.com/careycao/we…


01 里面有什么?

四个模块,分别对应不同的内容来源:

kb_collector:核心采集器,支持微信公众号文章和普通网页。

这是最早写的,也是其他三个的基础。用 Playwright 抓页面,用 jieba 关键词自动判断文章该归哪个知识库、哪个分类,不用手动整理。

video_collector:把 B 站、YouTube、小红书视频里的字幕或简介提取成文本入库。

本质上是给 yt-dlp 套了一层知识库路由逻辑。没有字幕的视频会降级用简介——总之让它有内容可搜。

xhs_collector:小红书收藏夹批量入库。

用网络拦截的方式抓取收藏列表,逐篇确认后保存,不会自动入库。

rss_daily:RSS 订阅源聚合。

可以配置公众号账号直连或标准 RSS 源,每天跑一次输出结构化列表,再在 AI 对话里生成摘要精选。

四个模块可以独立用,也可以组合用。


02 为什么要整理出来?

说实话,最开始没想着开源。脚本是给自己用的,能跑就行,没有考虑别人能不能用。

后来把这几篇文章发出去,发现有类似需求的人不少。

信息碎片化的问题不是个人问题。 很多人已经在用 OpenClaw 或者类似工具,恰好缺的就是这一层"把内容收进来"的工具链。

既然已经有人在问,整理一下放出来也不麻烦,说不定能省一些人重复造轮子。


03 怎么用?

装起来不复杂,但有几个前提要说清楚:

第一步:克隆仓库并安装依赖

git clone https://github.com/careycao/wechat-to-kb.git
cd wechat-to-kb
python3 -m venv .venv && source .venv/bin/activate
pip install -e .
playwright install chromium

需要 Python 3.10+,依赖一条命令搞定。

第二步:配置知识库分类

仓库里有 kb_config.example.py,复制成 kb_config.py,里面定义你自己的知识库名称、分类和关键词。示例里保留了几个常用分类,可以直接改。

第三步:公众号文章需要微信登录态

第一次运行会打开浏览器,扫码登录一次,之后自动保存,不用每次都扫。

各模块有独立的使用说明,看 USAGE.md 或 README.md 就够了,不用从头读代码。


04 用了一段时间,几个建议

知识库分类不要设太细。

每个知识库保持 4-6 个分类,关键词宁可粗一点,分类准确率反而更高。

不要试图把所有东西都入库。

知识库的价值在于"真正会回来用的内容",而不是收藏数量。我现在的习惯是:只有觉得可以长期沉淀、日后多次回来学习和参考的内容才入库,其他看完就算。

和 AI 助手打通之后,体验会好很多。

如果你用 OpenClaw 或类似工具,把 README 里「接入 OpenClaw」那段复制进你的 TOOLS.md,之后在对话框里说"帮我保存这个链接",AI 自动调用脚本入库,不需要开终端。

这是我现在最常用的方式,几乎感觉不到脚本的存在。


05 目前的状态和后续

仓库现在是"能用,但还不够打磨"的阶段。

几个已知的不完善:

  • rss_daily 的去重功能还没做(方案有,代码还没写)
  • xhs_collector 只能抓收藏夹摘要,完整正文需要逐条打开详情页,暂时没做
  • 没有可视化界面,所有操作都是命令行

这些我会看需求陆续补,有具体需求也欢迎提 issue。

这不是一个产品,就是一个还在用、还在改的工具。放出来,是觉得可能有用——仅此而已。


如果你读过之前的知识库系列,这个仓库就是那些文章背后的代码。

还没看过的,可以从第一篇开始,背景会更清楚一些。

如果觉得有用,GitHub 点个 star 是最好的支持,也方便以后找回来。

若你也关心 AI 知识库、工程基建,以及 AI 如何真正接入日常工作流,欢迎关注公众号 「智码探路」——持续整理一线实践与思考。

原文链接把公众号、网页、视频收进知识库,这套工具我放到 GitHub 了


晓智 · 智码探路