把公众号、网页、视频收进知识库，这套工具我放到 GitHub 了把散落各处的内容收进知识库：公众号文章、网页、B站视频、

不是什么大项目，就是自己一直在用的东西，整理了一下，如果你也需要可以直接拿去。

过去一个多月，陆续写了几篇"怎么把散落各处的内容收进知识库"的文章。

公众号、全网网页、B 站视频、小红书收藏、RSS 订阅——一条线写下来，其实背后都是同一套脚本在跑。

期间有不少读者私信问代码，也有人问"怎么配置"、"能不能直接用"。一直拖着，这两天终于整理好了，放到 GitHub 了。

地址在这里：github.com/careycao/we…

01 里面有什么？

四个模块，分别对应不同的内容来源：

kb_collector：核心采集器，支持微信公众号文章和普通网页。

这是最早写的，也是其他三个的基础。用 Playwright 抓页面，用 jieba 关键词自动判断文章该归哪个知识库、哪个分类，不用手动整理。

video_collector：把 B 站、YouTube、小红书视频里的字幕或简介提取成文本入库。

本质上是给 yt-dlp 套了一层知识库路由逻辑。没有字幕的视频会降级用简介——总之让它有内容可搜。

xhs_collector：小红书收藏夹批量入库。

用网络拦截的方式抓取收藏列表，逐篇确认后保存，不会自动入库。

rss_daily：RSS 订阅源聚合。

可以配置公众号账号直连或标准 RSS 源，每天跑一次输出结构化列表，再在 AI 对话里生成摘要精选。

四个模块可以独立用，也可以组合用。

02 为什么要整理出来？

说实话，最开始没想着开源。脚本是给自己用的，能跑就行，没有考虑别人能不能用。

后来把这几篇文章发出去，发现有类似需求的人不少。

信息碎片化的问题不是个人问题。 很多人已经在用 OpenClaw 或者类似工具，恰好缺的就是这一层"把内容收进来"的工具链。

既然已经有人在问，整理一下放出来也不麻烦，说不定能省一些人重复造轮子。

03 怎么用？

装起来不复杂，但有几个前提要说清楚：

第一步：克隆仓库并安装依赖

git clone https://github.com/careycao/wechat-to-kb.git
cd wechat-to-kb
python3 -m venv .venv && source .venv/bin/activate
pip install -e .
playwright install chromium

需要 Python 3.10+，依赖一条命令搞定。

第二步：配置知识库分类

仓库里有 kb_config.example.py，复制成 kb_config.py，里面定义你自己的知识库名称、分类和关键词。示例里保留了几个常用分类，可以直接改。

第三步：公众号文章需要微信登录态

第一次运行会打开浏览器，扫码登录一次，之后自动保存，不用每次都扫。

各模块有独立的使用说明，看 USAGE.md 或 README.md 就够了，不用从头读代码。

04 用了一段时间，几个建议

知识库分类不要设太细。

每个知识库保持 4-6 个分类，关键词宁可粗一点，分类准确率反而更高。

不要试图把所有东西都入库。

知识库的价值在于"真正会回来用的内容"，而不是收藏数量。我现在的习惯是：只有觉得可以长期沉淀、日后多次回来学习和参考的内容才入库，其他看完就算。

和 AI 助手打通之后，体验会好很多。

如果你用 OpenClaw 或类似工具，把 README 里「接入 OpenClaw」那段复制进你的 TOOLS.md，之后在对话框里说"帮我保存这个链接"，AI 自动调用脚本入库，不需要开终端。

这是我现在最常用的方式，几乎感觉不到脚本的存在。

05 目前的状态和后续

仓库现在是"能用，但还不够打磨"的阶段。

几个已知的不完善：

rss_daily 的去重功能还没做（方案有，代码还没写）
xhs_collector 只能抓收藏夹摘要，完整正文需要逐条打开详情页，暂时没做
没有可视化界面，所有操作都是命令行

这些我会看需求陆续补，有具体需求也欢迎提 issue。

这不是一个产品，就是一个还在用、还在改的工具。放出来，是觉得可能有用——仅此而已。

如果你读过之前的知识库系列，这个仓库就是那些文章背后的代码。

还没看过的，可以从第一篇开始，背景会更清楚一些。

如果觉得有用，GitHub 点个 star 是最好的支持，也方便以后找回来。

若你也关心 AI 知识库、工程基建，以及 AI 如何真正接入日常工作流，欢迎关注公众号 「智码探路」——持续整理一线实践与思考。

原文链接：把公众号、网页、视频收进知识库，这套工具我放到 GitHub 了

晓智 · 智码探路