Karpathy 最近发了一篇文章,推上到处都在转,推荐大家看一下:
大意是:他在用 LLM 给自己搭一个私人知识库。 平时收藏的文章、帖子,统统扔进一个文件夹,然后让 AI 把它们整理成一个结构化的 wiki。
先说说这套东西是怎么运行的。
平时收集到的帖子、文章,直接爬下来扔进一个文件夹里,然后由 AI 负责整理、分类、建立联系。 你只需要做采集者和提问者,AI 就像你的图书管理员。
而且这个知识库会随着时间不断复利增长:你存得越多,它就越聪明。
怎么搭建
1. 建三个文件夹
先建一个项目文件夹,里面放三个子文件夹:
my-knowledge-base/
raw/ # 原始资料放这里
wiki/ # AI 整理后的 wiki 放这里
outputs/ # AI 回答问题的结果放这里
就这三个。
raw/
你的原始素材堆。 文章、帖子、随手记下来的想法,直接往里扔就行,不用整理。
wiki/
AI 帮你整理之后的成果。
每个话题一个 .md 文件,彼此之间互相链接。
outputs/
放你问 AI 之后,它生成的分析、回答和报告。
2. 开始往 raw/ 里扔东西
比如:
- 微信里转发给自己的文章,直接复制进来,存成一个
.md文件 - 网页内容直接保存成 Markdown
- 平时的零散笔记也可以扔进去
如果你用 Obsidian,有个很好用的浏览器插件叫 Web Clipper,可以一键把网页转成 Markdown 存下来。
3. 写一个 schema 文件
这一步很重要。
在根目录下新建一个叫 CLAUDE.md 的文件。
如果你用别的 AI 工具,也可以叫 AGENTS.md 或 README.md,都行。
这个文件本质上就是给 AI 看的说明书,用来告诉它:
- 你的知识库是关于什么的
- 目录结构是什么
- wiki 应该遵守哪些规则
一个基础模板大概长这样:
# 项目定义
[写你的主题,比如:AI产品设计、自媒体、行业研究]
# 组织结构
- raw/ 包含未处理的原始素材。切勿修改此类文件。
- wiki/ 包含整理后的维基百科。完全由 AI 进行维护。
- outputs/ 包含生成的报告、回答和分析结果。
# wiki 的规则
- 每个主题在 wiki/ 目录下拥有独立的 .md 文件。
- 每个维基文件开头须包含一段摘要。
- 使用 [[主题名称]] 格式链接相关主题。
- 在 wiki/ 目录下维护一个 INDEX.md 索引文件,列出所有主题及其单行简介。
- 当有新的原始素材(raw sources)加入时,须同步更新相关的维基文章。
# 我关注的方向
[列出 3-5 个你希望该知识库重点关注的领域]
4. 让 AI 编辑你的 wiki
打开 cc,让它读取你的 raw/ 文件夹,然后按照上面的规则,在 wiki/ 里建一套完整的 wiki。
你可以这样说:
先阅读
raw/中的所有原始内容,然后按照CLAUDE.md中的规则在wiki/目录下编译一个 wiki。首先创建INDEX.md,然后为每个主要主题创建一个.md文件,链接相关主题,并对每个来源进行总结。
然后你就可以去接杯咖啡,等它慢慢干活了。
这里有一点很重要:
不要手动编辑 wiki 里的内容。 别碰,那是你 cc 小秘书的工作。
5. 开始提问
当 wiki 里有了 10 篇以上的文章之后,就可以开始提问了。
比如:
用知识库里的内容,给我写一篇关于某个话题的 500 字简报。
如果 AI 的回答不错,可以存到 outputs/ 里;
或者直接让 AI 更新对应的 wiki 页面。
你的每一次提问和回答,都会反过来完善这个知识库。
6. 定期检查
每隔一段时间,比如一周,可以让 AI 对整个 wiki 做一次检查。
你可以这样说:
检查整个
wiki/目录:
- 找出页面之间有没有矛盾的说法
- 找出被提到但还没有独立页面的话题
- 找出哪些说法在
raw/里找不到来源- 建议 3 个新文章方向来填补空白
因为如果有错误信息被存进去,它会一直传递下去。 定期检查,可以尽量避免这个问题。
关于是否用 Obsidian
其实不需要。 但我还是想用。
Karpathy 的原话是,他希望这套系统**“尽量简单、尽量扁平”**。
也确实如此:一堆 .md 文件加一个 schema,就已经够用了。
相比那种一堆插件、七八十个配置的复杂工作流,这套方案简单太多了。
知识库大了之后,怎么检索?
这是个实际问题。
当文章只有几十篇时,靠 INDEX.md 定位还没什么问题。
但到了两百篇左右,单靠一个索引文件就会开始吃力。
这个问题我现在还没找到特别好的解法,也欢迎各位佬给点思路。
没想到这么快就有人做出来了
这个项目挺厉害,它能把代码、文档、PDF、截图这些内容一起读进去,然后整理成一张关系网。
这样一来,AI 不仅能更快读懂项目结构,也更容易理解你的项目为什么这么设计,同时还能更省上下文。
附加价值
整个知识库本质上就是一堆 .md 文件。
扔进 Git 仓库里之后,你就有了完整的历史记录:
- 可以对比改动
- 可以回滚版本
- 甚至还可以协作
最后
这套东西,其实就是我一直在找的知识库解法。
在 AI 时代之前,知识库最大的问题不是存不下来,而是维护成本太高。 现在,这件事终于开始有了解法。
Vannevar Bush 在 1945 年提出过一个叫 Memex 的概念: 一种私人的、主动策划的知识存储系统,文档之间不是简单归档,而是通过关联路径连接,更接近人类联想的方式。
他当时没解决的问题是:谁来维护?
现在,这个问题好像终于有答案了。
三个文件夹, 一个说明文件, 一个 AI。
就这些。