把一堆乱七八糟的笔记，变成一个会自己生长的知识库把收藏的文章、帖子和笔记统一扔进文件夹，交给 AI 自动整理成可持续生长

Karpathy 最近发了一篇文章，推上到处都在转，推荐大家看一下：

Karpathy 原帖

大意是：他在用 LLM 给自己搭一个私人知识库。平时收藏的文章、帖子，统统扔进一个文件夹，然后让 AI 把它们整理成一个结构化的 wiki。

先说说这套东西是怎么运行的。

平时收集到的帖子、文章，直接爬下来扔进一个文件夹里，然后由 AI 负责整理、分类、建立联系。你只需要做采集者和提问者，AI 就像你的图书管理员。

而且这个知识库会随着时间不断复利增长：你存得越多，它就越聪明。

怎么搭建

1. 建三个文件夹

先建一个项目文件夹，里面放三个子文件夹：

my-knowledge-base/
  raw/       # 原始资料放这里
  wiki/      # AI 整理后的 wiki 放这里
  outputs/   # AI 回答问题的结果放这里

就这三个。

`raw/`

你的原始素材堆。文章、帖子、随手记下来的想法，直接往里扔就行，不用整理。

`wiki/`

AI 帮你整理之后的成果。每个话题一个 .md 文件，彼此之间互相链接。

`outputs/`

放你问 AI 之后，它生成的分析、回答和报告。

2. 开始往 `raw/` 里扔东西

比如：

微信里转发给自己的文章，直接复制进来，存成一个 .md 文件
网页内容直接保存成 Markdown
平时的零散笔记也可以扔进去

如果你用 Obsidian，有个很好用的浏览器插件叫 Web Clipper，可以一键把网页转成 Markdown 存下来。

3. 写一个 schema 文件

这一步很重要。

在根目录下新建一个叫 CLAUDE.md 的文件。如果你用别的 AI 工具，也可以叫 AGENTS.md 或 README.md，都行。

这个文件本质上就是给 AI 看的说明书，用来告诉它：

你的知识库是关于什么的
目录结构是什么
wiki 应该遵守哪些规则

一个基础模板大概长这样：

# 项目定义

[写你的主题，比如：AI产品设计、自媒体、行业研究]

# 组织结构

- raw/ 包含未处理的原始素材。切勿修改此类文件。
- wiki/ 包含整理后的维基百科。完全由 AI 进行维护。
- outputs/ 包含生成的报告、回答和分析结果。

# wiki 的规则

- 每个主题在 wiki/ 目录下拥有独立的 .md 文件。
- 每个维基文件开头须包含一段摘要。
- 使用 [[主题名称]] 格式链接相关主题。
- 在 wiki/ 目录下维护一个 INDEX.md 索引文件，列出所有主题及其单行简介。
- 当有新的原始素材（raw sources）加入时，须同步更新相关的维基文章。

# 我关注的方向

[列出 3-5 个你希望该知识库重点关注的领域]

4. 让 AI 编辑你的 wiki

打开 cc，让它读取你的 raw/ 文件夹，然后按照上面的规则，在 wiki/ 里建一套完整的 wiki。

你可以这样说：

先阅读 raw/ 中的所有原始内容，然后按照 CLAUDE.md 中的规则在 wiki/ 目录下编译一个 wiki。首先创建 INDEX.md，然后为每个主要主题创建一个 .md 文件，链接相关主题，并对每个来源进行总结。

然后你就可以去接杯咖啡，等它慢慢干活了。

这里有一点很重要：

不要手动编辑 wiki 里的内容。 别碰，那是你 cc 小秘书的工作。

5. 开始提问

当 wiki 里有了 10 篇以上的文章之后，就可以开始提问了。

比如：

用知识库里的内容，给我写一篇关于某个话题的 500 字简报。

如果 AI 的回答不错，可以存到 outputs/ 里；或者直接让 AI 更新对应的 wiki 页面。

你的每一次提问和回答，都会反过来完善这个知识库。

6. 定期检查

每隔一段时间，比如一周，可以让 AI 对整个 wiki 做一次检查。

你可以这样说：

检查整个 wiki/ 目录：

找出页面之间有没有矛盾的说法

找出被提到但还没有独立页面的话题

找出哪些说法在 raw/ 里找不到来源

建议 3 个新文章方向来填补空白

因为如果有错误信息被存进去，它会一直传递下去。定期检查，可以尽量避免这个问题。

关于是否用 Obsidian

其实不需要。但我还是想用。

Karpathy 的原话是，他希望这套系统**“尽量简单、尽量扁平”**。也确实如此：一堆 .md 文件加一个 schema，就已经够用了。

相比那种一堆插件、七八十个配置的复杂工作流，这套方案简单太多了。

知识库大了之后，怎么检索？

这是个实际问题。

当文章只有几十篇时，靠 INDEX.md 定位还没什么问题。但到了两百篇左右，单靠一个索引文件就会开始吃力。

这个问题我现在还没找到特别好的解法，也欢迎各位佬给点思路。

没想到这么快就有人做出来了

graphify

这个项目挺厉害，它能把代码、文档、PDF、截图这些内容一起读进去，然后整理成一张关系网。

这样一来，AI 不仅能更快读懂项目结构，也更容易理解你的项目为什么这么设计，同时还能更省上下文。

附加价值

整个知识库本质上就是一堆 .md 文件。扔进 Git 仓库里之后，你就有了完整的历史记录：

可以对比改动
可以回滚版本
甚至还可以协作

最后

这套东西，其实就是我一直在找的知识库解法。

在 AI 时代之前，知识库最大的问题不是存不下来，而是维护成本太高。现在，这件事终于开始有了解法。

Vannevar Bush 在 1945 年提出过一个叫 Memex 的概念：一种私人的、主动策划的知识存储系统，文档之间不是简单归档，而是通过关联路径连接，更接近人类联想的方式。

他当时没解决的问题是：谁来维护？

现在，这个问题好像终于有答案了。

三个文件夹，一个说明文件，一个 AI。

就这些。

把一堆乱七八糟的笔记，变成一个会自己生长的知识库