把一堆乱七八糟的笔记,变成一个会自己生长的知识库

4 阅读5分钟

Karpathy 最近发了一篇文章,推上到处都在转,推荐大家看一下:

Karpathy 原帖

大意是:他在用 LLM 给自己搭一个私人知识库。 平时收藏的文章、帖子,统统扔进一个文件夹,然后让 AI 把它们整理成一个结构化的 wiki。

先说说这套东西是怎么运行的。

平时收集到的帖子、文章,直接爬下来扔进一个文件夹里,然后由 AI 负责整理、分类、建立联系。 你只需要做采集者和提问者,AI 就像你的图书管理员。

而且这个知识库会随着时间不断复利增长:你存得越多,它就越聪明。


怎么搭建

1. 建三个文件夹

先建一个项目文件夹,里面放三个子文件夹:

my-knowledge-base/
  raw/       # 原始资料放这里
  wiki/      # AI 整理后的 wiki 放这里
  outputs/   # AI 回答问题的结果放这里

就这三个。

raw/

你的原始素材堆。 文章、帖子、随手记下来的想法,直接往里扔就行,不用整理。

wiki/

AI 帮你整理之后的成果。 每个话题一个 .md 文件,彼此之间互相链接。

outputs/

放你问 AI 之后,它生成的分析、回答和报告。


2. 开始往 raw/ 里扔东西

比如:

  • 微信里转发给自己的文章,直接复制进来,存成一个 .md 文件
  • 网页内容直接保存成 Markdown
  • 平时的零散笔记也可以扔进去

如果你用 Obsidian,有个很好用的浏览器插件叫 Web Clipper,可以一键把网页转成 Markdown 存下来。


3. 写一个 schema 文件

这一步很重要。

在根目录下新建一个叫 CLAUDE.md 的文件。 如果你用别的 AI 工具,也可以叫 AGENTS.mdREADME.md,都行。

这个文件本质上就是给 AI 看的说明书,用来告诉它:

  • 你的知识库是关于什么的
  • 目录结构是什么
  • wiki 应该遵守哪些规则

一个基础模板大概长这样:

# 项目定义

[写你的主题,比如:AI产品设计、自媒体、行业研究]

# 组织结构

- raw/ 包含未处理的原始素材。切勿修改此类文件。
- wiki/ 包含整理后的维基百科。完全由 AI 进行维护。
- outputs/ 包含生成的报告、回答和分析结果。

# wiki 的规则

- 每个主题在 wiki/ 目录下拥有独立的 .md 文件。
- 每个维基文件开头须包含一段摘要。
- 使用 [[主题名称]] 格式链接相关主题。
- 在 wiki/ 目录下维护一个 INDEX.md 索引文件,列出所有主题及其单行简介。
- 当有新的原始素材(raw sources)加入时,须同步更新相关的维基文章。

# 我关注的方向

[列出 3-5 个你希望该知识库重点关注的领域]

4. 让 AI 编辑你的 wiki

打开 cc,让它读取你的 raw/ 文件夹,然后按照上面的规则,在 wiki/ 里建一套完整的 wiki。

你可以这样说:

先阅读 raw/ 中的所有原始内容,然后按照 CLAUDE.md 中的规则在 wiki/ 目录下编译一个 wiki。首先创建 INDEX.md,然后为每个主要主题创建一个 .md 文件,链接相关主题,并对每个来源进行总结。

然后你就可以去接杯咖啡,等它慢慢干活了。

这里有一点很重要:

不要手动编辑 wiki 里的内容。 别碰,那是你 cc 小秘书的工作。


5. 开始提问

当 wiki 里有了 10 篇以上的文章之后,就可以开始提问了。

比如:

用知识库里的内容,给我写一篇关于某个话题的 500 字简报。

如果 AI 的回答不错,可以存到 outputs/ 里; 或者直接让 AI 更新对应的 wiki 页面。

你的每一次提问和回答,都会反过来完善这个知识库。


6. 定期检查

每隔一段时间,比如一周,可以让 AI 对整个 wiki 做一次检查。

你可以这样说:

检查整个 wiki/ 目录:

  • 找出页面之间有没有矛盾的说法
  • 找出被提到但还没有独立页面的话题
  • 找出哪些说法在 raw/ 里找不到来源
  • 建议 3 个新文章方向来填补空白

因为如果有错误信息被存进去,它会一直传递下去。 定期检查,可以尽量避免这个问题。


关于是否用 Obsidian

其实不需要。 但我还是想用。

Karpathy 的原话是,他希望这套系统**“尽量简单、尽量扁平”**。 也确实如此:一堆 .md 文件加一个 schema,就已经够用了。

相比那种一堆插件、七八十个配置的复杂工作流,这套方案简单太多了。


知识库大了之后,怎么检索?

这是个实际问题。

当文章只有几十篇时,靠 INDEX.md 定位还没什么问题。 但到了两百篇左右,单靠一个索引文件就会开始吃力。

这个问题我现在还没找到特别好的解法,也欢迎各位佬给点思路。


没想到这么快就有人做出来了

graphify

这个项目挺厉害,它能把代码、文档、PDF、截图这些内容一起读进去,然后整理成一张关系网。

这样一来,AI 不仅能更快读懂项目结构,也更容易理解你的项目为什么这么设计,同时还能更省上下文。


附加价值

整个知识库本质上就是一堆 .md 文件。 扔进 Git 仓库里之后,你就有了完整的历史记录:

  • 可以对比改动
  • 可以回滚版本
  • 甚至还可以协作

最后

这套东西,其实就是我一直在找的知识库解法。

在 AI 时代之前,知识库最大的问题不是存不下来,而是维护成本太高。 现在,这件事终于开始有了解法。

Vannevar Bush 在 1945 年提出过一个叫 Memex 的概念: 一种私人的、主动策划的知识存储系统,文档之间不是简单归档,而是通过关联路径连接,更接近人类联想的方式。

他当时没解决的问题是:谁来维护?

现在,这个问题好像终于有答案了。

三个文件夹, 一个说明文件, 一个 AI。

就这些。