我借助Karpathy的 LLM Wiki方案，搭建了一套由 AI 自主维护的知识库你手头有15份和项目相关的文档：一份

这是绝大多数知识工作者都再熟悉不过的场景。

你手头有15份和项目相关的文档：一份产品规格说明、一份会议纪要、一份竞品分析报告散落在下载文件夹里。三个月后，有人问你一个简单问题，你却要花上一小时翻遍各个文件夹，只为找到当初读过的某一段话。

文档都在，知识也都藏在里面，可它们零散杂乱、互不关联，不逐字重读就根本无从检索。

我找到了一套解决方案。这套方案依托安德烈·卡帕西的单页构想文档、一款名为 Cursor 的 AI 代码编辑器，还有一款免费笔记应用 Obsidian。只用了大约30分钟，我就从这份单页构想，搭建出一套可正常运行的个人知识库——它能接收你导入的任意文档，并将其转化为结构化、相互关联的Wiki维基页面。

而我自始至终，没有亲手编写任何一个维基页面。

本文会讲述整个搭建过程，并为你提供一个可直接克隆使用的代码仓库。

快速开始

仓库地址：github.com/balukosuri/…

包含内容：

•

卡帕西原版 llm-wiki.md 构想文档

•

专为技术撰稿人定制的 CLAUDE.md 规则模板（可根据你的领域自行修改）

•

预配置好的 Obsidian 仓库设置（关系图谱视图、快捷键、侧边栏布局）

•

空文件夹 raw/，可直接放入你的原始素材

•

wiki/ 文件夹，内含4个初始页面（索引页、日志页、概览页、术语表）

放入你的第一份文档，输入「导入」指令，看着维基自动生成内容。

安德烈·卡帕西是谁？

安德烈·卡帕西是人工智能领域极具知名度的人物。他是 OpenAI 创始成员之一，曾主导特斯拉人工智能与自动驾驶视觉团队，擅长用通俗易懂的方式讲解深奥的技术理念。每当卡帕西分享观点，整个AI领域都会密切关注。

就在几天前，他发布了一份名为 llm-wiki.md 的简短文档。这既不是一款产品，也不是一个应用，只是一份纯 Markdown 格式的构想——描述了如何利用 AI 智能体搭建并维护个人知识库的模式。

这份文档可以直接复制粘贴到任意 AI 智能体中（Claude、ChatGPT、Codex 等）。智能体读取后会理解这套模式，并为你定制搭建出可运行的版本。

**原版文档链接：**卡帕西的 llm-wiki.md

这份单页构想，正是本代码仓库的全部基础。

什么是 LLM 维基，它如何运作？

核心理念十分简单。

大多数AI工具的工作方式是： 你上传文档、提出问题，AI 在文件中检索并生成答案。这种方式虽可行，但 AI 每次问答结束后都会遗忘所有内容。下次提问时，它会从头开始，重新读取、检索、推导答案。没有任何内容被保存，也无法基于过往内容持续迭代。

LLM 维基 则完全相反。它不会每次都检索原始文档，而是让 AI 一次性读取文档，再从中构建结构化维基。这套维基由一系列 Markdown 文件组成，包含摘要页、产品页、概念页、用户画像页、对比表格等，所有页面通过维基式链接相互关联。当你新增一份文档时，AI 不会从零开始，而是读取新素材并更新现有维基：在已有页面补充内容、按需创建新页面、标记内容矛盾点，保持整体信息一致。

维基是持久化的成果，会随时间不断沉淀。你导入的素材越多，维基内容就越丰富、关联也越紧密。

三层架构

LLM 维基包含三个部分：

原始素材 —— 名为 raw/ 的文件夹。你可以在这里存放各类文档：PDF、Markdown 文件、网页摘录、会议纪要。AI 仅从中读取内容，不会做任何修改，你的原始文件会保持原样。

维基内容 —— 名为 wiki/ 的文件夹。该文件夹下的所有内容均由 AI 创建和维护。它会生成页面、维护交叉引用、更新术语表、完善索引。你负责浏览查阅，AI 负责编写维护。

规则模板 —— 单一文件 CLAUDE.md。这是给 AI 的操作手册，定义了页面类型、处理新素材的工作流、页面格式规范，以及知识库自检规则。可以把它看作一套规则手册，让通用 AI 变身严谨的维基管理员。

三大操作

导入（Ingest）： 你将文档放入 raw/，并指令 AI 进行处理。AI 读取文档后，生成摘要页面、更新维基内各实体页面、为术语表新增词条、完善索引，并记录操作日志。单份素材可能会同步更新10–15个维基页面。

查询（Query）： 你提出问题。AI 会读取维基内容（而非原始文件）整合答案。优质的回答可保存为维基分析页，让你的提问持续丰富知识库。

自检（Lint）： 你指令 AI 对维基进行健康检查。它会找出内容矛盾、过时信息、无关联孤立页面、缺失交叉引用的内容。相当于为你的知识库做一次「语法校对」。

我如何用 Cursor 仅通过三次提示词完成搭建

整个过程十分简单：我打开 AI 代码编辑器 Cursor，将卡帕西的 llm-wiki.md 放入空项目文件夹，随后与 AI 交互。

提示词1：「这是什么？作为技术撰稿人，我该如何使用它？」

Cursor 通读全文后，结合我的职业给出了对应方案：

| 痛点 | LLM 维基解决方案 | | --- | --- | | 产品更新信息散落在文档、Slack、邮件中 | 统一导入后，AI 将其整合为一套维基 | | 无人维护的术语表 | AI 自动构建并更新动态术语表 | | 新产品或代码库上手成本高 | 导入规格说明与文档，自动生成结构化维基 | | 竞品调研做完就遗忘 | AI 维护结构化对比内容，持续迭代更新 | | 从会议录音整理发布说明 | 导入纪要文本，AI 将关键决策同步至对应页面 |

提示词2：「能否制定方案并完成搭建？」

仅五个单词，Cursor 一次性完成了整个项目规划与搭建：

•

创建 raw/ 和 wiki/ 文件夹

•

编写 CLAUDE.md，包含实体类型、页面格式、9步导入工作流、查询工作流、自检工作流及会话启动清单

•

创建4个初始维基页面：index.md、log.md、overview.md、glossary.md

提示词3：「能否配置好 Obsidian？」

Cursor 通过 Homebrew 安装 Obsidian，并完成仓库预配置：

•

新文件默认保存至 wiki/

•

关系图谱视图按页面类型区分颜色

•

为图谱视图、搜索、快速切换设置快捷键

•

启动时默认打开概览页面

左右分屏布局：左侧 Cursor 与 AI 交互，右侧 Obsidian 实时浏览维基。

克隆本仓库后你能获得什么

完整文件结构如下：

project-root/
│
├── llm-wiki.md              # 卡帕西原版构想文档
├── CLAUDE.md                 # 规则模板——定义AI维护维基的规则
│
├── raw/                      # 你的原始素材（AI仅读取，不修改）
│   └── .gitkeep
│
├── wiki/                     # AI 生成的知识库
│   ├── index.md              # 所有页面总索引（空白待填充）
│   ├── log.md                # 操作记录与时间线
│   ├── overview.md           # 全局概览（持续迭代）
│   ├── glossary.md           # 术语、定义、格式规范
│   └── sources/              # 每份原始素材对应一份摘要
│
└── .obsidian/                # 预配置 Obsidian 仓库
    ├── app.json              # 文件路径、链接行为设置
    ├── appearance.json       # 主题、字体大小
    ├── core-plugins.json     # 启用插件列表
    ├── graph.json            # 图谱视图颜色与布局
    ├── hotkeys.json          # 快捷键设置
    └── workspace.json        # 默认标签页与侧边栏布局

这套结构的优势：

•

边界清晰。raw/ 归你管理，wiki/ 由 AI 维护。你无需手动编写 wiki/ 内容，AI 也不会修改 raw/ 文件。

•

规则模板为核心大脑。CLAUDE.md 定义实体类型、页面格式与工作流，AI 会优先读取并遵循规则。你可修改该文件，让 AI 适配你的专业领域。

•

索引页为导航地图。提问时，AI 会先读取 index.md 定位相关页面，再深入查阅。无需向量数据库或嵌入技术，这套索引足以支撑数百页内容的高效检索。

•

日志页为时间线。每次导入、查询、自检操作都会带时间戳记录，你可随时追溯操作历史。

•

Obsidian 预配置就绪。克隆仓库后即可使用预设好的图谱视图、快捷键、侧边栏布局，无需手动配置。

如何使用本仓库

步骤1：克隆仓库

git clone [YOUR-REPO-URL]
cd llm-wiki

步骤2：用 Cursor 打开项目

在 Cursor 中打开项目文件夹，AI 会自动读取 CLAUDE.md，理解维基结构与全部规则。

若使用其他 AI 智能体（Claude Code、Codex 等），将 CLAUDE.md 内容粘贴至智能体上下文即可。

步骤3：用 Obsidian 打开项目

将同一文件夹作为 Obsidian 仓库打开。若未安装 Obsidian，直接在 Cursor 中输入：「帮我配置 Obsidian」，AI 会自动安装并打开仓库。

所有设置均已预设——快捷键、图谱配色、侧边栏布局无需额外调整。

步骤4：将素材放入 `raw/` 文件夹

支持任意格式文档：

•

产品规格或设计文档

•

会议纪要

•

网页摘录（可使用 Obsidian 网页剪藏浏览器扩展）

•

格式规范文档

•

PDF 报告

•

保存为文本的邮件对话

步骤5：输入「导入」指令

在 Cursor 中输入：

「Ingest raw/my-document.pdf」

AI 会执行以下操作：

读取文档

•

与你沟通核心要点

•

在 wiki/sources/ 中创建素材摘要页

•

为识别到的产品、功能、用户画像、概念创建新页面

•

为术语表新增词条

•

更新索引页，收录所有新页面

•

若全局内容发生变化，同步更新概览页

•

在 wiki/log.md 中带时间戳记录全部操作

你可以在 Obsidian 中实时看到页面生成过程。

步骤6：提出问题

「所有素材中提到的主要风险有哪些？」

AI 读取维基内容后整合答案，并询问：「是否将此内容保存为维基页面？」确认后，答案会成为永久分析页，你的提问会持续丰富知识库。

步骤7：持续导入素材

每一份新素材都会基于已有内容迭代。概览页不断完善，术语表持续扩充，交叉引用越来越丰富。导入10–15份素材后，维基会呈现出你未曾留意的内容关联。

步骤8：定期执行自检

每完成10次导入后，输入：

「Lint the wiki」

AI 会检查以下问题：

•

页面间的内容矛盾

•

被新素材覆盖的过时信息

•

无任何关联的孤立页面

•

提及但未创建独立页面的重要概念

•

页面间不一致的术语表述

AI 会汇报检查结果，并询问是否执行修复。

适用人群

技术撰稿人：每份规格说明都会更新术语表，每通客户电话都会补充用户画像页，每次竞品分析都会基于历史内容迭代。

研究人员：论文、文章、报告会被分类整理、摘要归纳、交叉关联。项目结束时，你会拥有一套带迭代论点、全关联内容的维基。

产品经理：导入产品需求文档、用户访谈、竞品分析、迭代复盘，维基会自动维护全局信息脉络。

学生：每一章教材内容作为一份素材，AI 会构建概念页面并建立关联。考试前，你会拥有一套结构化的关联学习指南。

所有需要长期积累知识的人：旅行规划、爱好研究、健康记录、课程笔记，任何多来源信息整理场景都适用。

示例：技术撰稿人的第一周

第一天

将三份入职文档（产品需求文档、内部常见问题、发布说明）放入 raw/ 并逐一导入。AI 会创建产品页、用户画像页、术语表，并标记文档间的矛盾点。当天结束时，无需手动编写，即可生成8–10个维基页面。

第二天

录制工程师访谈并转录文本，放入 raw/。AI 提取技术决策、更新功能页、补充术语表，并标记出两处与产品需求文档冲突的内容。你会得到一份清晰的待确认问题清单。

第三天

用 Obsidian 剪藏三份竞品文档并导入。AI 自动生成对比分析，你可指令其基于维基撰写文档大纲，并将大纲保存为分析页。

第四天

开始写作前，打开 wiki/glossary.md，所有术语、拼写、废弃命名一目了然。查阅用户画像页明确受众，核对产品页确保信息准确，直接基于维基写作，无需翻阅原始文件。

第五天

收到审阅反馈，保存为 Markdown 文件并导入。AI 会全局统一修改功能名称，将旧名称归入废弃列表，同步更新所有引用页面。一次导入，全站页面同步更新。

一周后成果：15–20个维基页面、动态术语表、带待解决问题的概览页、完整操作日志，以及展示全内容关联的关系图谱。

实际用例测试

1.上传pdf文档，并做交互问答

原始pdf文档为ocr扫描件，放置到Raw目录下的papers子目录。

然后在交互终端输入：处理 Raw/papers/论文名称.pdf

处理完成后，会在Wiki目录下生成许多实体、概念、元数据等信息，并且还会输出原始文档对应的markdown总结文档：

这不是解决了传统RAG的语料处理工作吗！！？？太强了！！

然后，接着就提问：“如何提高SCI论文录用率？”

回答：

基于 Wiki 中已摄入的 [吴青兰·提高稿件被SCI和SSCI收录期刊的录用率] 及相关概念页面，综合回答如下：
---
提高SCI论文录用率的系统策略
按投稿流程顺序，可拆解为 4 个阶段：
1. 投稿前：选对期刊 + 规范排版
选刊 — 先确认目标期刊是否为 [SCI] 来源刊。检索途径：
- [Web of Science] 核心合集 → 选择 SCI → 按出版物名称检索
- [科睿唯安] Master Journal List（http://mjl.clarivate.com）→ 查看收录期刊目录与学科分类
排版（([吴青兰·提高稿件被SCI和SSCI收录期刊的录用率] §3.1)）：
项目
纸张/字体
排版
图件
禁忌
关键一步
> 排版虽是"流程性要素"，但格式不规范的稿件常在编辑初审阶段即被淘汰，根本不会进入 [同行评审]。
2. 投稿时：投稿信 + 作者署名
投稿信（[投稿信]）是编辑对稿件的第一印象，决定是否送审：
- 简明型：声明未一稿多投 + 联系信息
- 详细型（推荐用于高 IF 期刊）：论文创新性 + 研究重要性 + 作者署名合规 + 无利益冲突
- 通用要点：尊称编辑 → 写明题目/作者/期刊名 → 概述研究价值 → 声明合规
作者署名（[通讯作者]）：
- 通讯作者标注为 Corresponding author，负责全流程沟通
- 多机构合作时用上标标注不同地址，地址变更标示 Present Address
- 投稿前检查清单：稿件份数、联系方式、格式字数、图表编号、参考文献格式、签名声明
3. 审稿中：逐条回应 + 补充实验
收到"改后录用"（Revise and Resubmit）时（[同行评审]）：
1. 逐条回应 — 每条意见单独回答，绝不遗漏
2. 尽量补充 — 审稿人要求的实验尽量完成
3. 引用推荐文献 — 引用审稿人推荐的文献并在讨论中展开，这既是学术尊重也显示认真态度
4. 充分理由 — 确实无法补充的实验，给出详实的技术/时间/资源限制理由，而非回避
> 这是录用率提升的关键杠杆——多数"改后录用"稿件最终能否录用，取决于修改的认真程度而非原始质量。
4. 退稿后：分析 → 修改 → 策略性改投
退稿不是终点（[同行评审] §改投策略）：
1. 分析拒因 — 是方法问题、数据不足、还是领域不匹配？
2. 按需修改 — 如能通过增加数据达到要求，先修改
3. 策略性改投：
   - 附信中坦诚说明前次投稿经历
   - 附上前次审稿意见 + 你的逐条回应（展示修改诚意）
   - 尽量引用目标期刊已发表论文（增加编辑好感）
   - 可考虑影响因子较低的期刊或电子期刊（无印刷版，竞争相对小）
---
⚠️ Wiki 信息缺口
当前 Wiki 仅基于一篇来源，以下问题尚无覆盖：
- 期刊选择策略：影响因子匹配、领域适配、审稿周期预判
- Open Access 期刊的投稿差异与 APC（文章处理费）考量
- 论文结构/写作技巧：IMRAD 格式、Abstract 写法、图表设计原则
- 影响因子体系的详细解读
如有补充来源，可继续摄入以完善上述缺口。

不要太强！！

值得注意的是，由于上传的pdf是扫描件，底层驱动的大模型无法直接读取文件内容，好在用了一个好插件，该插件在判断出需要通过多模态能力来读取文件信息时，会分配multimodal-looker 子智能体来解析读取该文件。 multimodal-looker 子智能体配置一个多模态大模型，因此基本任何格式的文件都能完美处理！

2.上传excel文档，并做交互问答

将一份互联网产品运营的excel文档上传到知识库，放置到Raw目录下的misc子目录。

然后在交互终端输入：处理 Raw/misc/产品运营数据表.xlsx

处理完成后，交互终端提示处理完成的总结信息：

同样会在Wiki目录下生成许多实体、概念、元数据等信息，以及原始excel文档对应的markdown总结文档：

然后，接着就提问：“员工叶芳的岗位和职级是什么？”

回答：叶芳的岗位是数据分析师，职级是 P5（安全部门，广州，本科，2020-06-02 入职）。

精准！完美！！

按下Ctrl+G 快捷键，看看当前知识库的关联图谱：

优化使用的小技巧

单次仅导入一份素材。虽然可以批量处理多份文档，但会失去引导 AI 的机会。保持参与——阅读摘要、告知 AI 重点内容、在导入过程中追问，你的参与会让维基质量更高。

保存优质提问结果。当你提出问题并得到实用答案时，指令 AI 将其保存为分析页。你的探索成果会沉淀在维基中，而非消失在对话记录里。

多用关系图谱视图。在 Obsidian 中频繁使用 Ctrl+G 快捷键。可视化图谱能清晰展示核心页面、孤立内容与全局关联，是见证维基成长最直观的方式。

修改规则模板。CLAUDE.md 并非固定不变。若你需要新增领域专属页面类型（如「API 端点」「客户分层」「食谱变体」），可直接添加至规则模板并告知 AI，维基会适配你的需求。

写作前查阅术语表。每次动笔前先打开 wiki/glossary.md，规范术语、禁用表述及制定依据一目了然，无需强行记忆即可保持写作一致性。

不要手动编写维基页面。克制手动编辑的冲动。你的工作是寻找优质素材、提出关键问题、判断内容价值；AI 的工作是摘要归纳、交叉引用、分类整理与维护工作——放手让它完成本职工作。

结语

人们放弃使用维基的原因，并非不再重视知识，而是维护成本过高。

试想一下：更新交叉引用、保持摘要最新、确保第7页与第23页内容不矛盾、为术语表新增词条、将新页面与旧页面关联。这些工作枯燥、重复且永无止境。最终维基逐渐过时，人们不再信任它，直至彻底弃用。

AI 彻底改变了这一局面。

AI 从不会对维护工作感到疲惫，可一次性更新15个文件，能敏锐发现新信息与旧内容的矛盾，持续保持术语表、索引与交叉引用的时效性。维基维护的成本几乎降至零。

这正是卡帕西构想背后的核心洞察：知识库的难点从来不是阅读与思考，而是繁琐的维护工作。而维护，恰恰是 AI 最擅长的领域。

你的工作会回归核心价值：寻找优质素材、提出关键问题、判断内容重要性。而那些曾让所有维基项目半途而废的重复性工作，将全部由 AI 接手。

卡帕西在原版文档中提到，这一构想与1945年范内瓦·布什提出的「麦克斯存储器」理念相关——那是一个带有「关联轨迹」的个人知识存储库愿景。布什设想一台能在相关观点间跳转的机器，构建随使用不断丰富的关联知识网络。

我们如今拥有的互联网，与这一愿景相去甚远。它公开、嘈杂，文档间的关联大多是偶然形成的。

布什的愿景是私密、精编、高度个性化的。而 LLM 维基，是80年来最贴近他设想的产物。当年布什无法解决的维护主体问题，如今终于有了答案。

-------------------------------------------------------------

我借助Karpathy的 LLM Wiki方案，搭建了一套由 AI 自主维护的知识库