这是绝大多数知识工作者都再熟悉不过的场景。
你手头有15份和项目相关的文档:一份产品规格说明、一份会议纪要、一份竞品分析报告散落在下载文件夹里。三个月后,有人问你一个简单问题,你却要花上一小时翻遍各个文件夹,只为找到当初读过的某一段话。
文档都在,知识也都藏在里面,可它们零散杂乱、互不关联,不逐字重读就根本无从检索。
我找到了一套解决方案。这套方案依托安德烈·卡帕西的单页构想文档、一款名为 Cursor 的 AI 代码编辑器,还有一款免费笔记应用 Obsidian。只用了大约30分钟,我就从这份单页构想,搭建出一套可正常运行的个人知识库——它能接收你导入的任意文档,并将其转化为结构化、相互关联的Wiki维基页面。
而我自始至终,没有亲手编写任何一个维基页面。
本文会讲述整个搭建过程,并为你提供一个可直接克隆使用的代码仓库。
快速开始
包含内容:
•
卡帕西原版 llm-wiki.md 构想文档
•
专为技术撰稿人定制的 CLAUDE.md 规则模板(可根据你的领域自行修改)
•
预配置好的 Obsidian 仓库设置(关系图谱视图、快捷键、侧边栏布局)
•
空文件夹 raw/,可直接放入你的原始素材
•
wiki/ 文件夹,内含4个初始页面(索引页、日志页、概览页、术语表)
放入你的第一份文档,输入「导入」指令,看着维基自动生成内容。
安德烈·卡帕西是谁?
安德烈·卡帕西是人工智能领域极具知名度的人物。他是 OpenAI 创始成员之一,曾主导特斯拉人工智能与自动驾驶视觉团队,擅长用通俗易懂的方式讲解深奥的技术理念。每当卡帕西分享观点,整个AI领域都会密切关注。
就在几天前,他发布了一份名为 llm-wiki.md 的简短文档。这既不是一款产品,也不是一个应用,只是一份纯 Markdown 格式的构想——描述了如何利用 AI 智能体搭建并维护个人知识库的模式。
这份文档可以直接复制粘贴到任意 AI 智能体中(Claude、ChatGPT、Codex 等)。智能体读取后会理解这套模式,并为你定制搭建出可运行的版本。
**原版文档链接:**卡帕西的 llm-wiki.md
这份单页构想,正是本代码仓库的全部基础。
什么是 LLM 维基,它如何运作?
核心理念十分简单。
大多数AI工具的工作方式是: 你上传文档、提出问题,AI 在文件中检索并生成答案。这种方式虽可行,但 AI 每次问答结束后都会遗忘所有内容。下次提问时,它会从头开始,重新读取、检索、推导答案。没有任何内容被保存,也无法基于过往内容持续迭代。
LLM 维基 则完全相反。它不会每次都检索原始文档,而是让 AI 一次性读取文档,再从中构建结构化维基。这套维基由一系列 Markdown 文件组成,包含摘要页、产品页、概念页、用户画像页、对比表格等,所有页面通过维基式链接相互关联。当你新增一份文档时,AI 不会从零开始,而是读取新素材并更新现有维基:在已有页面补充内容、按需创建新页面、标记内容矛盾点,保持整体信息一致。
维基是持久化的成果,会随时间不断沉淀。你导入的素材越多,维基内容就越丰富、关联也越紧密。
三层架构
LLM 维基包含三个部分:
1
原始素材 —— 名为 raw/ 的文件夹。你可以在这里存放各类文档:PDF、Markdown 文件、网页摘录、会议纪要。AI 仅从中读取内容,不会做任何修改,你的原始文件会保持原样。
2
维基内容 —— 名为 wiki/ 的文件夹。该文件夹下的所有内容均由 AI 创建和维护。它会生成页面、维护交叉引用、更新术语表、完善索引。你负责浏览查阅,AI 负责编写维护。
3
规则模板 —— 单一文件 CLAUDE.md。这是给 AI 的操作手册,定义了页面类型、处理新素材的工作流、页面格式规范,以及知识库自检规则。可以把它看作一套规则手册,让通用 AI 变身严谨的维基管理员。
三大操作
导入(Ingest): 你将文档放入 raw/,并指令 AI 进行处理。AI 读取文档后,生成摘要页面、更新维基内各实体页面、为术语表新增词条、完善索引,并记录操作日志。单份素材可能会同步更新10–15个维基页面。
查询(Query): 你提出问题。AI 会读取维基内容(而非原始文件)整合答案。优质的回答可保存为维基分析页,让你的提问持续丰富知识库。
自检(Lint): 你指令 AI 对维基进行健康检查。它会找出内容矛盾、过时信息、无关联孤立页面、缺失交叉引用的内容。相当于为你的知识库做一次「语法校对」。
我如何用 Cursor 仅通过三次提示词完成搭建
整个过程十分简单:我打开 AI 代码编辑器 Cursor,将卡帕西的 llm-wiki.md 放入空项目文件夹,随后与 AI 交互。
提示词1:「这是什么?作为技术撰稿人,我该如何使用它?」
Cursor 通读全文后,结合我的职业给出了对应方案:
| 痛点 | LLM 维基解决方案 | | --- | --- | | 产品更新信息散落在文档、Slack、邮件中 | 统一导入后,AI 将其整合为一套维基 | | 无人维护的术语表 | AI 自动构建并更新动态术语表 | | 新产品或代码库上手成本高 | 导入规格说明与文档,自动生成结构化维基 | | 竞品调研做完就遗忘 | AI 维护结构化对比内容,持续迭代更新 | | 从会议录音整理发布说明 | 导入纪要文本,AI 将关键决策同步至对应页面 |
提示词2:「能否制定方案并完成搭建?」
仅五个单词,Cursor 一次性完成了整个项目规划与搭建:
•
创建 raw/ 和 wiki/ 文件夹
•
编写 CLAUDE.md,包含实体类型、页面格式、9步导入工作流、查询工作流、自检工作流及会话启动清单
•
创建4个初始维基页面:index.md、log.md、overview.md、glossary.md
提示词3:「能否配置好 Obsidian?」
Cursor 通过 Homebrew 安装 Obsidian,并完成仓库预配置:
•
新文件默认保存至 wiki/
•
关系图谱视图按页面类型区分颜色
•
为图谱视图、搜索、快速切换设置快捷键
•
启动时默认打开概览页面
左右分屏布局:左侧 Cursor 与 AI 交互,右侧 Obsidian 实时浏览维基。
克隆本仓库后你能获得什么
完整文件结构如下:
project-root/
│
├── llm-wiki.md # 卡帕西原版构想文档
├── CLAUDE.md # 规则模板——定义AI维护维基的规则
│
├── raw/ # 你的原始素材(AI仅读取,不修改)
│ └── .gitkeep
│
├── wiki/ # AI 生成的知识库
│ ├── index.md # 所有页面总索引(空白待填充)
│ ├── log.md # 操作记录与时间线
│ ├── overview.md # 全局概览(持续迭代)
│ ├── glossary.md # 术语、定义、格式规范
│ └── sources/ # 每份原始素材对应一份摘要
│
└── .obsidian/ # 预配置 Obsidian 仓库
├── app.json # 文件路径、链接行为设置
├── appearance.json # 主题、字体大小
├── core-plugins.json # 启用插件列表
├── graph.json # 图谱视图颜色与布局
├── hotkeys.json # 快捷键设置
└── workspace.json # 默认标签页与侧边栏布局
这套结构的优势:
•
边界清晰。raw/ 归你管理,wiki/ 由 AI 维护。你无需手动编写 wiki/ 内容,AI 也不会修改 raw/ 文件。
•
规则模板为核心大脑。CLAUDE.md 定义实体类型、页面格式与工作流,AI 会优先读取并遵循规则。你可修改该文件,让 AI 适配你的专业领域。
•
索引页为导航地图。提问时,AI 会先读取 index.md 定位相关页面,再深入查阅。无需向量数据库或嵌入技术,这套索引足以支撑数百页内容的高效检索。
•
日志页为时间线。每次导入、查询、自检操作都会带时间戳记录,你可随时追溯操作历史。
•
Obsidian 预配置就绪。克隆仓库后即可使用预设好的图谱视图、快捷键、侧边栏布局,无需手动配置。
如何使用本仓库
步骤1:克隆仓库
git clone [YOUR-REPO-URL]
cd llm-wiki
步骤2:用 Cursor 打开项目
在 Cursor 中打开项目文件夹,AI 会自动读取 CLAUDE.md,理解维基结构与全部规则。
若使用其他 AI 智能体(Claude Code、Codex 等),将 CLAUDE.md 内容粘贴至智能体上下文即可。
步骤3:用 Obsidian 打开项目
将同一文件夹作为 Obsidian 仓库打开。若未安装 Obsidian,直接在 Cursor 中输入:「帮我配置 Obsidian」,AI 会自动安装并打开仓库。
所有设置均已预设——快捷键、图谱配色、侧边栏布局无需额外调整。
步骤4:将素材放入 raw/ 文件夹
支持任意格式文档:
•
产品规格或设计文档
•
会议纪要
•
网页摘录(可使用 Obsidian 网页剪藏浏览器扩展)
•
格式规范文档
•
PDF 报告
•
保存为文本的邮件对话
步骤5:输入「导入」指令
在 Cursor 中输入:
「Ingest raw/my-document.pdf」
AI 会执行以下操作:
1
读取文档
•
与你沟通核心要点
•
在 wiki/sources/ 中创建素材摘要页
•
为识别到的产品、功能、用户画像、概念创建新页面
•
为术语表新增词条
•
更新索引页,收录所有新页面
•
若全局内容发生变化,同步更新概览页
•
在 wiki/log.md 中带时间戳记录全部操作
你可以在 Obsidian 中实时看到页面生成过程。
步骤6:提出问题
「所有素材中提到的主要风险有哪些?」
AI 读取维基内容后整合答案,并询问:「是否将此内容保存为维基页面?」确认后,答案会成为永久分析页,你的提问会持续丰富知识库。
步骤7:持续导入素材
每一份新素材都会基于已有内容迭代。概览页不断完善,术语表持续扩充,交叉引用越来越丰富。导入10–15份素材后,维基会呈现出你未曾留意的内容关联。
步骤8:定期执行自检
每完成10次导入后,输入:
「Lint the wiki」
AI 会检查以下问题:
•
页面间的内容矛盾
•
被新素材覆盖的过时信息
•
无任何关联的孤立页面
•
提及但未创建独立页面的重要概念
•
页面间不一致的术语表述
AI 会汇报检查结果,并询问是否执行修复。
适用人群
技术撰稿人:每份规格说明都会更新术语表,每通客户电话都会补充用户画像页,每次竞品分析都会基于历史内容迭代。
研究人员:论文、文章、报告会被分类整理、摘要归纳、交叉关联。项目结束时,你会拥有一套带迭代论点、全关联内容的维基。
产品经理:导入产品需求文档、用户访谈、竞品分析、迭代复盘,维基会自动维护全局信息脉络。
学生:每一章教材内容作为一份素材,AI 会构建概念页面并建立关联。考试前,你会拥有一套结构化的关联学习指南。
所有需要长期积累知识的人:旅行规划、爱好研究、健康记录、课程笔记,任何多来源信息整理场景都适用。
示例:技术撰稿人的第一周
第一天
将三份入职文档(产品需求文档、内部常见问题、发布说明)放入 raw/ 并逐一导入。AI 会创建产品页、用户画像页、术语表,并标记文档间的矛盾点。当天结束时,无需手动编写,即可生成8–10个维基页面。
第二天
录制工程师访谈并转录文本,放入 raw/。AI 提取技术决策、更新功能页、补充术语表,并标记出两处与产品需求文档冲突的内容。你会得到一份清晰的待确认问题清单。
第三天
用 Obsidian 剪藏三份竞品文档并导入。AI 自动生成对比分析,你可指令其基于维基撰写文档大纲,并将大纲保存为分析页。
第四天
开始写作前,打开 wiki/glossary.md,所有术语、拼写、废弃命名一目了然。查阅用户画像页明确受众,核对产品页确保信息准确,直接基于维基写作,无需翻阅原始文件。
第五天
收到审阅反馈,保存为 Markdown 文件并导入。AI 会全局统一修改功能名称,将旧名称归入废弃列表,同步更新所有引用页面。一次导入,全站页面同步更新。
一周后成果:15–20个维基页面、动态术语表、带待解决问题的概览页、完整操作日志,以及展示全内容关联的关系图谱。
实际用例测试
1.上传pdf文档,并做交互问答
原始pdf文档为ocr扫描件,放置到Raw目录下的papers子目录。
然后在交互终端输入:处理 Raw/papers/论文名称.pdf
处理完成后,会在Wiki目录下生成许多实体、概念、元数据等信息,并且还会输出原始文档对应的markdown总结文档:
这不是解决了传统RAG的语料处理工作吗!!??太强了!!
然后,接着就提问:“如何提高SCI论文录用率?”
回答:
基于 Wiki 中已摄入的 [吴青兰·提高稿件被SCI和SSCI收录期刊的录用率] 及相关概念页面,综合回答如下:
---
提高SCI论文录用率的系统策略
按投稿流程顺序,可拆解为 4 个阶段:
1. 投稿前:选对期刊 + 规范排版
选刊 — 先确认目标期刊是否为 [SCI] 来源刊。检索途径:
- [Web of Science] 核心合集 → 选择 SCI → 按出版物名称检索
- [科睿唯安] Master Journal List(http://mjl.clarivate.com)→ 查看收录期刊目录与学科分类
排版(([吴青兰·提高稿件被SCI和SSCI收录期刊的录用率] §3.1)):
项目
纸张/字体
排版
图件
禁忌
关键一步
> 排版虽是"流程性要素",但格式不规范的稿件常在编辑初审阶段即被淘汰,根本不会进入 [同行评审]。
2. 投稿时:投稿信 + 作者署名
投稿信([投稿信])是编辑对稿件的第一印象,决定是否送审:
- 简明型:声明未一稿多投 + 联系信息
- 详细型(推荐用于高 IF 期刊):论文创新性 + 研究重要性 + 作者署名合规 + 无利益冲突
- 通用要点:尊称编辑 → 写明题目/作者/期刊名 → 概述研究价值 → 声明合规
作者署名([通讯作者]):
- 通讯作者标注为 Corresponding author,负责全流程沟通
- 多机构合作时用上标标注不同地址,地址变更标示 Present Address
- 投稿前检查清单:稿件份数、联系方式、格式字数、图表编号、参考文献格式、签名声明
3. 审稿中:逐条回应 + 补充实验
收到"改后录用"(Revise and Resubmit)时([同行评审]):
1. 逐条回应 — 每条意见单独回答,绝不遗漏
2. 尽量补充 — 审稿人要求的实验尽量完成
3. 引用推荐文献 — 引用审稿人推荐的文献并在讨论中展开,这既是学术尊重也显示认真态度
4. 充分理由 — 确实无法补充的实验,给出详实的技术/时间/资源限制理由,而非回避
> 这是录用率提升的关键杠杆——多数"改后录用"稿件最终能否录用,取决于修改的认真程度而非原始质量。
4. 退稿后:分析 → 修改 → 策略性改投
退稿不是终点([同行评审] §改投策略):
1. 分析拒因 — 是方法问题、数据不足、还是领域不匹配?
2. 按需修改 — 如能通过增加数据达到要求,先修改
3. 策略性改投:
- 附信中坦诚说明前次投稿经历
- 附上前次审稿意见 + 你的逐条回应(展示修改诚意)
- 尽量引用目标期刊已发表论文(增加编辑好感)
- 可考虑影响因子较低的期刊或电子期刊(无印刷版,竞争相对小)
---
⚠️ Wiki 信息缺口
当前 Wiki 仅基于一篇来源,以下问题尚无覆盖:
- 期刊选择策略:影响因子匹配、领域适配、审稿周期预判
- Open Access 期刊的投稿差异与 APC(文章处理费)考量
- 论文结构/写作技巧:IMRAD 格式、Abstract 写法、图表设计原则
- 影响因子体系的详细解读
如有补充来源,可继续摄入以完善上述缺口。
不要太强!!
值得注意的是,由于上传的pdf是扫描件,底层驱动的大模型无法直接读取文件内容,好在用了一个好插件,该插件在判断出需要通过多模态能力来读取文件信息时,会分配multimodal-looker 子智能体来解析读取该文件。 multimodal-looker 子智能体配置一个多模态大模型,因此基本任何格式的文件都能完美处理!
2.上传excel文档,并做交互问答
将一份互联网产品运营的excel文档上传到知识库,放置到Raw目录下的misc子目录。
然后在交互终端输入:处理 Raw/misc/产品运营数据表.xlsx
处理完成后,交互终端提示处理完成的总结信息:
同样会在Wiki目录下生成许多实体、概念、元数据等信息,以及原始excel文档对应的markdown总结文档:
然后,接着就提问:“员工叶芳的岗位和职级是什么?”
回答:叶芳的岗位是数据分析师,职级是 P5(安全部门,广州,本科,2020-06-02 入职)。
精准!完美!!
按下Ctrl+G 快捷键,看看当前知识库的关联图谱:
优化使用的小技巧
单次仅导入一份素材。虽然可以批量处理多份文档,但会失去引导 AI 的机会。保持参与——阅读摘要、告知 AI 重点内容、在导入过程中追问,你的参与会让维基质量更高。
保存优质提问结果。当你提出问题并得到实用答案时,指令 AI 将其保存为分析页。你的探索成果会沉淀在维基中,而非消失在对话记录里。
多用关系图谱视图。在 Obsidian 中频繁使用 Ctrl+G 快捷键。可视化图谱能清晰展示核心页面、孤立内容与全局关联,是见证维基成长最直观的方式。
修改规则模板。CLAUDE.md 并非固定不变。若你需要新增领域专属页面类型(如「API 端点」「客户分层」「食谱变体」),可直接添加至规则模板并告知 AI,维基会适配你的需求。
写作前查阅术语表。每次动笔前先打开 wiki/glossary.md,规范术语、禁用表述及制定依据一目了然,无需强行记忆即可保持写作一致性。
不要手动编写维基页面。克制手动编辑的冲动。你的工作是寻找优质素材、提出关键问题、判断内容价值;AI 的工作是摘要归纳、交叉引用、分类整理与维护工作——放手让它完成本职工作。
结语
人们放弃使用维基的原因,并非不再重视知识,而是维护成本过高。
试想一下:更新交叉引用、保持摘要最新、确保第7页与第23页内容不矛盾、为术语表新增词条、将新页面与旧页面关联。这些工作枯燥、重复且永无止境。最终维基逐渐过时,人们不再信任它,直至彻底弃用。
AI 彻底改变了这一局面。
AI 从不会对维护工作感到疲惫,可一次性更新15个文件,能敏锐发现新信息与旧内容的矛盾,持续保持术语表、索引与交叉引用的时效性。维基维护的成本几乎降至零。
这正是卡帕西构想背后的核心洞察:知识库的难点从来不是阅读与思考,而是繁琐的维护工作。而维护,恰恰是 AI 最擅长的领域。
你的工作会回归核心价值:寻找优质素材、提出关键问题、判断内容重要性。而那些曾让所有维基项目半途而废的重复性工作,将全部由 AI 接手。
卡帕西在原版文档中提到,这一构想与1945年范内瓦·布什提出的「麦克斯存储器」理念相关——那是一个带有「关联轨迹」的个人知识存储库愿景。布什设想一台能在相关观点间跳转的机器,构建随使用不断丰富的关联知识网络。
我们如今拥有的互联网,与这一愿景相去甚远。它公开、嘈杂,文档间的关联大多是偶然形成的。
布什的愿景是私密、精编、高度个性化的。而 LLM 维基,是80年来最贴近他设想的产物。当年布什无法解决的维护主体问题,如今终于有了答案。
-------------------------------------------------------------