Codex × Obsidian × Zotero 联动论文库工作流 — 核心逻辑梳理@围巾哥萧尘🧣
一、系统概览
1.1 目标
搭建一套 ** "论文管理 → AI 精读 → 笔记检索 → 对话问答" ** 的自动化工作流,让研究者可以:
-
批量将 Zotero 中的论文自动生成结构化精读笔记
-
在 Obsidian 中通过 Dataview 插件对笔记进行多维度检索
-
在 Codex(Cursor)中打开论文库文件夹,直接与已有笔记对话,获得基于证据的结论
1.2 三大工具分工
| 工具 | 角色 | 核心职责 |
|---|---|---|
| Zotero | 论文库 | 管理 PDF 文件、按主题分文件夹存储、提供元数据和批注 |
| **Codex(Cursor) ** | AI 处理引擎 | 调用 GPT-4 进行论文精读、总结、生成笔记;后续作为对话问答入口 |
| Obsidian | 知识库 | 保存精读笔记(Markdown)、通过 Dataview 插件实现属性检索 |
1.3 整体数据流
Zotero(PDF + 元数据)
│
▼
Codex(GPT-4 精读处理)
│
▼ 生成 Markdown 笔记
Obsidian(Research Vault)
│
▼ Dataview 提取属性 → 自动索引
Codex(打开 Vault 文件夹对话)
│
▼ 基于已有笔记回答问题
结构化结论 + 支持文献
二、前置准备(3 件事)
2.1 下载两个 GitHub Skills
在 GitHub 上下载作者 cheneternity 提供的两个 Skills 仓库:
- Zotero-Analytical-Workflow-Skills
- 仓库地址:github.com/cheneternity/Zotero-Analytical-Workflow-Skills
- 功能:Zotero 论文处理工作流(元数据抓取 + 精读笔记生成)
- 包含 3 个子 Skill:
- zotero-collection-manager:总调度器,协调整个工作流
- zotero-data-fetcher:抓取每篇论文的元数据(标题、作者、年份等)
- zotero-analytical-workflow-reader:核心处理模块,负责论文精读和笔记生成
- Research-Vault-Literature-Retrieval
- 仓库地址:github.com/cheneternity/Research-Vault-Literature-Retrieval
- 功能:基于 Obsidian 笔记的论文库检索系统(RAG 模式)
- 工作逻辑:
① 先读取根目录索引页
② 检索 Vault 中的相关笔记
③ 优先使用已有精读笔记
④ 只基于 Vault 证据回答
⑤ 按"结论 + 支持文献"结构输出
2.2 在 Obsidian 中创建 Research Vault
-
打开 Obsidian,新建一个 Vault(命名为
ResearchVault) -
Vault 内部结构:
ResearchVault/
├── 模板/
│ ├── 论文泛读模板.md
│ ├── 论文精读模板.md
│ └── 综述模板.md
├── note/
│ ├── 机器学习(卡牌决策)/ ← 按研究主题分文件夹
│ ├── 创新经济地理/
│ └── ...
├── 文献索引/
├── 研究方法索引/
├── 研究主题索引/
└── AGENTS/
- 关键:Vault 的本地路径 需要记录好,后续 Codex 处理论文时需要指定输出位置
2.3 配置论文精读模板
在 Obsidian 中创建 论文精读模板.md,核心是 Frontmatter 属性区(YAML Properties):
---
title: "{{title}}"
aliases:
tags:
- literature-note
- reading-note
created: "{{date}}"
source:
author:
year:
theme: "用一句话概括论文主题"
study_area: "用一句话概括研究对象、研究区或样本范围"
data_source: "用一句话概括数据来源、样本与时间范围"
methodology: "用一句话概括核心方法、模型或识别策略"
core_variable: "用一句话概括核心变量、指标或核心概念"
key_finding: "用一句话概括最关键研究发现"
relevance: "用一句话概括这篇论文对我研究的启发或相关性"
---
设计要点:属性字段写得越详细,后续 Dataview 检索越方便。每个字段用一句话概括,强制精炼思考。
三、核心工作流(3 步)
第一步:在 Zotero 中按主题整理论文
-
在 Zotero 中按研究主题创建分类文件夹(如"机器学习(卡牌决策)")
-
将相关论文 PDF 导入对应文件夹
-
Zotero 自动抓取元数据(标题、作者、期刊、影响因子等)
第二步:在 Codex 中批量处理论文
单篇精读
直接在 Codex 中输入指令:
精读 zotero 中的 [论文标题]
批量处理(整个文件夹)
处理 zotero 中的 [文件夹名] 中的所有论文
Codex 内部处理流程
当触发批量处理时,zotero-collection-manager 调度器按以下流程执行:
1. zotero-data-fetcher
├── 读取 Zotero 文件夹中的论文列表
├── 逐篇抓取元数据(标题、作者、年份、摘要等)
└── 缓存批注和全文内容
2. zotero-analytical-workflow-reader
├── 读取 _ProcessLog 进程记录.md(断点续跑机制)
├── 自动跳过已成功或已跳过的条目
├── 按篇串行执行处理
├── 调用 GPT-4 对论文进行精读分析
├── 按精读模板格式生成 Markdown 笔记
└── 写入 Obsidian Vault 对应文件夹
3. zotero-collection-manager
└── 维护进程日志,确保可断点续跑
输出结果:每篇论文在 Obsidian Vault 中生成一个 .md 文件,包含:
-
完整的 Frontmatter 属性(title, author, year, theme, methodology 等)
-
结构化的精读笔记正文(基本信息、方法分析、核心发现等)
-
Zotero 关联键(
zotero_key,pdf_key)用于回溯原文
第三步:在 Obsidian 中检索 + 在 Codex 中对话
3.1 安装 Dataview 插件
-
在 Obsidian 设置 → 第三方插件 → 关闭安全模式
-
从社区插件市场搜索并安装 Dataview
-
确保插件处于开启状态
3.2 Dataview 的作用
-
自动提取每篇论文笔记的 Frontmatter 属性
-
生成动态索引页(按主题、方法、年份等维度)
-
支持类似数据库的查询语法,实现多条件筛选
3.3 在 Codex 中对话问答
-
在 Codex 中打开 Research Vault 文件夹
-
直接提问,例如:
针对卡牌类游戏的机器学习方法有哪些 -
Codex(通过 Research-Vault-Literature-Retrieval Skill):
- 读取 Vault 索引
- 检索相关笔记
- 基于已有精读笔记内容生成回答
- 输出结构化结论 + 支持文献列表
四、关键设计亮点
4.1 断点续跑机制
-
通过
_ProcessLog 进程记录.md记录每篇论文的处理状态 -
批量处理中断后可恢复,不会重复处理已完成的论文
-
自动跳过已成功或已跳过的条目
4.2 属性驱动的检索体系
-
每篇论文的 Frontmatter 包含 14+ 个结构化字段
-
Dataview 基于这些字段自动生成索引
-
字段设计兼顾了"检索效率"和"思考深度"(一句话概括强制精炼)
4.3 证据 grounded 的问答
-
Research-Vault-Literature-Retrieval Skill 严格限制:只基于 Vault 证据回答
-
避免大模型幻觉,所有结论都有对应文献支撑
-
输出格式固定为"结论 + 支持文献"
4.4 模板化的知识生产
-
泛读模板 / 精读模板 / 综述模板三级体系
-
模板中使用
{{title}}、{{date}}等占位符,支持自动化填充 -
确保笔记格式统一,便于后续检索和对比
五、工具链依赖关系图
┌─────────────────────────────────────────────────────────┐
│ GitHub Skills │
│ ┌──────────────────────────┐ ┌──────────────────────┐ │
│ │ Zotero-Analytical- │ │ Research-Vault- │ │
│ │ Workflow-Skills │ │ Literature-Retrieval │ │
│ │ ├ collection-manager │ │ ├ 读取索引 │ │
│ │ ├ data-fetcher │ │ ├ 检索笔记 │ │
│ │ └ workflow-reader │ │ ├ 证据 grounded │ │
│ └──────────┬───────────────┘ └──────────┬───────────┘ │
└─────────────┼──────────────────────────────┼────────────┘
│ │
▼ ▼
┌─────────────────────────────────────────────────────────┐
│ Codex (Cursor) │
│ ┌──────────────────┐ ┌──────────────────────────┐ │
│ │ GPT-4 精读引擎 │ │ RAG 对话问答引擎 │ │
│ │ (Step 2) │ │ (Step 3) │ │
│ └────────┬─────────┘ └────────────┬─────────────┘ │
└───────────┼───────────────────────────┼─────────────────┘
│ ▲
▼ │
┌───────────────────────────────────────┴─────────────────┐
│ Obsidian (Research Vault) │
│ ┌──────────┐ ┌──────────┐ ┌──────────────────────┐ │
│ │ 精读笔记 │ │ Dataview │ │ 动态索引 / 检索视图 │ │
│ │ (.md) │→│ 插件 │→│ (按主题/方法/年份) │ │
│ └──────────┘ └──────────┘ └──────────────────────┘ │
└─────────────────────────────────────────────────────────┘
▲
│ PDF + 元数据
┌───────────┴─────────────────────────────────────────────┐
│ Zotero │
│ ┌──────────┐ ┌──────────┐ ┌──────────────────────┐ │
│ │ PDF 存储 │ │ 元数据 │ │ 按主题分文件夹 │ │
│ └──────────┘ └──────────┘ └──────────────────────┘ │
└─────────────────────────────────────────────────────────┘
六、总结
这套工作流的核心逻辑可以概括为 ** "三步走 + 两个 Skill + 一个模板体系" **:
| 维度 | 内容 |
|---|---|
| 三步走 | ① Zotero 整理论文 → ② Codex 批量精读生成笔记 → ③ Obsidian 检索 + Codex 对话 |
| 两个 Skill | Zotero-Analytical-Workflow-Skills(处理)+ Research-Vault-Literature-Retrieval(检索) |
| 一个模板体系 | Frontmatter 属性 + 泛读/精读/综述三级模板 |
| 核心价值 | 将非结构化的 PDF 论文转化为结构化、可检索、可对话的知识库 |