Codex × Obsidian × Zotero 联动论文库工作流 — 核心逻辑梳理@围巾哥萧尘🧣Codex × O

Codex × Obsidian × Zotero 联动论文库工作流 — 核心逻辑梳理@围巾哥萧尘🧣

unnamed (25).png

一、系统概览

1.1 目标

搭建一套 ** "论文管理 → AI 精读 → 笔记检索 → 对话问答" ** 的自动化工作流，让研究者可以：

批量将 Zotero 中的论文自动生成结构化精读笔记
在 Obsidian 中通过 Dataview 插件对笔记进行多维度检索
在 Codex（Cursor）中打开论文库文件夹，直接与已有笔记对话，获得基于证据的结论

1.2 三大工具分工

工具	角色	核心职责
Zotero	论文库	管理 PDF 文件、按主题分文件夹存储、提供元数据和批注
**Codex（Cursor） **	AI 处理引擎	调用 GPT-4 进行论文精读、总结、生成笔记；后续作为对话问答入口
Obsidian	知识库	保存精读笔记（Markdown）、通过 Dataview 插件实现属性检索

1.3 整体数据流


Zotero（PDF + 元数据）

       │

       ▼

Codex（GPT-4 精读处理）

       │

       ▼  生成 Markdown 笔记

Obsidian（Research Vault）

       │

       ▼  Dataview 提取属性 → 自动索引

Codex（打开 Vault 文件夹对话）

       │

       ▼  基于已有笔记回答问题

结构化结论 + 支持文献

二、前置准备（3 件事）

2.1 下载两个 GitHub Skills

在 GitHub 上下载作者 cheneternity 提供的两个 Skills 仓库：

Zotero-Analytical-Workflow-Skills

- 仓库地址：github.com/cheneternity/Zotero-Analytical-Workflow-Skills

- 功能：Zotero 论文处理工作流（元数据抓取 + 精读笔记生成）

- 包含 3 个子 Skill：

- zotero-collection-manager：总调度器，协调整个工作流

- zotero-data-fetcher：抓取每篇论文的元数据（标题、作者、年份等）

- zotero-analytical-workflow-reader：核心处理模块，负责论文精读和笔记生成

Research-Vault-Literature-Retrieval

- 仓库地址：github.com/cheneternity/Research-Vault-Literature-Retrieval

- 功能：基于 Obsidian 笔记的论文库检索系统（RAG 模式）

- 工作逻辑：

① 先读取根目录索引页

② 检索 Vault 中的相关笔记

③ 优先使用已有精读笔记

④ 只基于 Vault 证据回答

⑤ 按"结论 + 支持文献"结构输出

2.2 在 Obsidian 中创建 Research Vault

打开 Obsidian，新建一个 Vault（命名为 ResearchVault）
Vault 内部结构：

   
   ResearchVault/

   ├── 模板/

   │   ├── 论文泛读模板.md

   │   ├── 论文精读模板.md

   │   └── 综述模板.md

   ├── note/

   │   ├── 机器学习（卡牌决策）/    ← 按研究主题分文件夹

   │   ├── 创新经济地理/

   │   └── ...

   ├── 文献索引/

   ├── 研究方法索引/

   ├── 研究主题索引/

   └── AGENTS/

关键：Vault 的本地路径 需要记录好，后续 Codex 处理论文时需要指定输出位置

2.3 配置论文精读模板

在 Obsidian 中创建 论文精读模板.md，核心是 Frontmatter 属性区（YAML Properties）：


---

title: "{{title}}"

aliases:

tags:

  - literature-note

  - reading-note

created: "{{date}}"

source:

author:

year:

theme: "用一句话概括论文主题"

study_area: "用一句话概括研究对象、研究区或样本范围"

data_source: "用一句话概括数据来源、样本与时间范围"

methodology: "用一句话概括核心方法、模型或识别策略"

core_variable: "用一句话概括核心变量、指标或核心概念"

key_finding: "用一句话概括最关键研究发现"

relevance: "用一句话概括这篇论文对我研究的启发或相关性"

---

设计要点：属性字段写得越详细，后续 Dataview 检索越方便。每个字段用一句话概括，强制精炼思考。

三、核心工作流（3 步）

第一步：在 Zotero 中按主题整理论文

在 Zotero 中按研究主题创建分类文件夹（如"机器学习（卡牌决策）"）
将相关论文 PDF 导入对应文件夹
Zotero 自动抓取元数据（标题、作者、期刊、影响因子等）

第二步：在 Codex 中批量处理论文

单篇精读

直接在 Codex 中输入指令：


精读 zotero 中的 [论文标题]

批量处理（整个文件夹）


处理 zotero 中的 [文件夹名] 中的所有论文

Codex 内部处理流程

当触发批量处理时，zotero-collection-manager 调度器按以下流程执行：


1. zotero-data-fetcher

   ├── 读取 Zotero 文件夹中的论文列表

   ├── 逐篇抓取元数据（标题、作者、年份、摘要等）

   └── 缓存批注和全文内容

  


2. zotero-analytical-workflow-reader

   ├── 读取 _ProcessLog 进程记录.md（断点续跑机制）

   ├── 自动跳过已成功或已跳过的条目

   ├── 按篇串行执行处理

   ├── 调用 GPT-4 对论文进行精读分析

   ├── 按精读模板格式生成 Markdown 笔记

   └── 写入 Obsidian Vault 对应文件夹

  


3. zotero-collection-manager

   └── 维护进程日志，确保可断点续跑

输出结果：每篇论文在 Obsidian Vault 中生成一个 .md 文件，包含：

完整的 Frontmatter 属性（title, author, year, theme, methodology 等）
结构化的精读笔记正文（基本信息、方法分析、核心发现等）
Zotero 关联键（zotero_key, pdf_key）用于回溯原文

第三步：在 Obsidian 中检索 + 在 Codex 中对话

3.1 安装 Dataview 插件

在 Obsidian 设置 → 第三方插件 → 关闭安全模式
从社区插件市场搜索并安装 Dataview
确保插件处于开启状态

3.2 Dataview 的作用

自动提取每篇论文笔记的 Frontmatter 属性
生成动态索引页（按主题、方法、年份等维度）
支持类似数据库的查询语法，实现多条件筛选

3.3 在 Codex 中对话问答

在 Codex 中打开 Research Vault 文件夹
直接提问，例如：针对卡牌类游戏的机器学习方法有哪些
Codex（通过 Research-Vault-Literature-Retrieval Skill）：

- 读取 Vault 索引

- 检索相关笔记

- 基于已有精读笔记内容生成回答

- 输出结构化结论 + 支持文献列表

四、关键设计亮点

4.1 断点续跑机制

通过 _ProcessLog 进程记录.md 记录每篇论文的处理状态
批量处理中断后可恢复，不会重复处理已完成的论文
自动跳过已成功或已跳过的条目

4.2 属性驱动的检索体系

每篇论文的 Frontmatter 包含 14+ 个结构化字段
Dataview 基于这些字段自动生成索引
字段设计兼顾了"检索效率"和"思考深度"（一句话概括强制精炼）

4.3 证据 grounded 的问答

Research-Vault-Literature-Retrieval Skill 严格限制：只基于 Vault 证据回答
避免大模型幻觉，所有结论都有对应文献支撑
输出格式固定为"结论 + 支持文献"

4.4 模板化的知识生产

泛读模板 / 精读模板 / 综述模板三级体系
模板中使用 {{title}}、{{date}} 等占位符，支持自动化填充
确保笔记格式统一，便于后续检索和对比

五、工具链依赖关系图


┌─────────────────────────────────────────────────────────┐

│                    GitHub Skills                         │

│  ┌──────────────────────────┐  ┌──────────────────────┐ │

│  │ Zotero-Analytical-       │  │ Research-Vault-      │ │

│  │ Workflow-Skills          │  │ Literature-Retrieval │ │

│  │  ├ collection-manager    │  │  ├ 读取索引           │ │

│  │  ├ data-fetcher          │  │  ├ 检索笔记           │ │

│  │  └ workflow-reader       │  │  ├ 证据 grounded     │ │

│  └──────────┬───────────────┘  └──────────┬───────────┘ │

└─────────────┼──────────────────────────────┼────────────┘

              │                              │

              ▼                              ▼

┌─────────────────────────────────────────────────────────┐

│                   Codex (Cursor)                         │

│  ┌──────────────────┐    ┌──────────────────────────┐  │

│  │ GPT-4 精读引擎    │    │ RAG 对话问答引擎          │  │

│  │ (Step 2)          │    │ (Step 3)                 │  │

│  └────────┬─────────┘    └────────────┬─────────────┘  │

└───────────┼───────────────────────────┼─────────────────┘

            │                           ▲

            ▼                           │

┌───────────────────────────────────────┴─────────────────┐

│                  Obsidian (Research Vault)               │

│  ┌──────────┐  ┌──────────┐  ┌──────────────────────┐  │

│  │ 精读笔记  │  │ Dataview │  │ 动态索引 / 检索视图   │  │

│  │ (.md)    │→│ 插件      │→│ (按主题/方法/年份)     │  │

│  └──────────┘  └──────────┘  └──────────────────────┘  │

└─────────────────────────────────────────────────────────┘

            ▲

            │ PDF + 元数据

┌───────────┴─────────────────────────────────────────────┐

│                    Zotero                                │

│  ┌──────────┐  ┌──────────┐  ┌──────────────────────┐  │

│  │ PDF 存储  │  │ 元数据   │  │ 按主题分文件夹         │  │

│  └──────────┘  └──────────┘  └──────────────────────┘  │

└─────────────────────────────────────────────────────────┘

六、总结

这套工作流的核心逻辑可以概括为 ** "三步走 + 两个 Skill + 一个模板体系" **：

维度	内容
三步走	① Zotero 整理论文 → ② Codex 批量精读生成笔记 → ③ Obsidian 检索 + Codex 对话
两个 Skill	Zotero-Analytical-Workflow-Skills（处理）+ Research-Vault-Literature-Retrieval（检索）
一个模板体系	Frontmatter 属性 + 泛读/精读/综述三级模板
核心价值	将非结构化的 PDF 论文转化为结构化、可检索、可对话的知识库