Codex × Obsidian × Zotero 联动论文库工作流 — 核心逻辑梳理@围巾哥萧尘🧣

0 阅读6分钟

Codex × Obsidian × Zotero 联动论文库工作流 — 核心逻辑梳理@围巾哥萧尘🧣

unnamed (25).png

一、系统概览

1.1 目标

搭建一套 ** "论文管理 → AI 精读 → 笔记检索 → 对话问答" ** 的自动化工作流,让研究者可以:

  • 批量将 Zotero 中的论文自动生成结构化精读笔记

  • 在 Obsidian 中通过 Dataview 插件对笔记进行多维度检索

  • 在 Codex(Cursor)中打开论文库文件夹,直接与已有笔记对话,获得基于证据的结论

1.2 三大工具分工

工具角色核心职责
Zotero论文库管理 PDF 文件、按主题分文件夹存储、提供元数据和批注
**Codex(Cursor) **AI 处理引擎调用 GPT-4 进行论文精读、总结、生成笔记;后续作为对话问答入口
Obsidian知识库保存精读笔记(Markdown)、通过 Dataview 插件实现属性检索

1.3 整体数据流


Zotero(PDF + 元数据)

       │

       ▼

Codex(GPT-4 精读处理)

       │

       ▼  生成 Markdown 笔记

Obsidian(Research Vault)

       │

       ▼  Dataview 提取属性 → 自动索引

Codex(打开 Vault 文件夹对话)

       │

       ▼  基于已有笔记回答问题

结构化结论 + 支持文献


二、前置准备(3 件事)

2.1 下载两个 GitHub Skills

在 GitHub 上下载作者 cheneternity 提供的两个 Skills 仓库:

  1. Zotero-Analytical-Workflow-Skills

   - 仓库地址:github.com/cheneternity/Zotero-Analytical-Workflow-Skills

   - 功能:Zotero 论文处理工作流(元数据抓取 + 精读笔记生成)

   - 包含 3 个子 Skill:

     - zotero-collection-manager:总调度器,协调整个工作流

     - zotero-data-fetcher:抓取每篇论文的元数据(标题、作者、年份等)

     - zotero-analytical-workflow-reader:核心处理模块,负责论文精读和笔记生成

  1. Research-Vault-Literature-Retrieval

   - 仓库地址:github.com/cheneternity/Research-Vault-Literature-Retrieval

   - 功能:基于 Obsidian 笔记的论文库检索系统(RAG 模式)

   - 工作逻辑:

     ① 先读取根目录索引页

     ② 检索 Vault 中的相关笔记

     ③ 优先使用已有精读笔记

     ④ 只基于 Vault 证据回答

     ⑤ 按"结论 + 支持文献"结构输出

2.2 在 Obsidian 中创建 Research Vault

  1. 打开 Obsidian,新建一个 Vault(命名为 ResearchVault

  2. Vault 内部结构:

   
   ResearchVault/

   ├── 模板/

   │   ├── 论文泛读模板.md

   │   ├── 论文精读模板.md

   │   └── 综述模板.md

   ├── note/

   │   ├── 机器学习(卡牌决策)/    ← 按研究主题分文件夹

   │   ├── 创新经济地理/

   │   └── ...

   ├── 文献索引/

   ├── 研究方法索引/

   ├── 研究主题索引/

   └── AGENTS/
  1. 关键:Vault 的本地路径 需要记录好,后续 Codex 处理论文时需要指定输出位置

2.3 配置论文精读模板

在 Obsidian 中创建 论文精读模板.md,核心是 Frontmatter 属性区(YAML Properties):


---

title: "{{title}}"

aliases:

tags:

  - literature-note

  - reading-note

created: "{{date}}"

source:

author:

year:

theme: "用一句话概括论文主题"

study_area: "用一句话概括研究对象、研究区或样本范围"

data_source: "用一句话概括数据来源、样本与时间范围"

methodology: "用一句话概括核心方法、模型或识别策略"

core_variable: "用一句话概括核心变量、指标或核心概念"

key_finding: "用一句话概括最关键研究发现"

relevance: "用一句话概括这篇论文对我研究的启发或相关性"

---

设计要点:属性字段写得越详细,后续 Dataview 检索越方便。每个字段用一句话概括,强制精炼思考。


三、核心工作流(3 步)

第一步:在 Zotero 中按主题整理论文

  • 在 Zotero 中按研究主题创建分类文件夹(如"机器学习(卡牌决策)")

  • 将相关论文 PDF 导入对应文件夹

  • Zotero 自动抓取元数据(标题、作者、期刊、影响因子等)

第二步:在 Codex 中批量处理论文

单篇精读

直接在 Codex 中输入指令:


精读 zotero 中的 [论文标题]

批量处理(整个文件夹)

处理 zotero 中的 [文件夹名] 中的所有论文

Codex 内部处理流程

当触发批量处理时,zotero-collection-manager 调度器按以下流程执行:


1. zotero-data-fetcher

   ├── 读取 Zotero 文件夹中的论文列表

   ├── 逐篇抓取元数据(标题、作者、年份、摘要等)

   └── 缓存批注和全文内容

  


2. zotero-analytical-workflow-reader

   ├── 读取 _ProcessLog 进程记录.md(断点续跑机制)

   ├── 自动跳过已成功或已跳过的条目

   ├── 按篇串行执行处理

   ├── 调用 GPT-4 对论文进行精读分析

   ├── 按精读模板格式生成 Markdown 笔记

   └── 写入 Obsidian Vault 对应文件夹

  


3. zotero-collection-manager

   └── 维护进程日志,确保可断点续跑

输出结果:每篇论文在 Obsidian Vault 中生成一个 .md 文件,包含:

  • 完整的 Frontmatter 属性(title, author, year, theme, methodology 等)

  • 结构化的精读笔记正文(基本信息、方法分析、核心发现等)

  • Zotero 关联键(zotero_key, pdf_key)用于回溯原文

第三步:在 Obsidian 中检索 + 在 Codex 中对话

3.1 安装 Dataview 插件
  • 在 Obsidian 设置 → 第三方插件 → 关闭安全模式

  • 从社区插件市场搜索并安装 Dataview

  • 确保插件处于开启状态

3.2 Dataview 的作用
  • 自动提取每篇论文笔记的 Frontmatter 属性

  • 生成动态索引页(按主题、方法、年份等维度)

  • 支持类似数据库的查询语法,实现多条件筛选

3.3 在 Codex 中对话问答
  1. 在 Codex 中打开 Research Vault 文件夹

  2. 直接提问,例如:针对卡牌类游戏的机器学习方法有哪些

  3. Codex(通过 Research-Vault-Literature-Retrieval Skill):

   - 读取 Vault 索引

   - 检索相关笔记

   - 基于已有精读笔记内容生成回答

   - 输出结构化结论 + 支持文献列表


四、关键设计亮点

4.1 断点续跑机制

  • 通过 _ProcessLog 进程记录.md 记录每篇论文的处理状态

  • 批量处理中断后可恢复,不会重复处理已完成的论文

  • 自动跳过已成功或已跳过的条目

4.2 属性驱动的检索体系

  • 每篇论文的 Frontmatter 包含 14+ 个结构化字段

  • Dataview 基于这些字段自动生成索引

  • 字段设计兼顾了"检索效率"和"思考深度"(一句话概括强制精炼)

4.3 证据 grounded 的问答

  • Research-Vault-Literature-Retrieval Skill 严格限制:只基于 Vault 证据回答

  • 避免大模型幻觉,所有结论都有对应文献支撑

  • 输出格式固定为"结论 + 支持文献"

4.4 模板化的知识生产

  • 泛读模板 / 精读模板 / 综述模板三级体系

  • 模板中使用 {{title}}{{date}} 等占位符,支持自动化填充

  • 确保笔记格式统一,便于后续检索和对比


五、工具链依赖关系图


┌─────────────────────────────────────────────────────────┐

│                    GitHub Skills                         │

│  ┌──────────────────────────┐  ┌──────────────────────┐ │

│  │ Zotero-Analytical-       │  │ Research-Vault-      │ │

│  │ Workflow-Skills          │  │ Literature-Retrieval │ │

│  │  ├ collection-manager    │  │  ├ 读取索引           │ │

│  │  ├ data-fetcher          │  │  ├ 检索笔记           │ │

│  │  └ workflow-reader       │  │  ├ 证据 grounded     │ │

│  └──────────┬───────────────┘  └──────────┬───────────┘ │

└─────────────┼──────────────────────────────┼────────────┘

              │                              │

              ▼                              ▼

┌─────────────────────────────────────────────────────────┐

│                   Codex (Cursor)                         │

│  ┌──────────────────┐    ┌──────────────────────────┐  │

│  │ GPT-4 精读引擎    │    │ RAG 对话问答引擎          │  │

│  │ (Step 2)          │    │ (Step 3)                 │  │

│  └────────┬─────────┘    └────────────┬─────────────┘  │

└───────────┼───────────────────────────┼─────────────────┘

            │                           ▲

            ▼                           │

┌───────────────────────────────────────┴─────────────────┐

│                  Obsidian (Research Vault)               │

│  ┌──────────┐  ┌──────────┐  ┌──────────────────────┐  │

│  │ 精读笔记  │  │ Dataview │  │ 动态索引 / 检索视图   │  │

│  │ (.md)    │→│ 插件      │→│ (按主题/方法/年份)     │  │

│  └──────────┘  └──────────┘  └──────────────────────┘  │

└─────────────────────────────────────────────────────────┘

            ▲

            │ PDF + 元数据

┌───────────┴─────────────────────────────────────────────┐

│                    Zotero                                │

│  ┌──────────┐  ┌──────────┐  ┌──────────────────────┐  │

│  │ PDF 存储  │  │ 元数据   │  │ 按主题分文件夹         │  │

│  └──────────┘  └──────────┘  └──────────────────────┘  │

└─────────────────────────────────────────────────────────┘


六、总结

这套工作流的核心逻辑可以概括为 ** "三步走 + 两个 Skill + 一个模板体系" **:

维度内容
三步走① Zotero 整理论文 → ② Codex 批量精读生成笔记 → ③ Obsidian 检索 + Codex 对话
两个 SkillZotero-Analytical-Workflow-Skills(处理)+ Research-Vault-Literature-Retrieval(检索)
一个模板体系Frontmatter 属性 + 泛读/精读/综述三级模板
核心价值将非结构化的 PDF 论文转化为结构化、可检索、可对话的知识库