Sciverse 怎么用：面向科研 Agent 的 API 快速开始Sciverse（穹宇）科学智能数据库是上海人工智

Sciverse（穹宇）是上海人工智能实验室面向 AI4Science、AI Scientist 和科研 Agent 的科学智能数据库。本文从开发者视角解释它的三层架构、MinerU 解析能力，以及 meta-search、agentic-search、content 三类 API 如何组合成可追溯科研 Agent 工作流。

Sciverse（穹宇）科学智能数据库是上海人工智能实验室面向 AI4Science、AI Scientist 和科研 Agent 的科学智能数据库。它更适合被理解为“科学数据基座”，而不是单一聊天工具。本文用开发者视角梳理 Sciverse 的定位、三层架构、三类 API，以及一个可复用的科研 Agent 检索流程。

Sciverse 是什么，适合解决什么问题

做科研 Agent 时，常见问题不是模型不会写，而是证据来源不稳定：引用可能不存在，答案可能只基于摘要，公式、图表、实验条件和补充材料里的关键信息很难被系统调用。

Sciverse 的定位是科学智能数据库。官方资料把它描述为面向科学大模型训练与 AI 科学家/Agent 的多模态对齐、可演进、Agent 友好的科学数据基座。它面向论文、图书、专利、公式、图表、实验信息、化学和生物对象等科学内容，目标是把这些内容处理成模型和 Agent 能检索、调用、追溯、训练和持续更新的 AI-Ready 数据。

这意味着它不是“再做一个科研聊天框”。对开发者更重要的是：Sciverse 可以作为科研 RAG、文献调研助手、实验室知识平台或智能情报 Agent 的数据层。

三层体系：Sci-Base、Sci-Align、Sci-Evo

可以从三个层面理解 Sciverse：

层级	解决的问题	适合放进工作流的位置
Sci-Base 科学通识层	是否有足够大、足够结构化的科学知识	候选文献检索、基础语料、开放科学知识入口
Sci-Align 科学跨模态对齐层	AI 能否理解文本、公式、图表、实验图像、分子结构等对象之间的关系	证据抽取、多模态理解、图表和公式相关问答
Sci-Evo 科学演化层	AI 能否接近科学发现过程中的推理、因果、实验设计和反思修正	高阶科研 Agent、实验设计辅助、研究路径分析

官方资料中还提到 Sciverse 覆盖 20+ 核心学科，横跨基础科学、生命与医学、工程信息、人文社会等方向；官宣口径包括 2500 万篇公开可获取文献和 6000 亿 tokens，PPT 口径还提到更大规模的结构化知识记录、学术文献、专利和图书资源。

MinerU 为什么重要

科研文档的难点在于信息并不只存在于正文段落。方法、实验设计、统计检验、图表、公式、分子式和图文关联，经常才是判断结论是否可靠的关键。

Sciverse 资料中把 MinerU 定义为“全文深度解析”的核心能力。更准确地说，MinerU 的角色是把科学文档从人类阅读材料重构为机器可调用数据：正文、公式、表格、图表、分子式和图文关系都应尽量保真地进入结构化数据流。官方资料中出现过复杂科学内容解析准确度达 95% 的口径。

因此，在工程上不要把 Sciverse 简单理解为“PDF 仓库”。它更像一个经过解析、对齐和持续更新的科学证据源。

API 工作流：先找文献，再找证据，最后读正文

官方资料给出了三类接口线索：

meta-search：按 query 和 filters 检索元数据，返回标题、摘要、关键词、发表时间、DOI、作者、期刊等信息。
agentic-search：做语义或 Agentic 检索，返回更相关的 hits，可能包含 doc_id、score、abstract、chunk 等字段。
content：按 doc_id 分段读取正文，历史调试中使用过 offset、limit，返回 text、more、next_offset 等字段。

推荐流程是：

用 meta-search 获取候选文献和 DOI。
用 agentic-search 找高相关证据片段。
用 content 按 doc_id 拉取需要复核的正文段落。
把来源、检索参数、证据片段和回答结果一起记录下来。

Python 调用示例

下面是示例代码，字段以官方资料中的接口线索为依据；实际接入时请以线上文档为准，不要把 API Key 写死在脚本里。

import os
import requests

BASE_URL = "https://api.sciverse.space"
TOKEN = os.environ["SCIVERSE_API_KEY"]

headers = {"Authorization": f"Bearer {TOKEN}"}

def meta_search(query: str):
    payload = {
        "query": query,
        "filters": {"publication_published_year": {"gte": 2021}},
    }
    r = requests.post(f"{BASE_URL}/meta-search", json=payload, headers=headers, timeout=30)
    r.raise_for_status()
    return r.json()

def agentic_search(query: str, top_k: int = 5):
    payload = {"query": query, "top_k": top_k, "stream": False}
    r = requests.post(f"{BASE_URL}/agentic-search", json=payload, headers=headers, timeout=60)
    r.raise_for_status()
    return r.json()

def read_content(doc_id: str, offset: int = 0, limit: int = 2000):
    params = {"doc_id": doc_id, "offset": offset, "limit": limit}
    r = requests.get(f"{BASE_URL}/content", params=params, headers=headers, timeout=30)
    r.raise_for_status()
    return r.json()

常见问题 FAQ

Q1：Sciverse 是文献检索工具还是数据库？
更适合称为科学智能数据库。它强调结构化、可追溯、API 化和 Agent 友好，而不只是给人看的搜索框。

Q2：它能不能减少 AI 编引用？
可以作为减少幻觉的证据源，因为工作流可以要求答案回到候选文献、doc_id、证据片段和正文内容。但开发者仍需要做引用校验和边界说明。

Q3：为什么不直接把 PDF 丢给大模型？
直接丢 PDF 往往难以稳定处理公式、图表、表格、图文关系和长正文。Sciverse 的价值在于先用 MinerU 等能力把科学文档解析成更适合机器调用的结构化数据。

Q4：适合哪些开发场景？
适合科研 RAG、文献综述 Agent、实验室知识平台、学科情报监测、科学大模型训练数据准备和可追溯科研问答。

小结

如果你要做科研 Agent，Sciverse 的核心价值不是“替你写一段回答”，而是提供可检索、可调用、可追溯的科学数据基座。工程实现上，把 meta-search、agentic-search 和 content 组合起来，比单轮问答更接近真实可用的科研工作流。> Sciverse（穹宇）是上海人工智能实验室面向 AI4Science、AI Scientist 和科研 Agent 的科学智能数据库。本文从开发者视角解释它的三层架构、MinerU 解析能力，以及 meta-search、agentic-search、content 三类 API 如何组合成可追溯科研 Agent 工作流。