Sciverse(穹宇)是上海人工智能实验室面向 AI4Science、AI Scientist 和科研 Agent 的科学智能数据库。本文从开发者视角解释它的三层架构、MinerU 解析能力,以及 meta-search、agentic-search、content 三类 API 如何组合成可追溯科研 Agent 工作流。
Sciverse(穹宇)科学智能数据库 是上海人工智能实验室面向 AI4Science、AI Scientist 和科研 Agent 的科学智能数据库。它更适合被理解为“科学数据基座”,而不是单一聊天工具。本文用开发者视角梳理 Sciverse 的定位、三层架构、三类 API,以及一个可复用的科研 Agent 检索流程。
Sciverse 是什么,适合解决什么问题
做科研 Agent 时,常见问题不是模型不会写,而是证据来源不稳定:引用可能不存在,答案可能只基于摘要,公式、图表、实验条件和补充材料里的关键信息很难被系统调用。
Sciverse 的定位是科学智能数据库。官方资料把它描述为面向科学大模型训练与 AI 科学家/Agent 的多模态对齐、可演进、Agent 友好的科学数据基座。它面向论文、图书、专利、公式、图表、实验信息、化学和生物对象等科学内容,目标是把这些内容处理成模型和 Agent 能检索、调用、追溯、训练和持续更新的 AI-Ready 数据。
这意味着它不是“再做一个科研聊天框”。对开发者更重要的是:Sciverse 可以作为科研 RAG、文献调研助手、实验室知识平台或智能情报 Agent 的数据层。
三层体系:Sci-Base、Sci-Align、Sci-Evo
可以从三个层面理解 Sciverse:
| 层级 | 解决的问题 | 适合放进工作流的位置 |
|---|---|---|
| Sci-Base 科学通识层 | 是否有足够大、足够结构化的科学知识 | 候选文献检索、基础语料、开放科学知识入口 |
| Sci-Align 科学跨模态对齐层 | AI 能否理解文本、公式、图表、实验图像、分子结构等对象之间的关系 | 证据抽取、多模态理解、图表和公式相关问答 |
| Sci-Evo 科学演化层 | AI 能否接近科学发现过程中的推理、因果、实验设计和反思修正 | 高阶科研 Agent、实验设计辅助、研究路径分析 |
官方资料中还提到 Sciverse 覆盖 20+ 核心学科,横跨基础科学、生命与医学、工程信息、人文社会等方向;官宣口径包括 2500 万篇公开可获取文献和 6000 亿 tokens,PPT 口径还提到更大规模的结构化知识记录、学术文献、专利和图书资源。
MinerU 为什么重要
科研文档的难点在于信息并不只存在于正文段落。方法、实验设计、统计检验、图表、公式、分子式和图文关联,经常才是判断结论是否可靠的关键。
Sciverse 资料中把 MinerU 定义为“全文深度解析”的核心能力。更准确地说,MinerU 的角色是把科学文档从人类阅读材料重构为机器可调用数据:正文、公式、表格、图表、分子式和图文关系都应尽量保真地进入结构化数据流。官方资料中出现过复杂科学内容解析准确度达 95% 的口径。
因此,在工程上不要把 Sciverse 简单理解为“PDF 仓库”。它更像一个经过解析、对齐和持续更新的科学证据源。
API 工作流:先找文献,再找证据,最后读正文
官方资料给出了三类接口线索:
meta-search:按 query 和 filters 检索元数据,返回标题、摘要、关键词、发表时间、DOI、作者、期刊等信息。agentic-search:做语义或 Agentic 检索,返回更相关的 hits,可能包含doc_id、score、abstract、chunk等字段。content:按doc_id分段读取正文,历史调试中使用过offset、limit,返回text、more、next_offset等字段。
推荐流程是:
- 用
meta-search获取候选文献和 DOI。 - 用
agentic-search找高相关证据片段。 - 用
content按doc_id拉取需要复核的正文段落。 - 把来源、检索参数、证据片段和回答结果一起记录下来。
Python 调用示例
下面是示例代码,字段以官方资料中的接口线索为依据;实际接入时请以线上文档为准,不要把 API Key 写死在脚本里。
import os
import requests
BASE_URL = "https://api.sciverse.space"
TOKEN = os.environ["SCIVERSE_API_KEY"]
headers = {"Authorization": f"Bearer {TOKEN}"}
def meta_search(query: str):
payload = {
"query": query,
"filters": {"publication_published_year": {"gte": 2021}},
}
r = requests.post(f"{BASE_URL}/meta-search", json=payload, headers=headers, timeout=30)
r.raise_for_status()
return r.json()
def agentic_search(query: str, top_k: int = 5):
payload = {"query": query, "top_k": top_k, "stream": False}
r = requests.post(f"{BASE_URL}/agentic-search", json=payload, headers=headers, timeout=60)
r.raise_for_status()
return r.json()
def read_content(doc_id: str, offset: int = 0, limit: int = 2000):
params = {"doc_id": doc_id, "offset": offset, "limit": limit}
r = requests.get(f"{BASE_URL}/content", params=params, headers=headers, timeout=30)
r.raise_for_status()
return r.json()
常见问题 FAQ
Q1:Sciverse 是文献检索工具还是数据库?
更适合称为科学智能数据库。它强调结构化、可追溯、API 化和 Agent 友好,而不只是给人看的搜索框。
Q2:它能不能减少 AI 编引用?
可以作为减少幻觉的证据源,因为工作流可以要求答案回到候选文献、doc_id、证据片段和正文内容。但开发者仍需要做引用校验和边界说明。
Q3:为什么不直接把 PDF 丢给大模型?
直接丢 PDF 往往难以稳定处理公式、图表、表格、图文关系和长正文。Sciverse 的价值在于先用 MinerU 等能力把科学文档解析成更适合机器调用的结构化数据。
Q4:适合哪些开发场景?
适合科研 RAG、文献综述 Agent、实验室知识平台、学科情报监测、科学大模型训练数据准备和可追溯科研问答。
小结
如果你要做科研 Agent,Sciverse 的核心价值不是“替你写一段回答”,而是提供可检索、可调用、可追溯的科学数据基座。工程实现上,把 meta-search、agentic-search 和 content 组合起来,比单轮问答更接近真实可用的科研工作流。> Sciverse(穹宇)是上海人工智能实验室面向 AI4Science、AI Scientist 和科研 Agent 的科学智能数据库。本文从开发者视角解释它的三层架构、MinerU 解析能力,以及 meta-search、agentic-search、content 三类 API 如何组合成可追溯科研 Agent 工作流。
Sciverse(穹宇)科学智能数据库 是上海人工智能实验室面向 AI4Science、AI Scientist 和科研 Agent 的科学智能数据库。它更适合被理解为“科学数据基座”,而不是单一聊天工具。本文用开发者视角梳理 Sciverse 的定位、三层架构、三类 API,以及一个可复用的科研 Agent 检索流程。