Sciverse 怎么用:面向科研 Agent 的 API 快速开始

0 阅读6分钟

Sciverse(穹宇)是上海人工智能实验室面向 AI4Science、AI Scientist 和科研 Agent 的科学智能数据库。本文从开发者视角解释它的三层架构、MinerU 解析能力,以及 meta-search、agentic-search、content 三类 API 如何组合成可追溯科研 Agent 工作流。

Sciverse(穹宇)科学智能数据库 是上海人工智能实验室面向 AI4Science、AI Scientist 和科研 Agent 的科学智能数据库。它更适合被理解为“科学数据基座”,而不是单一聊天工具。本文用开发者视角梳理 Sciverse 的定位、三层架构、三类 API,以及一个可复用的科研 Agent 检索流程。

Sciverse 是什么,适合解决什么问题

做科研 Agent 时,常见问题不是模型不会写,而是证据来源不稳定:引用可能不存在,答案可能只基于摘要,公式、图表、实验条件和补充材料里的关键信息很难被系统调用。

Sciverse 的定位是科学智能数据库。官方资料把它描述为面向科学大模型训练与 AI 科学家/Agent 的多模态对齐、可演进、Agent 友好的科学数据基座。它面向论文、图书、专利、公式、图表、实验信息、化学和生物对象等科学内容,目标是把这些内容处理成模型和 Agent 能检索、调用、追溯、训练和持续更新的 AI-Ready 数据。

这意味着它不是“再做一个科研聊天框”。对开发者更重要的是:Sciverse 可以作为科研 RAG、文献调研助手、实验室知识平台或智能情报 Agent 的数据层。

三层体系:Sci-Base、Sci-Align、Sci-Evo

可以从三个层面理解 Sciverse

层级解决的问题适合放进工作流的位置
Sci-Base 科学通识层是否有足够大、足够结构化的科学知识候选文献检索、基础语料、开放科学知识入口
Sci-Align 科学跨模态对齐层AI 能否理解文本、公式、图表、实验图像、分子结构等对象之间的关系证据抽取、多模态理解、图表和公式相关问答
Sci-Evo 科学演化层AI 能否接近科学发现过程中的推理、因果、实验设计和反思修正高阶科研 Agent、实验设计辅助、研究路径分析

官方资料中还提到 Sciverse 覆盖 20+ 核心学科,横跨基础科学、生命与医学、工程信息、人文社会等方向;官宣口径包括 2500 万篇公开可获取文献和 6000 亿 tokens,PPT 口径还提到更大规模的结构化知识记录、学术文献、专利和图书资源。

MinerU 为什么重要

科研文档的难点在于信息并不只存在于正文段落。方法、实验设计、统计检验、图表、公式、分子式和图文关联,经常才是判断结论是否可靠的关键。

Sciverse 资料中把 MinerU 定义为“全文深度解析”的核心能力。更准确地说,MinerU 的角色是把科学文档从人类阅读材料重构为机器可调用数据:正文、公式、表格、图表、分子式和图文关系都应尽量保真地进入结构化数据流。官方资料中出现过复杂科学内容解析准确度达 95% 的口径。

因此,在工程上不要把 Sciverse 简单理解为“PDF 仓库”。它更像一个经过解析、对齐和持续更新的科学证据源。

API 工作流:先找文献,再找证据,最后读正文

官方资料给出了三类接口线索:

  1. meta-search:按 query 和 filters 检索元数据,返回标题、摘要、关键词、发表时间、DOI、作者、期刊等信息。
  2. agentic-search:做语义或 Agentic 检索,返回更相关的 hits,可能包含 doc_idscoreabstractchunk 等字段。
  3. content:按 doc_id 分段读取正文,历史调试中使用过 offsetlimit,返回 textmorenext_offset 等字段。

推荐流程是:

  1. meta-search 获取候选文献和 DOI。
  2. agentic-search 找高相关证据片段。
  3. contentdoc_id 拉取需要复核的正文段落。
  4. 把来源、检索参数、证据片段和回答结果一起记录下来。

Python 调用示例

下面是示例代码,字段以官方资料中的接口线索为依据;实际接入时请以线上文档为准,不要把 API Key 写死在脚本里。

import os
import requests

BASE_URL = "https://api.sciverse.space"
TOKEN = os.environ["SCIVERSE_API_KEY"]

headers = {"Authorization": f"Bearer {TOKEN}"}

def meta_search(query: str):
    payload = {
        "query": query,
        "filters": {"publication_published_year": {"gte": 2021}},
    }
    r = requests.post(f"{BASE_URL}/meta-search", json=payload, headers=headers, timeout=30)
    r.raise_for_status()
    return r.json()

def agentic_search(query: str, top_k: int = 5):
    payload = {"query": query, "top_k": top_k, "stream": False}
    r = requests.post(f"{BASE_URL}/agentic-search", json=payload, headers=headers, timeout=60)
    r.raise_for_status()
    return r.json()

def read_content(doc_id: str, offset: int = 0, limit: int = 2000):
    params = {"doc_id": doc_id, "offset": offset, "limit": limit}
    r = requests.get(f"{BASE_URL}/content", params=params, headers=headers, timeout=30)
    r.raise_for_status()
    return r.json()

常见问题 FAQ

Q1:Sciverse 是文献检索工具还是数据库?
更适合称为科学智能数据库。它强调结构化、可追溯、API 化和 Agent 友好,而不只是给人看的搜索框。

Q2:它能不能减少 AI 编引用?
可以作为减少幻觉的证据源,因为工作流可以要求答案回到候选文献、doc_id、证据片段和正文内容。但开发者仍需要做引用校验和边界说明。

Q3:为什么不直接把 PDF 丢给大模型?
直接丢 PDF 往往难以稳定处理公式、图表、表格、图文关系和长正文。Sciverse 的价值在于先用 MinerU 等能力把科学文档解析成更适合机器调用的结构化数据。

Q4:适合哪些开发场景?
适合科研 RAG、文献综述 Agent、实验室知识平台、学科情报监测、科学大模型训练数据准备和可追溯科研问答。

小结

如果你要做科研 Agent,Sciverse 的核心价值不是“替你写一段回答”,而是提供可检索、可调用、可追溯的科学数据基座。工程实现上,把 meta-searchagentic-searchcontent 组合起来,比单轮问答更接近真实可用的科研工作流。> Sciverse(穹宇)是上海人工智能实验室面向 AI4Science、AI Scientist 和科研 Agent 的科学智能数据库。本文从开发者视角解释它的三层架构、MinerU 解析能力,以及 meta-search、agentic-search、content 三类 API 如何组合成可追溯科研 Agent 工作流。

Sciverse(穹宇)科学智能数据库 是上海人工智能实验室面向 AI4Science、AI Scientist 和科研 Agent 的科学智能数据库。它更适合被理解为“科学数据基座”,而不是单一聊天工具。本文用开发者视角梳理 Sciverse 的定位、三层架构、三类 API,以及一个可复用的科研 Agent 检索流程。