Depth-Anything-3 打开全视角空间感知;CytoData 还原细胞级显微宇宙!

43 阅读5分钟

公共资源速递

5 个公共数据集:

Netflix 电影电视目录数据集

  • CytoData 血液细胞图像数据集

  • VERA 语音推理能力评测数据集

  • UNO-Bench 全模态评测基准数据集

  • EditReward-Bench 图像编辑评测数据集

3 个公共教程:

  • PixelReasoner-RL:像素级视觉推理模型

  • VibeThinker-1.5B:小模型也可以有大智慧

  • Depth-Anything-3:从任何视角恢复视觉空间

访问官网立即使用:openbayes.com

公共数据集

1. Netflix 电影电视目录数据集

Netflix 影片与剧集目录数据集是一个涵盖多国家、多类型影视内容的结构化目录数据集,包含标题、类型、制作信息、时长、分级与剧情简介等基础字段。数据覆盖多个国家与类型,条目数量可观,内容分布广泛,可完整呈现平台的影视内容构成情况。

在线使用:

go.openbayes.com/0SUYR

2. CytoData 血液细胞图像数据集

该数据集是一个面向细胞形态分析的大规模血液细胞医学影像数据集,由 2,904 张血液涂片组成,包含共计 559,808 张单细胞图像,其中 4,996 张样本附带十类血液细胞的专家分类与置信度标注。图像由标准化临床系统采集,并额外设置伪影类别,用于呈现血液涂片中的常见非细胞结构。数据量大、类别清晰,能够全面反映血细胞形态特征。

在线使用:

go.openbayes.com/ktyz1

3. VERA 语音推理能力评测数据集

VERA 是一个面向语音原生推理能力评测的多任务语音数据集,包含 2,931 条语音原生推理样本,覆盖数学、网页检索、科学问题、长文本理解与事实性问答五类任务所有样本以语音形式原生呈现,并包含对话轮次、上下文文档及参考答案等结构化信息。该数据集可直接用于语音模态推理研究、跨模态性能差异分析与语音智能系统能力评估。

在线使用:

go.openbayes.com/aag1x

4. UNO-Bench 全模态评测基准数据集

UNO-Bench 是一个统一的全模态理解与推理评测基准,面向单模态与全模态任务构建,由 1,250 条全模态样本与 2,480 条单模态样本构成,共覆盖 44 类任务类型与 5 种模态组合。数据采用结构化存储方式,包含 qid、文本内容、多模态资源路径、任务标签与评分字段等信息,样本构成丰富,具备较高的跨模态可解性。

在线使用:

go.openbayes.com/uY74R

数据集示例

5. EditReward-Bench 图像编辑评测数据集

EditReward-Bench 是一个面向图像编辑奖励模型的系统化评测基准,包含 3,072 条经专家标注的偏好对比样本,覆盖 4 大类、13 种图像编辑任务。数据集中候选结果由 11 种异构图像编辑模型生成,分布具备多样性与代表性,能够全面呈现不同编辑场景与编辑类型下的图像变化特征。

在线使用:

go.openbayes.com/23Isj

公共教程

1. PixelReasoner-RL:像素级视觉推理模型

PixelReasoner-RL-v1 是 TIGER AI Lab 发布的新一代像素级视觉语言模型,其核心以好奇心驱动强化学习为基础,使模型能够在像素空间中主动执行缩放、抽帧与局部聚焦等视觉操作,从而突破传统 VLM 仅依赖文本推理的限制。借助这种可操作式视觉推理框架,PixelReasoner 能精准捕捉图像细节和空间关系,在处理微小目标、复杂场景与视频内容时展现出显著优势。作为聚焦深度视觉理解的先进系统,它为图像分析、视频理解与多模态任务提供了更灵活、更细腻的智能支持。

在线运行:

go.openbayes.com/UKuhN

项目示例

2. VibeThinker-1.5B:小模型也可以有大智慧

VibeThinker-1.5B 是微博 AI 推出的轻量级通用大模型,其关键创新来自 SSP 训练理念,通过在初始阶段鼓励模型探索多样化推理路径,并在后续阶段以强化学习精确收敛最优策略,使其在仅 15 亿参数规模下实现接近大模型的逻辑推理能力。凭借这种“发散—收敛”式训练机制,VibeThinker-1.5B 能构建稳定且深入的推理链路,为移动端应用、轻量部署与高性价比场景提供强大的智能支持。

在线运行:

go.openbayes.com/Jc7hC

项目示例

3. Depth-Anything-3:从任何视角恢复视觉空间

Depth-Anything-3(DA3)是 ByteDance-Seed 团队推出的新一代视觉几何模型,以单一 Transformer 结合深度射线表示重构三维理解流程,能够在任意视角输入下恢复空间一致的几何结构,无需依赖复杂的多任务训练设计。模型同时支持单目深度、多视图融合、相机姿态估计与 3D 高斯生成等核心任务,并在 HiRoom、ETH3D 等基准上取得领先表现。凭借架构极简、任务统一、跨场景鲁棒性强等优势,DA3 能高效适配多种下游 3D 流程,成为三维重建、虚拟内容生成与空间计算中的专业级几何理解引擎。

在线运行:

go.openbayes.com/TVdUR

项目示例