SAM3 重塑场景分割边界；X-Dance 解锁图像驱动舞姿生成新难度公共资源速递 5 个公共数据集： 3EED 语言驱

公共资源速递

5 个公共数据集：

3EED 语言驱动三维理解数据集
X-Dance 图像驱动舞蹈动作数据集
PhysToolBench 物理工具任务数据集
OST-Bench 时空场景理解基准数据集
Astrophysical Objects Image 天体物理物体图像数据集

4 个公共教程：

SAM3：视觉分割模型
FLUX.2-dev：图像生成与编辑模型
Supertonic：基于 ONNX 的极速 TTS 语音合成模型
Eigen-Banana：使用 Qwen-Image-Edit LoRA 快速图像编辑

访问官网立即使用：openbayes.com

公共数据集

3EED 语言驱动三维理解数据集

3EED 数据集共包含 20,367 个时间对齐的多模态帧，覆盖车辆、无人机与四足机器人三类平台。数据提供 128,735 个三维目标框以及 22,439 条经过人工验证的语言指代表达，是当前规模较大的三维视觉指代数据集之一。

在线使用：

go.openbayes.com/MB6Ol

数据集示例

2. X-Dance 图像驱动舞蹈动作数据集

X-Dance 数据集包含 12 段驱动视频，其中 8 段为高动态舞蹈动作，4 段为低幅度日常行为，涵盖运动模糊、遮挡、姿态剧变等多种真实场景变化。针对每段动作，数据集构建多源参考图像，包括动漫角色、半身照片、跨风格人物以及姿态差异显著的图像，用于模拟空间结构不一致与时间起点不连续等情况。

在线使用：

go.openbayes.com/m1mdE

数据集示例

3. OST-Bench 时空场景理解数据集

OST-Bench 数据集包含约 1,400 个真实室内三维场景，并基于探索轨迹生成约 10,000 条多轮时序问答样本，旨在评估模型的在线时空场景理解能力。场景来自多个室内三维数据源，并基于统一的物体与语义标注进行处理。

在线使用：

go.openbayes.com/k1zHC

数据集示例

4. PhysToolBench 物理工具任务数据集

PhysToolBench 数据集包含超过 1,000 条图像–文本样本，覆盖日常生活、工业操作、户外作业与专业场景等多种环境，旨在评估模型在物理工具识别、理解与创造方面的能力。数据依据任务复杂度划分为易、中、难三个等级，并构建三类核心任务：工具创造、工具识别与工具理解。

在线使用：

go.openbayes.com/Y8QY1

数据集示例

5. Astrophysical Objects Image 天体物理物体图像数据集

Astrophysical Objects Image 是一个面向天文学与天体物理研究的深度学习图像数据集，数据集图像来自多个公开天文数据源，按照类别组织为 12 类天体文件夹，所有图像均按类别规范存放。

在线使用：

go.openbayes.com/rzRTk

数据集示例

公共教程

1. SAM3：视觉分割模型

SAM3 是 Meta AI 发布的先进计算机视觉模型，支持通过文本短语、图像示例和视觉提示完成图像与视频中的对象检测、分割与跟踪。模型具备开放词汇能力，可实时修正分割结果，并在零样本条件下保持稳定泛化。在图像与视频分割任务中，SAM3 的表现达到前代系统的两倍，并进一步扩展至 3D 重建领域，为家居预览、创意编辑与科研场景提供更强大的视觉基础能力。

在线运行：

go.openbayes.com/4WT0m

项目示例

2. FLUX.2-dev：图像生成与编辑模型

FLUX.2 是 Black Forest Labs 发布的新一代 AI 图像生成模型，专为专业创意工作流程打造。模型支持最多 10 张参考图输入，能够生成最高 4MP 分辨率的高质量画面，并在细节刻画与文本渲染方面表现突出。基于视觉语言模型与流变换器架构的结合，FLUX.2 全面提升了图像生成的稳定性与真实感，为设计、广告与数字内容生产提供更高效的视觉创作能力。

在线运行：

go.openbayes.com/5anAh

项目示例

3. Supertonic：基于 ONNX 的极速 TTS 语音合成模型

Supertonic 是 Supertone 推出的本地文本转语音引擎，基于 ONNX Runtime 开发，重点优化低延迟与高并发表现。它在保证高质量语音合成的同时大幅降低硬件门槛，可在桌面端、服务器及边缘设备实现完全离线的实时推理。得益于其本地化特性，Supertonic 特别适用于隐私敏感场景及对实时交互要求较高的应用，如数字人、游戏语音与本地语音助手。

在线运行：

go.openbayes.com/D1Rza

项目示例

4. Eigen-Banana：使用 Qwen-Image-Edit LoRA 快速图像编辑

Eigen-Banana-Qwen-Image-Edit 是 Eigen AI 推出的基于 Qwen-Image-Edit 的 LoRA 适配模型，面向高质量且高效率的文本驱动图像编辑。模型基于 Apple 的 Pico-Banana-400K 数据集训练，在物体调整、风格转换等多类编辑任务中表现优异，并通过减少推理步骤显著提升编辑速度。该模型适用于创意设计、图像增强与快速原型图生成等场景。

在线运行：

go.openbayes.com/OSyCV

项目示例