SAM3 重塑场景分割边界;X-Dance 解锁图像驱动舞姿生成新难度

33 阅读5分钟

公共资源速递

5 个公共数据集:

  • 3EED 语言驱动三维理解数据集

  • X-Dance 图像驱动舞蹈动作数据集

  • PhysToolBench 物理工具任务数据集

  • OST-Bench 时空场景理解基准数据集

  • Astrophysical Objects Image 天体物理物体图像数据集

4 个公共教程:

  • SAM3:视觉分割模型

  • FLUX.2-dev:图像生成与编辑模型

  • Supertonic:基于 ONNX 的极速 TTS 语音合成模型

  • Eigen-Banana:使用 Qwen-Image-Edit LoRA 快速图像编辑

访问官网立即使用:openbayes.com

公共数据集

  1. 3EED 语言驱动三维理解数据集

3EED 数据集共包含 20,367 个时间对齐的多模态帧,覆盖车辆、无人机与四足机器人三类平台。数据提供 128,735 个三维目标框以及 22,439 条经过人工验证的语言指代表达,是当前规模较大的三维视觉指代数据集之一。

在线使用:

go.openbayes.com/MB6Ol

数据集示例

2. X-Dance 图像驱动舞蹈动作数据集

X-Dance 数据集包含 12 段驱动视频,其中 8 段为高动态舞蹈动作,4 段为低幅度日常行为,涵盖运动模糊、遮挡、姿态剧变等多种真实场景变化。针对每段动作,数据集构建多源参考图像,包括动漫角色、半身照片、跨风格人物以及姿态差异显著的图像,用于模拟空间结构不一致与时间起点不连续等情况。

在线使用:

go.openbayes.com/m1mdE

数据集示例

3. OST-Bench 时空场景理解数据集

OST-Bench 数据集包含约 1,400 个真实室内三维场景,并基于探索轨迹生成约 10,000 条多轮时序问答样本,旨在评估模型的在线时空场景理解能力。场景来自多个室内三维数据源,并基于统一的物体与语义标注进行处理。

在线使用:

go.openbayes.com/k1zHC

数据集示例

4. PhysToolBench 物理工具任务数据集

PhysToolBench 数据集包含超过 1,000 条图像–文本样本,覆盖日常生活、工业操作、户外作业与专业场景等多种环境,旨在评估模型在物理工具识别、理解与创造方面的能力。数据依据任务复杂度划分为易、中、难三个等级,并构建三类核心任务:工具创造、工具识别与工具理解。

在线使用:

go.openbayes.com/Y8QY1

数据集示例

5. Astrophysical Objects Image 天体物理物体图像数据集

Astrophysical Objects Image 是一个面向天文学与天体物理研究的深度学习图像数据集,数据集图像来自多个公开天文数据源,按照类别组织为 12 类天体文件夹,所有图像均按类别规范存放。

在线使用:

go.openbayes.com/rzRTk

数据集示例

公共教程

1. SAM3:视觉分割模型

SAM3 是 Meta AI 发布的先进计算机视觉模型,支持通过文本短语、图像示例和视觉提示完成图像与视频中的对象检测、分割与跟踪。模型具备开放词汇能力,可实时修正分割结果,并在零样本条件下保持稳定泛化。在图像与视频分割任务中,SAM3 的表现达到前代系统的两倍,并进一步扩展至 3D 重建领域,为家居预览、创意编辑与科研场景提供更强大的视觉基础能力。

在线运行:

go.openbayes.com/4WT0m

项目示例

2. FLUX.2-dev:图像生成与编辑模型

FLUX.2 是 Black Forest Labs 发布的新一代 AI 图像生成模型,专为专业创意工作流程打造。模型支持最多 10 张参考图输入,能够生成最高 4MP 分辨率的高质量画面,并在细节刻画与文本渲染方面表现突出。基于视觉语言模型与流变换器架构的结合,FLUX.2 全面提升了图像生成的稳定性与真实感,为设计、广告与数字内容生产提供更高效的视觉创作能力。

在线运行:

go.openbayes.com/5anAh

项目示例

3. Supertonic:基于 ONNX 的极速 TTS 语音合成模型

Supertonic 是 Supertone 推出的本地文本转语音引擎,基于 ONNX Runtime 开发,重点优化低延迟与高并发表现。它在保证高质量语音合成的同时大幅降低硬件门槛,可在桌面端、服务器及边缘设备实现完全离线的实时推理。得益于其本地化特性,Supertonic 特别适用于隐私敏感场景及对实时交互要求较高的应用,如数字人、游戏语音与本地语音助手。

在线运行:

go.openbayes.com/D1Rza

项目示例

4. Eigen-Banana:使用 Qwen-Image-Edit LoRA 快速图像编辑

Eigen-Banana-Qwen-Image-Edit 是 Eigen AI 推出的基于 Qwen-Image-Edit 的 LoRA 适配模型,面向高质量且高效率的文本驱动图像编辑。模型基于 Apple 的 Pico-Banana-400K 数据集训练,在物体调整、风格转换等多类编辑任务中表现优异,并通过减少推理步骤显著提升编辑速度。该模型适用于创意设计、图像增强与快速原型图生成等场景。

在线运行:

go.openbayes.com/OSyCV

项目示例