公共资源速递
5 个公共数据集:
-
3EED 语言驱动三维理解数据集
-
X-Dance 图像驱动舞蹈动作数据集
-
PhysToolBench 物理工具任务数据集
-
OST-Bench 时空场景理解基准数据集
-
Astrophysical Objects Image 天体物理物体图像数据集
4 个公共教程:
-
SAM3:视觉分割模型
-
FLUX.2-dev:图像生成与编辑模型
-
Supertonic:基于 ONNX 的极速 TTS 语音合成模型
-
Eigen-Banana:使用 Qwen-Image-Edit LoRA 快速图像编辑
访问官网立即使用:openbayes.com
公共数据集
3EED 数据集共包含 20,367 个时间对齐的多模态帧,覆盖车辆、无人机与四足机器人三类平台。数据提供 128,735 个三维目标框以及 22,439 条经过人工验证的语言指代表达,是当前规模较大的三维视觉指代数据集之一。
在线使用:
数据集示例
X-Dance 数据集包含 12 段驱动视频,其中 8 段为高动态舞蹈动作,4 段为低幅度日常行为,涵盖运动模糊、遮挡、姿态剧变等多种真实场景变化。针对每段动作,数据集构建多源参考图像,包括动漫角色、半身照片、跨风格人物以及姿态差异显著的图像,用于模拟空间结构不一致与时间起点不连续等情况。
在线使用:
数据集示例
OST-Bench 数据集包含约 1,400 个真实室内三维场景,并基于探索轨迹生成约 10,000 条多轮时序问答样本,旨在评估模型的在线时空场景理解能力。场景来自多个室内三维数据源,并基于统一的物体与语义标注进行处理。
在线使用:
数据集示例
PhysToolBench 数据集包含超过 1,000 条图像–文本样本,覆盖日常生活、工业操作、户外作业与专业场景等多种环境,旨在评估模型在物理工具识别、理解与创造方面的能力。数据依据任务复杂度划分为易、中、难三个等级,并构建三类核心任务:工具创造、工具识别与工具理解。
在线使用:
数据集示例
5. Astrophysical Objects Image 天体物理物体图像数据集
Astrophysical Objects Image 是一个面向天文学与天体物理研究的深度学习图像数据集,数据集图像来自多个公开天文数据源,按照类别组织为 12 类天体文件夹,所有图像均按类别规范存放。
在线使用:
数据集示例
公共教程
SAM3 是 Meta AI 发布的先进计算机视觉模型,支持通过文本短语、图像示例和视觉提示完成图像与视频中的对象检测、分割与跟踪。模型具备开放词汇能力,可实时修正分割结果,并在零样本条件下保持稳定泛化。在图像与视频分割任务中,SAM3 的表现达到前代系统的两倍,并进一步扩展至 3D 重建领域,为家居预览、创意编辑与科研场景提供更强大的视觉基础能力。
在线运行:
项目示例
FLUX.2 是 Black Forest Labs 发布的新一代 AI 图像生成模型,专为专业创意工作流程打造。模型支持最多 10 张参考图输入,能够生成最高 4MP 分辨率的高质量画面,并在细节刻画与文本渲染方面表现突出。基于视觉语言模型与流变换器架构的结合,FLUX.2 全面提升了图像生成的稳定性与真实感,为设计、广告与数字内容生产提供更高效的视觉创作能力。
在线运行:
项目示例
3. Supertonic:基于 ONNX 的极速 TTS 语音合成模型
Supertonic 是 Supertone 推出的本地文本转语音引擎,基于 ONNX Runtime 开发,重点优化低延迟与高并发表现。它在保证高质量语音合成的同时大幅降低硬件门槛,可在桌面端、服务器及边缘设备实现完全离线的实时推理。得益于其本地化特性,Supertonic 特别适用于隐私敏感场景及对实时交互要求较高的应用,如数字人、游戏语音与本地语音助手。
在线运行:
项目示例
4. Eigen-Banana:使用 Qwen-Image-Edit LoRA 快速图像编辑
Eigen-Banana-Qwen-Image-Edit 是 Eigen AI 推出的基于 Qwen-Image-Edit 的 LoRA 适配模型,面向高质量且高效率的文本驱动图像编辑。模型基于 Apple 的 Pico-Banana-400K 数据集训练,在物体调整、风格转换等多类编辑任务中表现优异,并通过减少推理步骤显著提升编辑速度。该模型适用于创意设计、图像增强与快速原型图生成等场景。
在线运行:
项目示例