公共资源速递
5 个公共数据集:
-
VOccl3D 三维人体遮挡视频数据集
-
Spatial-SSRL-81k 空间感知自监督数据集
-
WenetSpeech-Chuan 川渝方言语音数据集
-
MMSVGBench 多模态矢量图生成基准数据集
-
Fungi MultiClass Microscopic 真菌显微图像数据集
6 个公共教程:
-
基于手势识别的 3D 圣诞树
-
Dia2-TTS:实时语音合成服务
-
一键部署 Ministral-3-14B-Instruct
-
Ovis-Image:高质量图像生成模型服务
-
Z-Image-Turbo:高效 6B 参数图像生成模型
-
VibeVoice-Realtime TTS:实时语音合成服务
访问官网立即使用:openbayes.com
公共数据集
该数据集共包含超过 25 万张图像和约 400 段视频序列,由背景场景、人类动作与多样化贴图共同构建。
在线使用:
数据集示例
该数据集共包含 81,053 条自动生成的问答样本,涵盖多种问题形式,包括排序任务、带图像选项的多选题以及带文本选项的多选题,覆盖多样化的室内与室外真实场景。
在线使用:
数据集示例
该数据集共包含 10,013 小时的真实川渝方言语音,其中包括 3,714 小时的强标签数据和 6,299 小时的弱标签数据。所有语音均附带丰富的标注信息,如文本内容、置信度、音质评分、说话人的性别与年龄,以及情绪标签等。
在线使用:
数据集示例
该数据集共包含 600 条测试样本,每条样本都包含完整的输入信息与元数据,包括唯一标识、图像或文本输入、任务类型、类别标签(如图标或插画),以及数据来源的 URL。
在线使用:
5.Fungi MultiClass Microscopic 真菌显微图像数据集
该数据集共包含 6,801 张真菌显微图像,覆盖 5 个真菌类别(H1、H2、H3、H5、H6)。数据集分为训练集、验证集和测试集,训练集共 5,000 张,类别均衡(每类 1,000 张);验证集共 899 张,类别分布不均衡;测试集共 902 张,同样存在不均衡性。
在线使用:
数据集示例
公共教程
Ovis-Image 采用多尺度 Transformer 编码器与自回归生成架构,在高分辨率图像生成、细节表现及多风格适配能力上表现卓越。
在线运行:
项目示例
Dia2-TTS 可直接输入连续多轮对话脚本,生成自然连贯、角色音色一致的高质量语音,适用于虚拟客服、语音助手、AI 配音、短剧生成等应用场景。
在线运行:
项目示例
3.VibeVoice-Realtime TTS:实时语音合成服务
VibeVoice-Realtime TTS 采用一种新颖的次令牌扩散方法,用于在长篇多说话者语音合成中建模连续数据,并引入高效的连续语音分词器,使模型能够在 64K 上下文窗口内生成长达 90 分钟的语音,最多支持 4 名说话者,同时在保持音频忠实度的前提下大幅提升计算效率,捕捉真实对话氛围。
在线运行:
项目示例
4.Z-Image-Turbo:高效 6B 参数图像生成模型
该模型以仅 6B 的参数规模,实现了与 20B 以上参数闭源旗舰模型相媲美的性能,特别擅长生成高保真度的照片级真实人像。
在线运行:
项目示例
5.一键部署 Ministral-3-14B-Instruct
Ministral-3-14B-Instruct-2512 是由 Mistral AI 发布的多模态模型。支持多模态(文本和图像)与多语言功能,具有高性能和高性价比。
在线运行:
项目示例
该项目基于 React 和 Three.js(R3F)构建,通过先进的 AI 手势识别技术,用户可以轻松用手势控制圣诞树的形态变化(聚合与散开)以及视角的自由旋转。
在线运行:
效果展示