边看、边听、边说,MiniCPM-0-4.5 全双工全模态模型;Pan-Cancer scRNA-Seq 涵盖三种生物学状态单细胞转录数据集

0 阅读8分钟

公共资源速递

3 个公共数据集:

  • Adverse Drug Reaction 模拟药物不良反应数据集

  • Pan-Cancer scRNA-Seq 癌症单细胞转录图谱数据集

  • Drone Sound Audio Detection 无人机音频检测数据集

12 个公共教程:

  • ACE-Step 1.5:音乐生成 Demo

* FoundationMotion 视频问答系统

  • MOSS-TTS:高保真多场景语音生成模型

  • Qwen3-ASR-1.7B:新一代语音识别系统

  • Z-lmage:阿里 60 亿参数开源文生图模型

  • GLM-OCR 轻量级多模态 OCR 识别系统

  • 使用 vLLM-Omni 部署 Qwen-Image-Edit

  • 使用 vLLM-Omni 部署 Qwen-Image-2512

* VibeVoice-ASR:多功能端到端语音识别 Demo

  • vLLM+Open WebUI 部署 Qwen3-Coder-Next

* Qwen3-TTS:高质量可控多语言语音合成 Demo

  • MiniCPM-o-4_5:面壁智能开源的全双工全模态模型

访问官网立即使用: openbayes.com

公共数据集

1. Adverse Drug Reaction 模拟药物不良反应数据集

该数据集用于模仿药物不良反应的药物警戒报告,旨在支持药物安全监测方面的研究、机器学习实验和算法开发。其中个案安全报告是基于真实世界的药物警戒系统启发人工生成的。特别强调严重 ADR 的稀有性和不平衡性:大多数报告属于轻微反应,而严重和致命的结果则较为罕见,这反映了后市场监控中常见的报告不足和严重性分布偏差。

在线使用:

go.openbayes.com/h5W08***

2. Pan-Cancer scRNA-Seq 癌症单细胞转录图谱数据集

该数据集包含 7,930 个单细胞的转录组表达数据,涵盖三种不同生物学状态:健康免疫基线、液体肿瘤以及实体肿瘤微环境,旨在构建一个跨队列整合的单细胞分析基准,为算法性能评估与方法学对比、多队列批次效应校正、免疫耗竭状态分析、跨肿瘤类型生物标志物挖掘提供基准。

在线使用:

go.openbayes.com/LdZ2Z

3. Drone Sound Audio Detection 无人机音频检测数据集

该数据集包含了未知和无人机这两类音频录音,旨在用于二元音频分类任务,检测真实环境中的无人机声音。该数据集中的音频文件以标准格式提供,适合用于诸如 Mel 频谱图提取、MFCC 特征提取、短时傅里叶变换以及原始波形深度学习模型等预处理技术。

在线使用:

go.openbayes.com/1rXMR

公共教程

1. ACE-Step 1.5:音乐生成 Demo

ACE-Step 1.5 是由 ACE Studio 与 StepFun 联合推出的开源音乐生成基础模型,旨在突破开源音乐生成模型的能力边界。该模型采用了创新的双阶段生成架构,通过融合扩散变换器(Diffusion Transformer, DiT)与语言模型(Language Model, LM)的协同工作,实现了高质量、长时长的音乐内容生成。

在线运行:

go.openbayes.com/188jt

图片

项目示例

2. FoundationMotion 视频问答系统

FoundationMotion 由英伟达和麻省理工学院联合推出,是一个基于 Qwen2.5-VL 微调的视频理解与问答系统,旨在实现对视频中空间运动的理解与推理。该模型通过融合视觉语言预训练技术,能够对上传的视频内容进行智能分析并回答相关问题。

在线运行:

go.openbayes.com/JjTiE

图片

项目示例

3. MOSS-TTS:高保真多场景语音生成模型

MOSS-TTS 是由 MOSI.AI 与 OpenMOSS 团队联合发布的开源语音生成模型系列。该项目将语音生成工作流分解为五个可独立使用或组合的生产级模型,包括核心的 MOSS-TTS 基础模型、MOSS-TTSD 多语言对话模型、MOSS-VoiceGenerator 音色设计模型、MOSS-SoundEffect 音效生成模型以及 MOSS-TTS-Realtime 实时交互模型。

在线运行:

go.openbayes.com/SVLyP

图片

项目示例

4. Qwen3-ASR-1.7B:新一代语音识别系统

Qwen3-ASR 是由阿里云通义千问团队推出的新一代开源端到端自动语音识别模型家族,基于 Qwen3-Omni 多模态基座与自研 AuT 语音编码器打造,专注于实现高精度、多语言、长音频与流式/非流式一体化的语音到文本转写能力。该模型以原始音频信号为输入,通过端到端架构直接映射为结构化文本输出,同时支持字/词级毫秒级时间戳对齐,适用于会议转写、智能字幕、客服语音归档、方言语音交互等众多场景。

在线运行:

go.openbayes.com/OywAb

图片

项目示例

5. Z-lmage:阿里 60 亿参数开源文生图模型

Z-Image 是由阿里巴巴通义千问团队发布的新一代高效图像生成模型。继 Z-Image-Turbo 蒸馏版本发布并在 Artificial Analysis 文本生图排行榜上取得开源模型第一名的优异成绩后,Z-Image团队正式开源 Z-Image 标准版。作为 Z-Image 系列的主要社区基础模型,标准版是非蒸馏的完整模型,在生成质量、风格灵活性和二次开发支持上更具优势,旨在为社区开发者提供一个强大且灵活的图像生成底座,释放更多定制化开发和精细微调的可能性。

在线运行:

go.openbayes.com/5GiKo

图片

项目示例

6. GLM-OCR:轻量级多模态 OCR 模型

GLM-OCR 是由智谱 AI 开源的 0.9B 轻量级多模态 OCR 模型,专注于复杂文档场景下的高精度文本识别与结构化解析。该模型以「小尺寸、高精度、易部署」为核心优势,基于 GLM-V 编码器 - 解码器多模态架构,融合自研 CogViT 视觉编码器与 RLHF 优化,在 OmniDocBench V1.5 评测榜单中以 94.62 分登顶 SOTA,性能接近 Gemini-3-Pro,适用于办公文档解析、教育科研公式识别、政务金融票据核验、代码片段提取等多类场景。

在线运行:

go.openbayes.com/FNIGB

图片

项目示例

7. 使用 vLLM-Omni 部署 Qwen-Image-Edit

Qwen-Image-Edit 是由阿里巴巴通义千问团队发布的全能图像编辑模型。模型兼具语义与外观的双重编辑能力,能进行低层次的视觉外观编辑(如添加、删除、修改元素)和高层次的视觉语义编辑(如 IP 创作、物体旋转、风格迁移等)。模型支持中英文双语文字的精准编辑,支持在保留原有字体、字号和风格的前提下修改图片中的文字。

在线运行:

go.openbayes.com/phaVp

图片

项目示例

8. 使用 vLLM-Omni 部署 Qwen-Image-2512

Qwen-Image-2512 是 Qwen-Image 系列中的一款 Text-to-Image(文本生成图像)基础模型,主要面向高质量图像生成与复杂多模态内容表达场景。其中,人像生成的自然程度显著增强,人物面部结构、皮肤质感与光影关系更加接近真实摄影效果;在自然场景中,模型能够生成更细腻的地貌纹理、植被细节以及动物毛发等高频信息;同时,模型在图像中文字的生成与排版能力上也有所改进,能够更稳定地呈现可读文本与较复杂的文字布局。

在线运行:

go.openbayes.com/aQnE6

图片

项目示例

9. Qwen3-TTS:高质量可控多语言语音合成 Demo

Qwen3-TTS-12Hz-1.7B-CustomVoice 是阿里巴巴 Qwen 团队推出的新一代高质量文本到语音基础模型,专注于在单一统一框架下实现:高自然度、低延迟的语音生成 该模型基于 12 Hz 声学建模框架,参数规模为 1.7B,在语音清晰度、韵律一致性与跨语言稳定性方面表现优异。模型能够在无需额外训练的情况下,直接在推理阶段切换预定义说话人,并结合自然语言风格指令实现更加精细的表达控制。

在线运行:

go.openbayes.com/SZ71r

图片

项目示例

10. vLLM+Open WebUI 部署 Qwen3-Coder-Next

Qwen3-Coder-Next 是由阿里云通义千问开源的轻量级代码生成大模型,专注于全场景编程辅助与代码生成任务。该模型以「高性能、低门槛、易部署」为核心优势,基于 Qwen3 大语言模型架构优化,融合代码领域专属的预训练数据与 RLHF 代码对齐优化,适用于算法编写、业务代码生成、代码注释补充、跨语言代码转换、Bug 修复等多类编程场景。

在线运行:

go.openbayes.com/VydTG

图片

项目示例

11. VibeVoice-ASR:多功能端到端语音识别 Demo

VibeVoice-ASR 是一款由 Microsoft 团队开源的高性能、多功能端到端语音识别模型,旨在为长音频内容提供结构化、上下文感知的语音转文本服务。该模型采用先进的统一音频建模架构,能够一次性处理长达 60 分钟的长音频,支持生成包含说话人身份、时间戳、转录内容的结构化输出,并允许用户提供上下文信息以提升识别准确率。

在线运行:

go.openbayes.com/5khYD

图片

项目示例

12. MiniCPM-o-4_5:面壁智能开源的全双工全模态模型

MiniCPM-o-4_5 是由面壁智能和清华大学自然语言处理实验室开源的 9B 参数全模态旗舰模型,采用端到端架构融合 SigLip2、Whisper、CosyVoice2 与 Qwen3-8B。作为行业首个支持「即时自由对话」的模型,模型实现了全双工交互——能边看、边听、边说,告别传统回合制「对讲机」模式。

在线运行:

go.openbayes.com/RZPpo

图片

项目示例