低功耗实时交互:Granite 4.0 轻量级语音模型新基座;OmniCoder-9B 跨语言映射,实现补全一致性

0 阅读4分钟

公共资源速递

7 个公共教程:

  • LTX-2.3-turbo 视频生成器

  • Voxtral-4B-TTS-2603 多语言语音生成

  • Cohere Transcribe:生产环境下的开源语音识别利器

  • IBM Granite 4.0 1B Speech:离线语音识别与翻译部署

  • Fun-CineForge:多样化影视场景零样本配音统一模型

  • OmniCoder-9B:面向智能体编码任务的 9B 开源代码模型

  • 一键部署 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled

访问官网立即使用: openbayes.com

公共教程

1. LTX-2.3-turbo 视频生成器

LTX-2.3-turbo 是由 Lightricks 于 2026 年 3 月推出的开源视频生成基础模型,旨在突破开源视频生成模型的能力边界。该模型采用了先进的扩散变换器架构,结合多模态理解能力,实现了高质量、多分辨率的视频内容生成。

*** 在线运行:**

go.openbayes.com/5XxAP

图片

项目示例

2. Voxtral-4B-TTS-2603 多语言语音生成

Voxtral-4B-TTS-2603 是由 Mistral AI 于 2026 年 3 月发布的 4B 级文本转语音(TTS)模型,提供开放权重与多语言语音生成能力,支持将自然语言文本直接合成为可播放的语音音频。该模型面向语音代理、语音播报、内容配音与本地化 TTS 服务等场景,适合以标准化服务接口完成本地部署与调用。

在线运行:

go.openbayes.com/cj2xM

图片

项目示例

3. Cohere Transcribe:生产环境下的开源语音识别利器

Cohere Transcribe 是由 Cohere 公司于 2026年 3 月开源的轻量化语音模型,这款模型拥有 20 亿参数,专为边缘设备设计,旨在打破以往语音模型因体积过大而导致的延迟瓶颈。Cohere Transcribe 在训练中涵盖了包括中文、日语、法语和希伯来语在内的 14 种语言。根据 ASR 排行榜的最新数据,该模型在性能指标上已经超越了 ElevenLabs Scribe 和阿里旗下的 Qwen3 等同类竞品。

在线运行:

go.openbayes.com/iu3EJ

图片

项目示例

4. IBM Granite 4.0 1B Speech:离线语音识别与翻译部署

Granite 4.0 1B Speech 是由 IBM Granite 团队于 2026 年 3 月发布的约 10 亿参数级别的轻量语音模型,面向多语言自动语音识别与双向语音翻译任务,重点覆盖英语、法语、德语、西班牙语、葡萄牙语和日语等语言场景。该模型强调在资源受限设备上的部署可行性,适合以本地权重目录配合标准化服务接口的方式完成离线部署与调用。

在线运行:

go.openbayes.com/dQVMH

5. Fun-CineForge:多样化影视场景零样本配音统一模型

Fun-CineForge 是由通义实验室语音团队和中国科学技术大学于 2026 年 1 月联合推出的零样本影视配音项目。该项目包含一个生产大规模配音数据集的端到端数据集管道,和一个基于多模态大模型(Large Multimodal Model, LMM)的配音模型,专为多样的电影场景而设计。

在线运行:

go.openbayes.com/lyNJH

图片

项目示例

6. OmniCoder-9B:面向智能体编码任务的 9B 开源代码模型

OmniCoder-9B 由 Tesslate 于 2025 年 9 月发布,是一个 9B 参数的代码智能体模型,构建在 Qwen3.5-9B 的混合架构之上,定位为可在单卡环境中部署的开源编码助手。OmniCoder-9B 面向真实软件工程场景进行了定向微调,强调多步推理、终端操作、工具调用与代码修改流程中的连贯性。它尤其适合需要「先理解,再修改,再验证」的编码任务,而不是只输出一次性答案。

在线运行:

go.openbayes.com/urkbS

图片

项目示例

7. 一键部署 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled

Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled 是由 Jackrong 于 2026 年 3 月基于 Qwen3.5-27B 基座模型,融合 Claude-4.6 和 Opus 推理能力进行知识蒸馏后得到的高性能对话模型。该模型在保持原有语言理解能力的基础上,显著增强了复杂推理能力和对话交互体验。

在线运行:

go.openbayes.com/m8oHD

图片

项目示例