IndexTTS-2突破传统TTS模型情感表达和时长控制局限；LoongBench数据集含8K条样本，助力跨领域推理评测

ERNIE-4.5-21B-A3B-Thinking 总参数规模为 21B，但每个 token 仅激活 3B 参数，在高效计算与顶尖性能之间取得了出色平衡。该模型经过指令微调与强化学习训练，支持长达 128K token 的上下文窗口，使其特别擅长处理需要长文本理解和多步推理的复杂任务，如逻辑推理、数学计算、科学问题解答、代码生成与高质量文本创作。

在线使用：

go.openbayes.com/DGIzM

公共教程

1. SRPO：图像生成告别 AI 味!

SRPO 通过将奖励信号设计为文本条件信号，实现对奖励的在线调整，减少对离线奖励微调的依赖。SRPO 引入 Direct-Align 技术，通过预定义噪声先验直接从任何时间步恢复原始图像，避免在后期时间步的过度优化问题。在 FLUX.1.dev 模型上的实验表明，SRPO 能显著提升生成图像的人类评估真实感和审美质量，且训练效率极高，仅需 10 分钟即可完成优化。

在线运行：

go.openbayes.com/mqJAA

项目示例

2. FastVLM：极速视觉语言模型

FastVLM 模型引入 FastViTHD 新型混合视觉编码器，有效减少视觉 token 数量，显著降低编码时间。FastVLM 在保持与现有 VLM 相似性能的同时，大幅提升处理速度，例如在 LLaVA-1.5 设置中，相比其他模型，将首次生成 token 的时间（TTFT）缩短 3.2 倍。FastVLM 在多种 VLM 基准测试中表现出色，且模型尺寸更小，训练数据需求更少，展现在多模态理解任务中的高效性和实用性。

在线运行：

go.openbayes.com/Nsfqe

项目示例

3. RFdiffusion2：蛋白质设计工具

RFdiffusion2 不仅能够根据简单的化学反应描述，生成具有定制活性位点的酶骨架，还极大地突破了以往设计催化剂的技术瓶颈，为塑料降解等重大应用提供了强有力的技术支持。

在线运行：

go.openbayes.com/TRTFV

4. HiDream-E1.1：指令式图片编辑器

HiDream-E1.1 模型基于自研的 Sparse Diffusion Transformer 架构，支持百万像素级分辨率，采用 MIT 开源协议。该模型实现了「所说即所改」的自然语言图像编辑功能，用户无需专业软件操作技能，通过简单语言指令即可完成色彩调整、风格迁移、元素增减等复杂任务。

在线运行：

go.openbayes.com/Odv4A

项目示例

5. RFantibody：抗体和纳米抗体设计工具

RFantibody 的核心是利用深度学习技术，通过结构信息来预测和设计抗体的三维结构和氨基酸序列，从而开发出针对特定靶点的定制化抗体。RFantibody 可以广泛应用于生物医学研究、药物开发以及疫苗设计等领域。

在线运行：

go.openbayes.com/2NDnN

6. DeepTCR：深度学习预测 TCR-肽亲和力

该教程为 DeepTCR 的完整入门教程，不仅介绍了理论背景（TCR 结构与免疫学意义），还提供了安装步骤、数据加载方法、代码实例和可视化的完整流程，帮助快速上手进行 TCR 数据分析。

在线运行：

go.openbayes.com/1ml8h

7. Wan2.2-S2V-14B：影视级音频驱动视频生成

Wan2.2-S2V-14B 仅需一张静态图片和一段音频，能生成电影级数字人视频，视频时长可达分钟级，支持多种图片类型和画幅。用户通过输入文本提示，可对视频画面进行控制，让画面更丰富。模型融合多种创新技术，实现复杂场景的音频驱动视频生成，支持长视频生成及多分辨率训练与推理。

在线运行：

go.openbayes.com/w5dle

效果展示

8. SEED-X-PPO-7B：强化学习优化的多语言翻译模型

SEED-X-PPO-7B 核心目标是解决跨语言场景下的「高精度语义传递」需求。该模型突破了传统翻译模型在小语种适配、文化语境还原、长文本连贯性上的局限，支持中文、英语、德语、法语、西班牙语、日语、韩语等 28 种主流语言互译，在日常对话、专业文档（如技术手册、学术摘要）、多文化场景（如跨境营销文案）中均能保持优异的翻译质量。

在线运行：

go.openbayes.com/23Mk2

项目示例

9. IndexTTS-2：突破自回归 TTS 时长与情感控制瓶颈

IndexTTS-2 模型在情感表达和时长控制方面实现了重大突破，是首个支持精确时长控制的自回归 TTS 模型。支持零样本声音克隆，仅需一个音频文件即可精准复制音色、节奏和说话风格，支持多语言。IndexTTS-2 实现了情感音色分离控制，用户可以独立指定音色来源和情绪来源。模型具备多模态情感输入功能，支持通过情感参考音频、情感描述文本或情感向量来控制情感。

在线运行：

go.openbayes.com/J93nz

效果展示

10. ERNIE-4.5-21B-A3B-Thinking：轻量化模型推理能力再升级

ERNIE-4.5-21B-A3B-Thinking 采用了混合专家（MoE）架构，总参数规模达 21B，每个 token 激活 3B 参数，通过指令微调及强化学习训练。ERNIE-4.5-21B-A3B-Thinking 是在 ERNIE-4.5-21B-A3B 基础上训练的深度思考模型，支持 128K 的上下文窗口，适用于需要长上下文的复杂推理任务。该模型不仅在逻辑推理、数学、科学，代码与文本生成等需要人类专家的任务上实现了显著提升，还具备高效的工具调用能力，能够支持复杂任务的自动化处理。

在线运行：

go.openbayes.com/2AMdu

效果展示