IndexTTS-2突破传统TTS模型情感表达和时长控制局限;LoongBench数据集含8K条样本,助力跨领域推理评测

137 阅读7分钟

公共资源速递

5 个公共数据集:

  • UQ 未解问题数据集

  • HH-RLHF 人类偏好数据集

  • Lung Cancer Risk 肺癌风险数据集

  • LoongBench 多领域推理基准数据集

  • Nemotron-Post-Training-Dataset-v2 后训练数据集

1 个公共模型:

  • ERNIE-4.5-21B-A3B-Thinking

10 个公共教程:

  • SRPO:图像生成告别 AI 味!

  • FastVLM:极速视觉语言模型

  • RFdiffusion2:蛋白质设计工具

  • HiDream-E1.1:指令式图片编辑器

  • RFantibody:抗体和纳米抗体设计工具

  • DeepTCR:深度学习预测 TCR-肽亲和力

  • Wan2.2-S2V-14B:影视级音频驱动视频生成

  • SEED-X-PPO-7B:强化学习优化的多语言翻译模型

  • IndexTTS-2:突破自回归 TTS 时长与情感控制瓶颈

  • ERNIE-4.5-21B-A3B-Thinking:轻量化模型推理能力再升级

访问网立即使用:openbayes.com

公共数据集

1. UQ 未解问题数据集

UQ 数据集由来自 Stack Exchange 平台的 500 个长期未解答问题构成,覆盖计算机科学理论、数学、科幻、历史等多主题,并采用「规则过滤 + LLM 评审 + 人工审核」收集管线,配套 UQ-Validators 用于候选答案的自动预筛与社区复核。

在线使用:

go.openbayes.com/rPDw0

数据集构建流程

2. HH-RLHF 人类偏好数据集

HH-RLHF 人类偏好数据集主要由两部分组成:有帮助/无害性数据集(有帮助性数据集旨在提高 AI 助手的实用性和响应质量。无害性数据集的目标是确保 AI助手不会产生有害、冒犯或不适当的内容)和红队对话数据集(记录了人类试图「破坏」AI 助手的对话,目的是测试和提高 AI 系统的鲁棒性)。

在线使用:

go.openbayes.com/Z1ch4

3. Lung Cancer Risk 肺癌风险数据集

Lung Cancer Risk 数据集包含 50,000 条基于已知肺癌风险因素(例如生活习惯、环境暴露和家族史等)的患者资料,其中阳性病例约占 25%,反映了现实中肺癌的患病率。

在线使用:

go.openbayes.com/p2NbI

4. LoongBench 多领域推理基准数据集

LoongBench 数据集包含 8,729 条以自然语言问题形式表达、覆盖高等数学、高等物理学、化学、计算生物学、编程等 12 个推理密集型领域,每条样本不仅附带可执行代码和经过验证的答案,还包括问题陈述、详细推理过程、最终解答,以及元数据(问题 ID 与领域信息)和领域标签。

在线使用:

go.openbayes.com/KT5PZ

数据集构成

5. Nemotron-Post-Training-Dataset-v2 后训练数据集

Nemotron-Post-Training-Dataset-v2 数据集将 SFT 与 RL 数据扩展到五种目标语言(西/法/德/意/日),覆盖数学、代码、 STEM(科学、技术、工程和数学)、对话等场景,用于提升模型的推理与指令跟随能力;并提供基于元数据的筛选功能与典型子集示例。

在线使用:

go.openbayes.com/tJwwl

公共模型

1. ERNIE-4.5-21B-A3B-Thinking

发布机构: 百度

ERNIE-4.5-21B-A3B-Thinking 总参数规模为 21B,但每个 token 仅激活 3B 参数,在高效计算与顶尖性能之间取得了出色平衡。该模型经过指令微调与强化学习训练,支持长达 128K token 的上下文窗口,使其特别擅长处理需要长文本理解和多步推理的复杂任务,如逻辑推理、数学计算、科学问题解答、代码生成与高质量文本创作。

在线使用:

go.openbayes.com/DGIzM

公共教程

1. SRPO:图像生成告别 AI 味!

SRPO 通过将奖励信号设计为文本条件信号,实现对奖励的在线调整,减少对离线奖励微调的依赖。SRPO 引入 Direct-Align 技术,通过预定义噪声先验直接从任何时间步恢复原始图像,避免在后期时间步的过度优化问题。在 FLUX.1.dev 模型上的实验表明,SRPO 能显著提升生成图像的人类评估真实感和审美质量,且训练效率极高,仅需 10 分钟即可完成优化。

在线运行:

go.openbayes.com/mqJAA

项目示例

2. FastVLM:极速视觉语言模型

FastVLM 模型引入 FastViTHD 新型混合视觉编码器,有效减少视觉 token 数量,显著降低编码时间。FastVLM 在保持与现有 VLM 相似性能的同时,大幅提升处理速度,例如在 LLaVA-1.5 设置中,相比其他模型,将首次生成 token 的时间(TTFT)缩短 3.2 倍。FastVLM 在多种 VLM 基准测试中表现出色,且模型尺寸更小,训练数据需求更少,展现在多模态理解任务中的高效性和实用性。

在线运行:

go.openbayes.com/Nsfqe

项目示例

3. RFdiffusion2:蛋白质设计工具

RFdiffusion2 不仅能够根据简单的化学反应描述,生成具有定制活性位点的酶骨架,还极大地突破了以往设计催化剂的技术瓶颈,为塑料降解等重大应用提供了强有力的技术支持。

在线运行:

go.openbayes.com/TRTFV

4. HiDream-E1.1:指令式图片编辑器

HiDream-E1.1 模型基于自研的 Sparse Diffusion Transformer 架构,支持百万像素级分辨率,采用 MIT 开源协议。该模型实现了「所说即所改」的自然语言图像编辑功能,用户无需专业软件操作技能,通过简单语言指令即可完成色彩调整、风格迁移、元素增减等复杂任务。

在线运行:

go.openbayes.com/Odv4A

项目示例

5. RFantibody:抗体和纳米抗体设计工具

RFantibody 的核心是利用深度学习技术,通过结构信息来预测和设计抗体的三维结构和氨基酸序列,从而开发出针对特定靶点的定制化抗体。RFantibody 可以广泛应用于生物医学研究、药物开发以及疫苗设计等领域。

在线运行:

go.openbayes.com/2NDnN

6. DeepTCR:深度学习预测 TCR-肽亲和力

该教程为 DeepTCR 的完整入门教程,不仅介绍了理论背景(TCR 结构与免疫学意义),还提供了安装步骤、数据加载方法、代码实例和可视化的完整流程,帮助快速上手进行 TCR 数据分析。

在线运行:

go.openbayes.com/1ml8h

7. Wan2.2-S2V-14B:影视级音频驱动视频生成

Wan2.2-S2V-14B 仅需一张静态图片和一段音频,能生成电影级数字人视频,视频时长可达分钟级,支持多种图片类型和画幅。用户通过输入文本提示,可对视频画面进行控制,让画面更丰富。模型融合多种创新技术,实现复杂场景的音频驱动视频生成,支持长视频生成及多分辨率训练与推理。

在线运行:

go.openbayes.com/w5dle

效果展示

8. SEED-X-PPO-7B:强化学习优化的多语言翻译模型

SEED-X-PPO-7B 核心目标是解决跨语言场景下的「高精度语义传递」需求。该模型突破了传统翻译模型在小语种适配、文化语境还原、长文本连贯性上的局限,支持中文、英语、德语、法语、西班牙语、日语、韩语等 28 种主流语言互译,在日常对话、专业文档(如技术手册、学术摘要)、多文化场景(如跨境营销文案)中均能保持优异的翻译质量。

在线运行:

go.openbayes.com/23Mk2

项目示例

9. IndexTTS-2:突破自回归 TTS 时长与情感控制瓶颈

IndexTTS-2 模型在情感表达和时长控制方面实现了重大突破,是首个支持精确时长控制的自回归 TTS 模型。支持零样本声音克隆,仅需一个音频文件即可精准复制音色、节奏和说话风格,支持多语言。IndexTTS-2 实现了情感音色分离控制,用户可以独立指定音色来源和情绪来源。模型具备多模态情感输入功能,支持通过情感参考音频、情感描述文本或情感向量来控制情感。

在线运行:

go.openbayes.com/J93nz

效果展示

10. ERNIE-4.5-21B-A3B-Thinking:轻量化模型推理能力再升级

ERNIE-4.5-21B-A3B-Thinking 采用了混合专家(MoE)架构,总参数规模达 21B,每个 token 激活 3B 参数,通过指令微调及强化学习训练。ERNIE-4.5-21B-A3B-Thinking 是在 ERNIE-4.5-21B-A3B 基础上训练的深度思考模型,支持 128K 的上下文窗口,适用于需要长上下文的复杂推理任务。该模型不仅在逻辑推理、数学、科学,代码与文本生成等需要人类专家的任务上实现了显著提升,还具备高效的工具调用能力,能够支持复杂任务的自动化处理。

在线运行:

go.openbayes.com/2AMdu

效果展示