零抽样 TTS 新突破!几秒参考音频,OmniVoice 助你轻松克隆数百种语言;17 种语言一网打尽:MDPBench 解决低资源文字系统解析难的「心头大患」

0 阅读10分钟

现有的零样本文字转语音(TTS)模型通常只支持少数语言,忽略了大量低资源语言。为了打破这一局限,小米人工智能实验室新一代 Kaldi 团队推出了 OmniVoice——一款支持超过 600 种语言的大规模多语言零样本 TTS 模型 。 它摒弃了繁琐的传统两阶段级联架构,采用精简的单阶段离散非自回归(NAR)框架,将文本直接映射为声学标记 。依靠 58.1 万小时的纯开源数据训练,OmniVoice 实现了迄今为止最广泛的语言覆盖 。

目前,HyperAI 超神经官网已上线了「OmniVoice:支持 600+ 语言的高质量 TTS」,快来试试吧~

在线使用:go.hyper.ai/BvKri

欢迎登录官网查看更多内容:

https://hyper.ai

4 月 11 日-4 月 17 日,hyper.ai 官网更新速览:

*  优质公共数据集:11 个

*  优质教程精选:6 个

  • 社区文章解读:2 篇

  • 热门百科词条:5 条

  • 4 月截稿顶会:2 个

访问官网:hyper.ai

公共数据集精选

1. Stroke Risk 中风风险数据集

Stroke Risk 是一个面向医疗健康场景的中风风险分析与预测数据集。该数据集基于常见临床风险因素构建,包含人口统计信息、病史记录、生活方式因素及关键健康指标,反映个体在不同健康与生活方式条件下的中风发生概率,旨在支持机器学习模型对中风风险进行预测与分析,帮助识别关键影响因素,从而提升早期筛查与预防能力。

在线使用:go.hyper.ai/6CTH5

2. ToolACE 复杂工具学习对话数据集

ToolACE 是一个面向工具学习任务的自动化代理管道数据集,该数据集包含多步骤会话示例,共调用 26,507 个多样化 API 。样本通过多智能体交互生成,并经过规则检查 + 模型验证的双层质量保证。每条对话都是多步骤、多来源的信息检索与分析任务,真实模拟工具调用场景,为 LLM 提供高价值训练数据。

**在线使用: **go.hyper.ai/o3E12

3. CHOCLO 拉丁美州文化基准数据集

CHOCLO 数据集是一个专门用于评估语言模型中拉丁美洲文化知识掌握情况的基准数据集,旨在评估语言模型对拉丁美洲文化的表示准确性,尤其针对拉美文化在语言模型中被低估、易出现遗漏与偏见等现实问题进行设计。

**在线使用: **go.hyper.ai/pjVQi

4. DRACO 跨领域深度研究基准数据集

DRACO 数据集是由 Perplexity 团队发布的一个面向复杂研究任务评估场景的数据集,旨在系统评估深度研究系统在准确性、完整性和客观性方面的综合能力。

**在线使用: **go.hyper.ai/hIWgS

5. MDPBench 多语言文档解析基准数据集

MDPBench 是一个用于多语言数字和拍摄文档解析的基准数据集,旨在评估与提升模型在真实复杂场景下的多语言文档解析能力。

在线使用:go.hyper.ai/1Mc9a

6. World Model Bench 世界模型基准数据集

World Model Bench 是世界上第一个用于评估世界模型和具身人工智能系统认知能力的基准,旨在超越传统的图像和视频质量评估,专注于模型的认知能力。该数据集围绕世界模型能力评估构建,涵盖感知、认知与具身三大核心维度,细分为环境理解、实体识别与分类、基于预测的推理等 10 类任务,并设计 100 个多样化场景,用于系统性评估模型在复杂环境中的认知与决策能力。

在线使用:go.hyper.ai/hY0aP

7. Credit Card Fraud 信用卡欺诈检测数据集

Credit Card Fraud 是一个面向金融交易场景的信用卡欺诈检测数据集,旨在支持机器学习模型对异常交易的识别与建模,重点解决金融场景中类别极度不平衡的问题,从而提升模型在真实业务环境中的检测能力。

**在线使用: **go.hyper.ai/3d8nS

8. Spam Email Detection 垃圾邮件检测数据集

Spam Email Detection 垃圾邮件检测数据集是一个用于垃圾邮件识别任务的标注电子邮件数据集,该数据集旨在支持分类建模、自然语言处理与特征工程相关研究,提升模型对垃圾邮件的识别能力。

**在线使用: **go.hyper.ai/HkpX5

9. Simple Voice Questions 简单语音问题数据集

Simple Voice Questions 是由 Google 发布的一个简短音频数据集,该数据集为多语言语音数据集,包含 26 个地区的 17 种语言下的简短音频问题,共计约 700 名说话者,每人最多提供 250 条语音样本,涵盖阿拉伯语、英语、日语、韩语、印地语等多种语言,并包含安静环境、背景人声及交通噪声等多样化录音条件。

**在线使用: **go.hyper.ai/lrKpK

10. COCO-2017-Vietnamese 越南语图像检测数据集

COCO-2017-Vietnamese 是基于 Microsoft 提出的 Common Objects in Context 2017 数据集构建的一个越南语本地化扩展数据集,由 AI Enthusiasm 社区整理与发布。该数据集在原始英文图像描述的基础上引入高质量越南语翻译,提供了一个双语框架下的综合基准,适用于图像描述和多模态学习等任务。

**在线使用: **go.hyper.ai/VM6gY

11. GPT-5.4-step-by-step-reasoning 逐步推理数据集

GPT-5.4-step-by-step-reasoning 逐步推理数据集是一个高密度合成推理数据集,面向长链思维(CoT)建模与复杂问题求解任务。该数据集包含约 1,500 条精英级样本,覆盖数学、编程与医学等高复杂度领域,任务难度统一设定为「Grandmaster」及「Beyond-PhD」级别。

在线使用:go.hyper.ai/HjJlT

公共教程精选

1. OmniVoice:支持 600+ 语言的高质量 TTS

OmniVoice 是小米 AI Lab Next-gen Kaldi 团队推出的多语言文本转语音(Text-to-Speech, TTS)模型,支持超过 600 种语言的高质量语音合成。该项目基于迭代式非掩码解码(Iterative Unmasked Decoding)架构,实现了语音克隆(Voice Clone)、语音设计(Voice Design)和自动语音(Auto Voice)三大核心功能。

在线运行:go.hyper.ai/BvKri

Demo 页面

2. DeepTutor 个人学习助手

DeepTutor 是由香港大学数据智能实验室于 2026 年 3 月推出的个人学习助手,是一个全方位的 AI 驱动教学系统。该项目整合了四大核心功能模块:海量文档知识问答、交互式学习可视化、知识强化与练习题生成,以及深度研究与创意生成,为学习者提供一站式智能学习体验。

在线运行:go.hyper.ai/8YnI3

Demo 页面

3. VoxCPM2 音色复刻:30+语言、 9 大方言

VoxCPM2 是由 OpenBMB 于 2026 年 4 月发布的 2B 参数规模 tokenizer-free 文本转语音模型,支持 30 种语言、无需额外语言标签,还同时覆盖了从零生成新音色、基于参考音频进行可控克隆、结合参考音频与转写文本进行极致克隆,以及根据文本内容自动调整语气和表现力等多种使用场景。官方还特别强调了 48 kHz 输出、对 16 kHz 参考音频的兼容、上下文感知式表达。

在线运行:go.hyper.ai/RLgK9

Demo 页面

4. 一键部署 Nemotron-Cascade-2-30B-A3B

Nemotron-Cascade-2-30B-A3B 由 NVIDIA 于 2026 年 3 月发布,是一款 30B MoE 、约 3B activated parameters 的开源大语言模型,基于 Nemotron-3-Nano-30B-A3B-Base 后训练而来。模型的核心定位是提供强推理、对话、代码相关与 agentic 场景能力,并同时支持 thinking mode 与 instruct mode 两种使用方式。

在线运行:go.hyper.ai/GoEaW

Demo 页面

5. Netflix VOID:具备物理感知的革命性视频物体移除

Netflix VOID 是由 Netflix 团队与苏非亚大学(Sofia University)于 2026 年 4 月联合开源的视频编辑模型。 Netflix VOID 模型拥有 50 亿参数,专为解决电影后期制作中的物理一致性难题而设计,旨在打破传统视频补全技术在处理复杂物体交互时的因果逻辑局限。

在线运行:go.hyper.ai/uZoMl

Demo 页面

6. Fun-CineForge:多样化影视场景零样本配音统一模型

Fun-CineForge 是由通义实验室语音团队和中国科学技术大学于 2026 年 1 月联合推出的零样本影视配音项目。该项目包含一个生产大规模配音数据集的端到端数据集管道,和一个基于多模态大模型(Large Multimodal Model, LMM)的配音模型,专为多样的电影场景而设计。

在线运行:go.hyper.ai/DyQKk

Demo 页面

社区文章解读

1. AI 驱动从头设计多样化小分子结合蛋白,韩国团队发现能选择性识别压力激素的蛋白质

来自韩国科学技术院生物科学系的研究团队借助深度学习驱动的蛋白结构生成与序列设计方法,以 NTF2 样折叠(NTF2-like fold)为核心「通用 backbone」,从头设计(de novo)多样化的小分子结合蛋白,并进一步将其转化为类似化学诱导二聚化(CID)的传感器。研究人员成功设计了一种能够选择性识别压力激素皮质醇的蛋白质,并基于此开发了一种人工智能生物传感器。

查看完整报道:go.hyper.ai/FpAXm

2. 成功预测 239 万抗噬菌体蛋白,法国团队利用深度学习模型绘制细菌抗病毒免疫图谱

法国巴斯德研究所的研究人员开发并微调了三种互补的深度学习模型,用于大规模预测抗噬菌体功能。其中,ALBERT_DF 模型仅依赖局部基因组语境进行推断;ESM_DF 利用蛋白质语言模型解析氨基酸序列;GeneCLR_DF 则整合序列信息与基因组语境。

查看完整报道:go.hyper.ai/J5Oz3

热门百科词条精选

1.  技能 Skills

2.  地面真实值 Ground Truth

3.  人机回圈 Human-in-the-loop

4. 大规模多任务语言理解(MMLU)

5. 倒数排序融合 Reciprocal Rank Fusion

这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:

https://go.hyper.ai/wiki

4 月截稿顶会

一站式追踪人工智能学术顶会:go.hyper.ai/event

以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!

下周再见!

关于 HyperAI 超神经 (hyper.ai)

HyperAI 超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区, 致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:

  • 为 2100+ 公开数据集提供国内加速下载节点

  • 收录 700+ 经典及流行在线教程

  • 解读 300+ AI4Science 论文案例

  • 支持 700+ 相关词条查询

  • 托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅:

https://hyper.ai