ai 声频 - WingDust的收藏集 - 掘金

ai 声频

更多收藏集

43篇文章 · 0订阅

封神级 TTS！VoxCPM2 凭连续表征，玩转多语言合成 + 创意音色 + 无损声纹克隆

VoxCPM2 是 OpenBMB（面壁智能）联合清华大学深圳国际研究生院人机语音交互实验室（THUHCSI）等机构推出的开源 TTS（Text-to-Speech）模型，是 VoxCPM 系列的最新

Cosolar
14天前
117
1
评论

封神级 TTS！VoxCPM2 凭连续表征，玩转多语言合成 + 创意音色 + 无损声纹克隆

比官方还便宜！Riffusion 音乐 API 对接说明

本文将介绍一种 Riffusion Audios Generation API 对接说明，它是可以通过输入自定义参数来生成 Riffusion 官方的音乐。申请流程要使用 API，需要先到 Rif

崔庆才丨静觅
3月前
244
3
评论

用 Tauri + FFmpeg + Whisper.cpp 从零打造本地字幕生成器

背景：最近开始尝试做自媒体，录点视频。刚开始就遇到了字幕的问题，于是想先搞个字幕生成工具（为了这点醋才包的这顿饺子😄）：SubGen。这个工具用 Tauri + Rust 做外壳，把 FFmpeg

byteroycai
10月前
1.4k
16
9

用 Tauri + FFmpeg + Whisper.cpp 从零打造本地字幕生成器

告别按量付费：搭建一个无限免费的私人 TTS 服务

用自己的声音让 AI 读稿，我以前就有这个想法! 之前试过 ElevenLabs，效果确实好，但每个月 10 美元起步，用多了还得加钱。Azure 的 TTS 便宜点，但声音克隆要企业认证，个人用户压

一只会飞的旺旺
3月前
838
4
1

告别按量付费：搭建一个无限免费的私人 TTS 服务

12K+ Star的离线语音神器！50MB模型秒杀云端API，隐私零成本，20+语种支持！

云端语音 API 虽功能强，但痛点明显：网络依赖、高昂费用、隐私风险。如果有一款开源工具，既要轻量又能完全离线运行，还能识别人声，会不会让你的语音应用开发直接起飞呢。一款由Alpha Cephei

开源星探
11月前
1.0k
9
评论

很顶！零成本克隆你的声音，这款B站开源神器太强了

今天分享的内容，只有两个字形容：很顶。本期我们要干一件大事：在本地电脑上部署 B 站开源的顶流 TTS（语音合成）大模型，并结合 N8N 实现自动化调用。为什么要折腾本地部署？原因很简单，被云端

Java中文社群
5月前
1.0k
8
评论

很顶！零成本克隆你的声音，这款B站开源神器太强了

“音”你而变：Step-Audio-EditX，音频编辑的“魔法”新纪元！

朋友们，想象一下，如果你能像修图一样，随心所欲地“P”声音，那会是怎样一番景象？过去，这听起来像是科幻，但现在，阶跃星辰（StepFun）带来的Step-Audio-EditX，正在把这个梦想变为现实

小墨同学boy
6月前
112
点赞
评论

“小钢炮”驾到！VoxCPM：0.5B参数，震撼AI语音圈

最近，AI圈子里又炸开了锅。当大家还在追逐那些动辄千亿参数的语言大模型时，面壁智能和清华大学深圳国际研究生院人机语音交互实验室却悄悄扔出了一枚“小钢炮”——VoxCPM语音生成模型。这模型

小墨同学boy
8月前
433
点赞
评论

抄了AI语音克隆的家！本地部署、6G显存搞定、一键启动包免费放送

今天给大家带来几款AI语音克隆技术的硬核分享，包括本地部署教程，还有超方便的一键启动整合包。无论你是技术小白还是资深玩家，这篇干货都能让你轻松上手，克隆出属于自己的专属语音！ 1. Index-TTS

Zhikes
1年前
1.3k
2
1

抄了AI语音克隆的家！本地部署、6G显存搞定、一键启动包免费放送

CosyVoice 2.0：阿里开源升级版语音生成大模型，支持多语言和跨语言语音合成，提升发音和音色等的准确性

CosyVoice 2.0 是阿里巴巴通义实验室推出的语音生成大模型升级版，通过有限标量量化技术和块感知因果流匹配模型，显著提升了发音准确性、音色一致性和音质，支持多语言和流式推理。

蚝油菜花
1年前
1.4k
点赞
评论

CosyVoice 2.0：阿里开源升级版语音生成大模型，支持多语言和跨语言语音合成，提升发音和音色等的准确性