语音转文字 - 三九天的收藏集 - 掘金

语音转文字

更多收藏集

23篇文章 · 0订阅

Gemma 4 发布：Google 这次玩真的，4 种规模全开源，从手机到服务器都能跑。

Google DeepMind 又放大招了！4 月 2 日，Gemma 4 系列正式发布，这次真的是「全家桶」——从 23 亿到 307 亿参数，密集型 + MoE 混合专家架构全都有，上下文窗口最高

suke
1月前
795
3
评论

Gemma 4 发布：Google 这次玩真的，4 种规模全开源，从手机到服务器都能跑。

让AI“听懂”一小时会议并自动生成带发言人的逐字稿：VibeVoice-ASR长语音识别模型

VibeVoice 是微软开源的一个前沿语音 AI 模型家族。它旨在提供一个开源研究框架，以推动语音合成与识别领域的协作与发展。

大厂技术总监下海
3月前
349
1
评论

中文语音识别该用谁？6 个开源模型 + 2 个配套工具，一文理清

导读中文语音识别的开源方案越来越多，但它们不在同一个层面上——有的是模型，有的是工具包，有的是部署运行时。直接把它们摊在一张表里比"谁更好"，容易越看越糊涂。本文把 6 个中文语音识别模型和 2 个

CoovallyAIHub
1月前
861
1
评论

中文语音识别该用谁？6 个开源模型 + 2 个配套工具，一文理清

把 Whisper、Moonshine、SenseVoice 统统装进手机：sherpa-onnx 离线语音部署框架，GitHub 10.9K Star

语音 AI 模型更新很快——Whisper、Moonshine、SenseVoice、FireRedASR、Paraformer，几乎每个月都有新模型发布。但对开发者来说，选好模型只是第一步

CoovallyAIHub
1月前
332
点赞
评论

把 Whisper、Moonshine、SenseVoice 统统装进手机：sherpa-onnx 离线语音部署框架，GitHub 10.9K Star

Moonshine：比 Whisper 快 100 倍的端侧语音识别神器，Star 6.6K！

告别云端 API，语音识别也能跑在树莓派上？还在为语音识别的高延迟、隐私泄露、API 调用费用发愁吗？来自 Moonshine AI 的开源项目 Moonshine Voice 给出了一个令人惊艳的

CoovallyAIHub
2月前
546
1
评论

Moonshine：比 Whisper 快 100 倍的端侧语音识别神器，Star 6.6K！

搞定语音识别，畅享高效处理 | 开源专题 No.78

语音识别技术的开源项目为我们提供了更多选择和可能性，包括基础工具包FunASR、高性能的Whisper.cpp、WhisperX具有单词级时间戳和说话人分离功能、AudioGPT用于理解和生成语音、音

开源服务指南
1年前
1.4k
5
评论

用Python解锁微软Edge的文本转语音服务

近来，TTS模型工具给大家也分享了不少，对于一些小白或有需要的人是提供了一个额外的选项。但作为编程人员/研发人员，或者需要集成TTS服务的人来说，好像又有点麻烦。今天就为大家分享一个非常有趣的项目

开源星探
1年前
1.2k
1
1

6K star！这款TTS效果太炸裂，网上的声音真不能乱信了

今天我们分享一个开源TTS项目，它可以快速克隆声音，效果非常的炸裂，可以满足用户的个性化需求，它就是：Fish Speech

IT咖啡馆
1年前
5.2k
68
评论

6K star！这款TTS效果太炸裂，网上的声音真不能乱信了

CosyVoice:阿里最强语音克隆模型体验并封装API接口

在中文TTS技术上，最近一年涌现出众多优秀方案，如GPT-SoVITS、ChatTTS和Fish TTS等，阿里新推出的CosyVoice，效果最佳。

mortimer
1年前
8.1k
21
9

CosyVoice:阿里最强语音克隆模型体验并封装API接口

ChatTTS：新手入门指南与详细使用教程

ChatTTS 文本转语音项目爆火出圈，引来大家极大的关注。短短三天时间，在 GitHub 上已经斩获了 9.2 k 的 Star 量。本文为ChatTTS使用入门教程，可以快速上手使用

迷人的少侠
1年前
9.4k
10
3

ChatTTS：新手入门指南与详细使用教程