首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
语音转文字
订阅
三九天
更多收藏集
微信扫码分享
微信
新浪微博
QQ
23篇文章 · 0订阅
Gemma 4 发布:Google 这次玩真的,4 种规模全开源,从手机到服务器都能跑。
Google DeepMind 又放大招了!4 月 2 日,Gemma 4 系列正式发布,这次真的是「全家桶」——从 23 亿到 307 亿参数,密集型 + MoE 混合专家架构全都有,上下文窗口最高
让AI“听懂”一小时会议并自动生成带发言人的逐字稿:VibeVoice-ASR长语音识别模型
VibeVoice 是微软开源的一个前沿语音 AI 模型家族。它旨在提供一个开源研究框架,以推动语音合成与识别领域的协作与发展。
中文语音识别该用谁?6 个开源模型 + 2 个配套工具,一文理清
导读 中文语音识别的开源方案越来越多,但它们不在同一个层面上——有的是模型,有的是工具包,有的是部署运行时。直接把它们摊在一张表里比"谁更好",容易越看越糊涂。本文把 6 个中文语音识别模型和 2 个
把 Whisper、Moonshine、SenseVoice 统统装进手机:sherpa-onnx 离线语音部署框架,GitHub 10.9K Star
语音 AI 模型更新很快——Whisper、Moonshine、SenseVoice、FireRedASR、Paraformer,几乎每个月都有新模型发布。但对开发者来说,选好模型只是第一步
Moonshine:比 Whisper 快 100 倍的端侧语音识别神器,Star 6.6K!
告别云端 API,语音识别也能跑在树莓派上? 还在为语音识别的高延迟、隐私泄露、API 调用费用发愁吗?来自 Moonshine AI 的开源项目 Moonshine Voice 给出了一个令人惊艳的
搞定语音识别,畅享高效处理 | 开源专题 No.78
语音识别技术的开源项目为我们提供了更多选择和可能性,包括基础工具包FunASR、高性能的Whisper.cpp、WhisperX具有单词级时间戳和说话人分离功能、AudioGPT用于理解和生成语音、音
用Python解锁微软Edge的文本转语音服务
近来,TTS模型工具给大家也分享了不少,对于一些小白或有需要的人是提供了一个额外的选项。 但作为编程人员/研发人员,或者需要集成TTS服务的人来说,好像又有点麻烦。 今天就为大家分享一个非常有趣的项目
6K star!这款TTS效果太炸裂,网上的声音真不能乱信了
今天我们分享一个开源TTS项目,它可以快速克隆声音,效果非常的炸裂,可以满足用户的个性化需求,它就是:Fish Speech
CosyVoice:阿里最强语音克隆模型体验并封装API接口
在中文TTS技术上,最近一年涌现出众多优秀方案,如GPT-SoVITS、ChatTTS和Fish TTS等,阿里新推出的CosyVoice,效果最佳。
ChatTTS:新手入门指南与详细使用教程
ChatTTS 文本转语音项目爆火出圈,引来大家极大的关注。短短三天时间,在 GitHub 上已经斩获了 9.2 k 的 Star 量。 本文为ChatTTS使用入门教程,可以快速上手使用