AI

AI/GPT/OpenCV

等 36 人订阅共80篇文章创建于2022-01-27

音视频字幕同步之从“理想模型”到“工程现实”的进化之路

在上一篇文章中，我们探讨了实现视频配音自动化同步的基本思路，并构建了一个初步的框架。那个框架的核心思想是“解耦”：将流程拆分为准备、决策、执行、合并四个独立的阶段。这个架构让我们摆脱了脆弱的单循环逻

11月前
264
1
评论

音视频字幕同步之从“理想模型”到“工程现实”的进化之路

为 Index-TTS 打造一个开箱即用的 Windows 整合包：从环境隔离到依赖难题的解决

Index-TTS 是一个非常优秀的开源零样本语音合成（TTS）项目，特别是在中文处理方面，能够有效纠正多音字的读音，并且音质和声音相似度都表现优异。对于希望在自己应用中集成高质量语音能力

11月前
4.9k
4
2

为 Index-TTS 打造一个开箱即用的 Windows 整合包：从环境隔离到依赖难题的解决

当AI配音遇上视频：实现音画同步的自动化工程实践

将一种语言的视频，配上另一种语言的语音，已经变得越来越普遍。无论是知识分享、影视作品还是产品介绍，好的本地化配音能极大地拉近与观众的距离。但这背后，一个棘手的问题始终存在：如何实现音画同步？语言的差

11月前
798
3
评论

当AI配音遇上视频：实现音画同步的自动化工程实践

用Gemini攻克小语种语音识别，生成广播级SRT字幕

本文将呈现一个经过反复实战验证的“混合架构”解决方案： faster-whisper的精准语音活动检测（内置的sileroVAD）：只利用其最擅长的部分——以毫秒级精度定位人声的起止时间。

11月前
712
2
评论

用Gemini攻克小语种语音识别，生成广播级SRT字幕

Whisper断句不够好？用AI LLM和结构化数据打造完美字幕

结合Whisper的字级时间戳功能与大语言模型（LLM）的强大理解能力，打造一个能智能断句、优化文本并输出结构化数据的全自动字幕处理管道

11月前
996
点赞
评论

Whisper断句不够好？用AI LLM和结构化数据打造完美字幕

Gemini无法使用之 “Failed to list models: permission denied” 区域限制排查指南

一大早打开 Google Gemini 准备开始呼叫AI起来干活，却被一行冰冷的 Failed to list models: permission denied 错误提示和随之而来的区域限制页面泼了

12月前
23k
1
2

Gemini无法使用之 “Failed to list models: permission denied” 区域限制排查指南

Cannot find an appropriate cached snapshot folder？一篇文章彻底搞定huggingface下载难题

程序在你的电脑本地缓存目录中，没有找到它需要的模型文件，禁止了它联网去 Hugging Face Hub 下载这些文件

12月前
983
1
评论

Cannot find an appropriate cached snapshot folder？一篇文章彻底搞定huggingface下载难题

Parakeet-tdt-0.6b: 构建比 Whisper 更快、更准的私有化英文语音转录服务

在当今的 AI 应用中，语音转录（STT）已成为一项基础能力。OpenAI 的 Whisper 模型以其多语言支持和高准确性闻名，但在特定场景下，我们是否还有更好的选择？答案是肯定的。

12月前
686
点赞
评论

Parakeet-tdt-0.6b: 构建比 Whisper 更快、更准的私有化英文语音转录服务

Gemini CLI 国区使用常见问题解决方法

本文着重解决国内用户在安装和使用过程中可能遇到的网络、登录和配置问题。同时，也会简单讨论与 Claude Code 的核心差异，以及为什么 `gemini-cli` 是更佳选择。

1年前
18k
10
3

Gemini CLI 国区使用常见问题解决方法

国内使用 Gemini CLI 常见登录授权失败：安装与排错指南

国内使用 Gemini CLI 常见登录授权失败,网络问题优先排查,在受限网络环境下，遇到连接超时问题，首先应检查代理或 VPN 的稳定性。

1年前
44k
45
20

国内使用 Gemini CLI 常见登录授权失败：安装与排错指南

Whisper 模型推理终极加速指南：CTranslate2 从入门到精通

如果你已经使用过 OpenAI 的 Whisper 模型，你一定对其惊人的识别准确率印象深刻。但在本地或服务器上运行推理时，它速度慢、资源占用高。通过 CTranslate2 转换，可以在几乎不损失精

1年前
1.5k
点赞
评论

Whisper 模型推理终极加速指南：CTranslate2 从入门到精通

FunASR离线部署踩坑：修复离线加载与GUI集成的两大关键补丁

在当今的AI应用开发中，高质量的语音识别（ASR）技术是许多产品的核心竞争力。特别是对于中文场景，阿里达摩院开源的FunASR项目效果非常出色。 FunASR 并非单一的模型，而是一个功能全面的基础语

1年前
2.1k
3
评论

FunASR离线部署踩坑：修复离线加载与GUI集成的两大关键补丁

当PySide6遇上ModelScope：一场关于 paraformer-zh is not registered 的调试旅程

如果你正在开发一个PySide6应用，并且需要调用像Funasr或ModelScope这样的重型AI库，那么请坐好，泡杯咖啡。你很可能即将或正在经历一场我刚刚从地狱难度中通关的调试之旅。故事的开端平

1年前
557
点赞
评论

当PySide6遇上ModelScope：一场关于 paraformer-zh is not registered 的调试旅程

半开源语音克隆神器 MegaTTS3：安装难、用起来更难？手把手从安装到使用

MegaTTS3 是字节跳动开源的一个中英文语音克隆项目，效果相当不错。然而，官方的安装文档有些简略，尤其是在 Windows 系统上，许多用户反映安装困难。本教程旨在帮助大家解决这些问题

1年前
2.6k
点赞
评论

半开源语音克隆神器 MegaTTS3：安装难、用起来更难？手把手从安装到使用

Gemini API 响应内容被标记？安全过滤机制解析与优化

在使用 Gemini AI 执行翻译或语音识别等任务时，您可能会遇到 "响应内容被标记" 等报错信息，如下图所示：这主要是因为 Gemini 对其处理的内容存在严格的安全限制。尽管我们可以在代码中进

1年前
3.6k
点赞
评论

Gemini API 响应内容被标记？安全过滤机制解析与优化

将edge-tts部署到cloudflare上，并兼容OpenAI TTS接口

玩配音的基本都知道，微软的edge-tts是好用免费的语音合成利器，唯一缺点是对国内限流越来越严，不过可以通过部署到 cloudflare 来规避，并且还能白嫖 cloudflare的服务器和带宽资源

1年前
1.3k
点赞
1

将edge-tts部署到cloudflare上，并兼容OpenAI TTS接口

实现一个用于cosoyVoice2的接口并兼容OpenAI TTS

cosyVoice是阿里开源的一个很棒的TTS项目，可以仅几秒音频样本即可克隆音色，最近更新到了cosyVoice2版本，相比之前有很大提升。简单更新了下对应的api接口文件，并添加了兼容 Open

1年前
3.0k
1
评论

实现一个用于cosoyVoice2的接口并兼容OpenAI TTS

基于 Docker 的 Edge-TTS 中转API，兼容 OpenAI TTS接口

微软 Edge 浏览器的大声朗读功能强大，支持多种语言和角色。基于此，开发者创建了 edge-tts Python 包，允许在程序中使用微软 TTS 服务为文字配音。然而，可能由于国内羊毛薅的太狠了

1年前
2.6k
3
1

基于 Docker 的 Edge-TTS 中转API，兼容 OpenAI TTS接口

从视频中“抠”出硬字幕：白嫖智谱AI大模型开发硬字幕提取软件

为视频添加字幕，如今借助语音识别技术（ASR）已变得相当便捷。特别是 OpenAI 的 Whisper 系列模型，在语音转文字方面表现出色，让自动生成字幕成为可能。然而，提取视频中已有的硬字幕（内嵌

1年前
1.3k
1
评论

从视频中“抠”出硬字幕：白嫖智谱AI大模型开发硬字幕提取软件

白嫖Google免费GPU结合faster-whisper快速将音视频转为srt字幕

Google Colab 是一个免费的云端编程环境，你可以把它想象成一台放在云端的电脑，可以运行代码、处理数据，甚至进行复杂的 AI 计算，比如把你的音视频文件通过大模型快速准确地转换成字幕。本文将

1年前
1.2k
2
评论

白嫖Google免费GPU结合faster-whisper快速将音视频转为srt字幕