首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
AI
mortimer
创建于2022-01-27
订阅专栏
AI/GPT/OpenCV
等 35 人订阅
共74篇文章
创建于2022-01-27
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
一键实现人声伴奏分离:基于 `uv`, `FFmpeg` 和 `audio-separator` 的高效解决方案
本文将分享一个用于音频源分离(特别是人声与伴奏分离)的自动化脚本和工作流。该方案利用了 audio-separator 库、FFmpeg 进行媒体预处理,并通过 uv 实现了一个免手动配置、依赖自包含
用 PySide6 打造可视化 ASS 字幕样式编辑器:从需求到实现
为什么要做一个 ASS 样式编辑器? 在视频翻译、字幕制作、AI 配音后处理等场景中,ASS(Advanced SubStation Alpha) 是事实上的工业标准字幕格式。它不仅支持丰富样式(颜色
彻底搞懂「字幕」:从格式、软硬到嵌入,告别所有困惑
如果你曾被这些问题困扰,那么这篇文章就是为你准备的。我将用最清晰的逻辑和最易懂的语言,一次性讲透关于字幕的所有核心知识。 第一站:先懂最核心的区别 —— 软字幕 vs. 硬字幕 在讨论任何格式或工具之
牺牲质量换效率:视频翻译项目中音画同步模块的深度实现与思考
多语言的视频转换翻译,最大的难点是声音、画面、字幕对齐,不同语言的语速和表达习惯差异巨大,一句3秒的中文,翻译成英文可能需要4秒,即便同种语言,不同发音人,所需时长也不同。这就导致了配音时长和原始字幕
用PySide6 构建一个响应式视频剪辑工具:多线程与信号机制实战
从长视频中批量剪辑出精彩片段。传统的做法是打开笨重的剪辑软件手动操作,效率低下。作为一个开发者,我们自然会想:能不能写个脚本来自动化这个过程? 当然可以。但如果想让这个工具更易用,一个图形用户界面是必
用一行 FFmpeg 命令,让噪音俯首,让语音转录更准确一点
我平时做语音转录,最头疼的就是 噪声。 录音里往往有风声、电流声、键盘声、回声……这些杂音一多,转录模型就容易漏听,甚至整句识别不出。 网上的降噪方法很多,大多是基于“大模型”的 AI 降噪,比如 R
零依赖、高效率的语音转文字c++版 whisper.cpp (附批量处理脚本)
语音转录这个领域,OpenAI 的 Whisper 模型无疑是目前知名度最广、支持语言最多的选择。 围绕 Whisper,也涌现出了许多优秀的衍生项目,比如 faster-whisper,以及支持说话
从 Python+venv+pip 迁移到 uv 全过程 及 处理 torch + cuda 的跨平台指南
在 Python 开发中,传统上一直习惯使用 venv + pip 来管理虚拟环境和依赖项。这种方式 python 安装后自带,简单方便,但随着项目复杂化,尤其是涉及像 PyTorch 这样的库时,可
在 Windows 上部署 NVIDIA Parakeet-TDT 遇到的坑
Parakeet-TDT 是 NVIDIA NeMo 工具包中的一个语音识别模型,基于 Transformer 架构,适合转录英文语音到文字。它最大的优点是模型体积小,精度不错,速度也快,即使在纯 C
从预处理到合成:基于pySide6的视频翻译多线程流水线架构详解
pyVideoTrans 是一款功能强大的视频翻译工具,其核心设计思想是采用模块化、多线程流水线的架构,以实现高效、稳定且可扩展的视频处理流程。 一、 核心处理流程 软件的核心功能是将一个视频自动翻译
一次 ModelScope 替代 Hugging Face 的模型下载实战指南
Hugging Face Hub 无疑是AI模型库的黄金标准,然而,一个众所周知的事实是,由于网络限制,国内开发者访问 Hugging Face 的体验往往是“在漫长的等待中消磨意志”。社区镜像站 h
精通BAT脚本:为你的Windows AI项目打造“一键启动”的完美体验
在分发AI项目时,我们常常需要用户同时运行多个组件:一个Python后端API(如FastAPI或Flask)、一个前端开发服务器(如Vite或Next.js),有时还需要启动其他依赖服务。对于非技术
一次与“顽固”外部程序的艰难交锋:subprocess 调用exe踩坑实录
在面向Windows的软件开发中,调用外部可执行程序(.exe)是一个常见的需求。Python 的 subprocess 模块为我们提供了强大的工具。通常情况下,一切都很顺利。但当你遇到的那个 .ex
Hugging Face 下载模型踩坑记:从符号链接到网络错误
刚开始用 huggingface_hub 下载模型时,我以为一切都会很简单。一行代码,模型到手。但很快,一连串的报错和“意外”行为,让我不得不停下来,搞清楚它背后到底是怎么运作的。 这篇文章,就是我解
音视频字幕同步 之 从“理想模型”到“工程现实”的进化之路
在上一篇文章中 ,我们探讨了实现视频配音自动化同步的基本思路,并构建了一个初步的框架。那个框架的核心思想是“解耦”:将流程拆分为准备、决策、执行、合并四个独立的阶段。这个架构让我们摆脱了脆弱的单循环逻
为 Index-TTS 打造一个开箱即用的 Windows 整合包:从环境隔离到依赖难题的解决
Index-TTS 是一个非常优秀的开源零样本语音合成(TTS)项目,特别是在中文处理方面,能够有效纠正多音字的读音,并且音质和声音相似度都表现优异。 对于希望在自己应用中集成高质量语音能力
当AI配音遇上视频:实现音画同步的自动化工程实践
将一种语言的视频,配上另一种语言的语音,已经变得越来越普遍。无论是知识分享、影视作品还是产品介绍,好的本地化配音能极大地拉近与观众的距离。但这背后,一个棘手的问题始终存在:如何实现音画同步? 语言的差
用Gemini攻克小语种语音识别,生成广播级SRT字幕
本文将呈现一个经过反复实战验证的“混合架构”解决方案: faster-whisper的精准语音活动检测(内置的sileroVAD):只利用其最擅长的部分——以毫秒级精度定位人声的起止时间。
Whisper断句不够好?用AI LLM和结构化数据打造完美字幕
结合Whisper的字级时间戳功能与大语言模型(LLM)的强大理解能力,打造一个能智能断句、优化文本并输出结构化数据的全自动字幕处理管道
Gemini无法使用之 “Failed to list models: permission denied” 区域限制排查指南
一大早打开 Google Gemini 准备开始呼叫AI起来干活,却被一行冰冷的 Failed to list models: permission denied 错误提示和随之而来的区域限制页面泼了
下一页