AI

AI/GPT/OpenCV

等 36 人订阅共80篇文章创建于2022-01-27

Python + FFmpeg 视频自动化处理指南：从硬件加速到精确剪辑

在 Python 中调用 subprocess.run 执行 FFmpeg 命令是视频自动化处理的常见方案。然而，面对 Windows/Linux/macOS 的跨平台兼容性、NVIDIA/Intel

6月前
506
点赞
评论

Python + FFmpeg 视频自动化处理指南：从硬件加速到精确剪辑

破局视频翻译【最后一公里】––从语音克隆到口型对齐的完整工程思路

ElevenLabs、HeyGen 等闭源服务已经把跨语言视频翻译体验推到近乎“完美”级别：嘴型精准同步、音色自然还原、画面完整不失真，几乎就是工业标准。但一旦涉及私有化部署或开源落地，现实

7月前
613
1
评论

破局视频翻译【最后一公里】––从语音克隆到口型对齐的完整工程思路

【实战复盘】 PySide6 + PyTorch 偶发性“假死”？由多线程转多进程

在开发 pyVideoTrans视频翻译工具的过程中，我遇到了一个困扰已久的“玄学”Bug。这个 Bug 最折磨人的地方在于：它不是必现的。在开发环境下单独测试，甚至在处理前几个视频时，一切都丝

7月前
211
1
评论

【实战复盘】 PySide6 + PyTorch 偶发性“假死”？由多线程转多进程

从零打造一款桌面实时语音转文字工具：PySide6 与 Sherpa-Onnx 的实践

最近，我一直在探索本地化、高性能的 AI 应用。今天分享我封装的一款极简桌面应用：一个支持中英混合的实时语音转文字（STT）工具。它完全在本地运行，延迟低，且能自动添加标点，非常适合会议、访谈记录或语

7月前
845
2
评论

从零打造一款桌面实时语音转文字工具：PySide6 与 Sherpa-Onnx 的实践

只需三步，动手搭建一个本地免费【实时语音转录】工具WhisperLiveKit

实时语音转文字，比如会议记录、课堂笔记，这类功能现在很常见，也是很多人感兴趣的热门方向。那么想不想动手部署一个开源、好玩的实时转录项目 —— WhisperLiveKit。它能让你在自己的电脑上轻

7月前
997
1
评论

只需三步，动手搭建一个本地免费【实时语音转录】工具WhisperLiveKit

faster-whisper本地转录简单方案

如果你正在寻找一个完全免费、在自己电脑上运行、并且转录效果顶尖的语音转字幕工具，那么你来对地方了。这份教程会手把手带你完成所有设置，过程非常简单！第一部分：准备工作（如果已有uv和ffmpeg可跳

7月前
483
点赞
评论

faster-whisper本地转录简单方案

一键实现人声伴奏分离：基于 `uv`, `FFmpeg` 和 `audio-separator` 的高效解决方案

本文将分享一个用于音频源分离（特别是人声与伴奏分离）的自动化脚本和工作流。该方案利用了 audio-separator 库、FFmpeg 进行媒体预处理，并通过 uv 实现了一个免手动配置、依赖自包含

7月前
488
2
评论

一键实现人声伴奏分离：基于 `uv`, `FFmpeg` 和 `audio-separator` 的高效解决方案

用 PySide6 打造可视化 ASS 字幕样式编辑器：从需求到实现

为什么要做一个 ASS 样式编辑器？在视频翻译、字幕制作、AI 配音后处理等场景中，ASS（Advanced SubStation Alpha）是事实上的工业标准字幕格式。它不仅支持丰富样式（颜色

8月前
712
点赞
评论

用 PySide6 打造可视化 ASS 字幕样式编辑器：从需求到实现

彻底搞懂「字幕」：从格式、软硬到嵌入，告别所有困惑

如果你曾被这些问题困扰，那么这篇文章就是为你准备的。我将用最清晰的逻辑和最易懂的语言，一次性讲透关于字幕的所有核心知识。第一站：先懂最核心的区别 —— 软字幕 vs. 硬字幕在讨论任何格式或工具之

8月前
4.9k
点赞
评论

彻底搞懂「字幕」：从格式、软硬到嵌入，告别所有困惑

牺牲质量换效率：视频翻译项目中音画同步模块的深度实现与思考

多语言的视频转换翻译，最大的难点是声音、画面、字幕对齐，不同语言的语速和表达习惯差异巨大，一句3秒的中文，翻译成英文可能需要4秒，即便同种语言，不同发音人，所需时长也不同。这就导致了配音时长和原始字幕

8月前
304
2
评论

牺牲质量换效率：视频翻译项目中音画同步模块的深度实现与思考

用PySide6 构建一个响应式视频剪辑工具：多线程与信号机制实战

从长视频中批量剪辑出精彩片段。传统的做法是打开笨重的剪辑软件手动操作，效率低下。作为一个开发者，我们自然会想：能不能写个脚本来自动化这个过程？当然可以。但如果想让这个工具更易用，一个图形用户界面是必

8月前
304
点赞
评论

用PySide6 构建一个响应式视频剪辑工具：多线程与信号机制实战

用一行 FFmpeg 命令，让噪音俯首，让语音转录更准确一点

我平时做语音转录，最头疼的就是噪声。录音里往往有风声、电流声、键盘声、回声……这些杂音一多，转录模型就容易漏听，甚至整句识别不出。网上的降噪方法很多，大多是基于“大模型”的 AI 降噪，比如 R

8月前
542
点赞
评论

用一行 FFmpeg 命令，让噪音俯首，让语音转录更准确一点

零依赖、高效率的语音转文字c++版 whisper.cpp (附批量处理脚本)

语音转录这个领域，OpenAI 的 Whisper 模型无疑是目前知名度最广、支持语言最多的选择。围绕 Whisper，也涌现出了许多优秀的衍生项目，比如 faster-whisper，以及支持说话

8月前
2.3k
3
评论

零依赖、高效率的语音转文字c++版 whisper.cpp (附批量处理脚本)

从 Python+venv+pip 迁移到 uv 全过程及处理 torch + cuda 的跨平台指南

在 Python 开发中，传统上一直习惯使用 venv + pip 来管理虚拟环境和依赖项。这种方式 python 安装后自带，简单方便，但随着项目复杂化，尤其是涉及像 PyTorch 这样的库时，可

8月前
772
2
评论

从 Python+venv+pip 迁移到 uv 全过程及处理 torch + cuda 的跨平台指南

在 Windows 上部署 NVIDIA Parakeet-TDT 遇到的坑

Parakeet-TDT 是 NVIDIA NeMo 工具包中的一个语音识别模型，基于 Transformer 架构，适合转录英文语音到文字。它最大的优点是模型体积小，精度不错，速度也快，即使在纯 C

8月前
425
1
评论

在 Windows 上部署 NVIDIA Parakeet-TDT 遇到的坑

从预处理到合成：基于pySide6的视频翻译多线程流水线架构详解

pyVideoTrans 是一款功能强大的视频翻译工具，其核心设计思想是采用模块化、多线程流水线的架构，以实现高效、稳定且可扩展的视频处理流程。一、核心处理流程软件的核心功能是将一个视频自动翻译

8月前
318
2
评论

从预处理到合成：基于pySide6的视频翻译多线程流水线架构详解

一次 ModelScope 替代 Hugging Face 的模型下载实战指南

Hugging Face Hub 无疑是AI模型库的黄金标准，然而，一个众所周知的事实是，由于网络限制，国内开发者访问 Hugging Face 的体验往往是“在漫长的等待中消磨意志”。社区镜像站 h

9月前
1.3k
点赞
评论

一次 ModelScope 替代 Hugging Face 的模型下载实战指南

精通BAT脚本：为你的Windows AI项目打造“一键启动”的完美体验

在分发AI项目时，我们常常需要用户同时运行多个组件：一个Python后端API（如FastAPI或Flask）、一个前端开发服务器（如Vite或Next.js），有时还需要启动其他依赖服务。对于非技术

9月前
366
点赞
评论

精通BAT脚本：为你的Windows AI项目打造“一键启动”的完美体验

一次与“顽固”外部程序的艰难交锋：subprocess 调用exe踩坑实录

在面向Windows的软件开发中，调用外部可执行程序（.exe）是一个常见的需求。Python 的 subprocess 模块为我们提供了强大的工具。通常情况下，一切都很顺利。但当你遇到的那个 .ex

10月前
444
1
1

一次与“顽固”外部程序的艰难交锋：subprocess 调用exe踩坑实录

Hugging Face 下载模型踩坑记：从符号链接到网络错误

刚开始用 huggingface_hub 下载模型时，我以为一切都会很简单。一行代码，模型到手。但很快，一连串的报错和“意外”行为，让我不得不停下来，搞清楚它背后到底是怎么运作的。这篇文章，就是我解

10月前
1.4k
1
评论

Hugging Face 下载模型踩坑记：从符号链接到网络错误