mortimer

端茶倒水 | 大傻

到处搬砖，微信公众号( pyvideotrans )

获得徽章 26

赞

622

|

搜索文章

一键实现人声伴奏分离：基于 `uv`, `FFmpeg` 和 `audio-separator` 的高效解决方案

本文将分享一个用于音频源分离（特别是人声与伴奏分离）的自动化脚本和工作流。该方案利用了 audio-separator 库、FFmpeg 进行媒体预处理，并通过 uv 实现了一个免手动配置、依赖自包含

5月前
324
2
评论

一键实现人声伴奏分离：基于 `uv`, `FFmpeg` 和 `audio-separator` 的高效解决方案

视频翻译中的最后一公里：口型匹配为何如此难

AI视频翻译已自动化语音识别→翻译→语音合成→字幕嵌入，但口型不匹配的“违和感”仍会破坏沉浸。口型同步（Lip Sync），是视频翻译的“最后一公里”——看似短，却障碍重重。难点一：开源方案——高门

5月前
278
1
评论

视频翻译中的最后一公里：口型匹配为何如此难

搞懂FFmpeg中2个桀骜不驯的参数：CRF 与 Preset

无论你是视频创作者、后期工程师，还是仅仅想压缩一个网络视频，都无法回避视频编码。我们永远在**画质

5月前
930
3
评论

搞懂FFmpeg中2个桀骜不驯的参数：CRF 与 Preset

FFmpeg 拼接视频-记录我踩过的坑

MP4 不是视频，是“盒子” 很多人以为 MP4 就是视频，其实它是容器，像一个快递箱，里面可以装：视频流 → 通常是 H.264（AVC）音频流 → 通常是 AAC 字幕、章节、封面… 关键

5月前
741
5
4

FFmpeg 拼接视频-记录我踩过的坑

用 PySide6 打造可视化 ASS 字幕样式编辑器：从需求到实现

为什么要做一个 ASS 样式编辑器？在视频翻译、字幕制作、AI 配音后处理等场景中，ASS（Advanced SubStation Alpha）是事实上的工业标准字幕格式。它不仅支持丰富样式（颜色

5月前
486
点赞
评论

用 PySide6 打造可视化 ASS 字幕样式编辑器：从需求到实现

彻底搞懂「字幕」：从格式、软硬到嵌入，告别所有困惑

如果你曾被这些问题困扰，那么这篇文章就是为你准备的。我将用最清晰的逻辑和最易懂的语言，一次性讲透关于字幕的所有核心知识。第一站：先懂最核心的区别 —— 软字幕 vs. 硬字幕在讨论任何格式或工具之

5月前
3.4k
点赞
评论

彻底搞懂「字幕」：从格式、软硬到嵌入，告别所有困惑

牺牲质量换效率：视频翻译项目中音画同步模块的深度实现与思考

多语言的视频转换翻译，最大的难点是声音、画面、字幕对齐，不同语言的语速和表达习惯差异巨大，一句3秒的中文，翻译成英文可能需要4秒，即便同种语言，不同发音人，所需时长也不同。这就导致了配音时长和原始字幕

5月前
250
2
评论

牺牲质量换效率：视频翻译项目中音画同步模块的深度实现与思考

用PySide6 构建一个响应式视频剪辑工具：多线程与信号机制实战

从长视频中批量剪辑出精彩片段。传统的做法是打开笨重的剪辑软件手动操作，效率低下。作为一个开发者，我们自然会想：能不能写个脚本来自动化这个过程？当然可以。但如果想让这个工具更易用，一个图形用户界面是必

5月前
248
点赞
评论

用PySide6 构建一个响应式视频剪辑工具：多线程与信号机制实战

用一行 FFmpeg 命令，让噪音俯首，让语音转录更准确一点

我平时做语音转录，最头疼的就是噪声。录音里往往有风声、电流声、键盘声、回声……这些杂音一多，转录模型就容易漏听，甚至整句识别不出。网上的降噪方法很多，大多是基于“大模型”的 AI 降噪，比如 R

5月前
397
点赞
评论

用一行 FFmpeg 命令，让噪音俯首，让语音转录更准确一点

零依赖、高效率的语音转文字c++版 whisper.cpp (附批量处理脚本)

语音转录这个领域，OpenAI 的 Whisper 模型无疑是目前知名度最广、支持语言最多的选择。围绕 Whisper，也涌现出了许多优秀的衍生项目，比如 faster-whisper，以及支持说话

5月前
1.3k
3
评论

零依赖、高效率的语音转文字c++版 whisper.cpp (附批量处理脚本)

个人成就

优秀创作者

文章被点赞 591

文章被阅读 448,945

掘力值 7,708

加入于

2016-09-13