借助AI打造高效短视频工作流,从抖音!小红书等日均提取2万+爆款视频文案

250 阅读8分钟

在短视频创作领域,紧跟热点、分析爆款文案至关重要。但是利用第三方如轻抖、通义等只能逐条提取视频文案,效率低下,难以应对批量采集批量提取的大规模数据要求。接下来我将分享我的工作流,如何通过本地部署 利用 whisper 或 sensevoice 实现日均提取抖音/小红书/B站视频号等视频文案 2 万+条。

整体工作流如下

  1. 视频作品采集: 使用RPA或者自己开发或者第三方工具等都可以,目的就是通过策略或者手动筛选获取到自己的对标视频

  2. 视频作品无水印解析及下载: 本地或者服务器部署开源项目,解析目标平台如抖音、小红书、B站等的视频链接,获取无水印视频地址并下载。

  3. 音频转换: 利用 ffmpeg 工具将下载的视频文件转换为音频文件,为后续语音识别做准备。

  4. 语音识别: 使用 whisper 或 sensevoice 等语音识别引擎将音频文件转录为文本。其中,sensevoice 速度更快,而 whisper large 相比准确率更高,可根据实际需求选择。

  5. 数据整理与AI重写等: 将识别出的文案信息根据实际需求使用AI进行清洗和格式化,导出为可供分析的数据格式

这套流程效率极高。以使用sensevoice为例,在我的 4070Ti super 显卡上,处理一条抖音小红书视频通常只需3-5秒,B站视频较长30秒内也可以转录完成。在开启并发的情况下,单日最多处理约2.6万条各类平台视频,总计超1000小时的数据。

硬件要求

为了保证文案提取的效率和速度,建议使用具备一定性能的硬件设备:

  • GPU: 建议选择 8G 以上显存的 GPU,充分发挥 whisper 和 sensevoice 的性能。本机实际转录的时候发现,16G 显存的 GPU 在处理大多数视频时,一般使用率在 40% 以上,8G 显存显然也能满足需求。

  • 内存: 建议 32 GB 以上内存,保证程序运行流畅。

前置环境准备

  1. 安装语音识别引擎:

    首先我们要安装faster-whisper 或 sensevoice,选一即可。

    • faster-whisper: 可以通过 PyPI 快速安装,首次运行时会自动下载模型文件。推荐使用 large-v3 模型,该模型参数量大,准确率相对较高,但硬件要求高,转录速度相对较慢。

    • sensevoice: 阿里开源的,引擎转录速度极快,一分钟的音频1秒左右即可完成,但准确率略低于 whisper。

  2. 部署平台视频解析工具 部署开源项目,通过作品链接获取作品详情,包括图片与无水印视频地址等。我是基于下面的项目进行魔改的,总体效果不错门槛也较低,省去了二次开发的投入:github.com/NanmiCoder/…

  3. 安装 ffmpeg: 用于视频和音频格式转换

下面是详细的安装教程

语音识别引擎安装

安装faster-whisper

faster-whisper地址:github.com/SYSTRAN/fas…

为了简单,我们直接从PyPI安装即可,就可以直接在脚本中使用了。我们执行:

如下即为安装完成

运行官方示例脚本,首次加载会下载对应模型,这里我自己使用的large-v3,这个模型参数大,准确率相对最高,但是转录速度也最慢,4分钟的视频要20S左右才能转录完成,相比之下sensevoice从来不会超过5S,当然whisper的准确率会比sensevoice高一些。

这里注意,如果你本地网络不好的话,可以自己先从hugging face上面下载模型,然后本地加载,

这时我们运行脚本,转录一条测试数据,发现已经转录成功了。

Sense voice 安装

sensevoice 安装相比会比较麻烦一些,首先我们进入到项目地址 github.com/FunAudioLLM…

一、使用git克隆代码

git clone github.com/FunAudioLLM…

如果本机没有有git,那么直接download zip也是可以的

二、创建环境和安装三方库:

  1. 安装Miniconda(如果安装过conda,可跳过)

下载地址: docs.anaconda.com/miniconda/

如果安装成功,输入conda --version,能返回conda版本号

2.创建虚拟环境、下载三方库:

在conda环境下执行以下命令安装第三方库

等待安装完成,我们就可以启动web ui了,启动完成后使用浏览器打开 http://127.0.0.1:7860/,这时候我们发现已经部署成功了

但是如果要嵌入到我们的工作流中,最好是API或者模块直接调用的方式,好在官方也提供了API启动的方式,我们可以设置GPU启动,为了测试我使用内存转录了一次,不知道是不是设置的原因,转录一次内存会占用至少40G,对于大部分人的电脑来说是很难达到这个配置要求的,所以这里暂时就不考虑了。

API启动方式:

接下来我们的转录环境就准备好了,就可以做视频无水印下载这块了

无水印下载

这里我主要是使用的github 开源的第三方项目,根据自己的实际需求魔改和适配了下,因为涉及到爬虫部分就不详细展开了。大家可以参考下面的这个地址的源项目:github.com/NanmiCoder/…

ffmpeg安装

ffmpeg的官方网站是:ffmpeg.org//download.h…

  1. 打开“环境变量”窗口: 右键点击“此电脑”,选择“属性”,在弹出的系统属性窗口中点击“高级系统设置”,然后点击“环境变量”按钮。

  2. 编辑系统变量 Path: 在“系统变量”区域找到名为“Path”的变量,选中后点击“编辑”按钮。

  3. 添加 ffmpeg 路径: 在弹出的“编辑环境变量”窗口中,点击“新建”,并将 ffmpeg 的 bin 文件夹路径(例如:E:\ffmpeg-6.1.1-full_build\bin)粘贴进去。请确保将路径替换为您实际安装 ffmpeg 的路径。

配置完成环境变量后点击确定,进行ffmpeg安装成功验证。打开命令提示符窗口。输入命令“ffmpeg –version”。如果命令提示窗口返回FFmpeg的版本信息,那么就说明安装成功了。

工作流组装:实现端到端自动化

接下来就是批量解析了,我们把上一步采集到的链接放到脚本目录下,或者从自己的采集源中进行转录,比如我的数据都保存到我的数据表中作为素材库使用,这是根据自己的实际业务需求自定义逻辑即可,下面是我使用cursor写的一个脚本,首先一个后台线程批量进行视频下载,然后一个多线程前端转录,这样下载和转录相互分开,增加转录速度。

下面是5个线程批量转录的硬件占用情况,,GPU占用大概在30-60之间,总体转录效率很OK,图二是开启三个线程的情况,转录100个抖音红书和B站视频,大概花了6分多钟,这其中包括了几个3G的长达一小时的B站视频。

随后开启了五个线程进行转录,一千条左右的视频大概花费40分钟左右,GPU始终没有超过60%,大家可以双击看到下面的转录文本,sensevoice会识别情绪和音乐,使用emoji进行标识,转录速度和准确率相对是比较均衡的,后面可以使用AI再次对这些文案进行优化和重写。总体效果达到预期。

下面是完整的下载和转录脚本,所有代码几乎都是借助cursor一次生成,大家可以参考。8666端口是视频解析的服务,基于上面提到的github爬虫部署,8000是sensevocie端口,用于转录,我们也可以使用faster whisper替换sensevoice,脚本如下:

下载脚本:

转录脚本:

包装接口,轻量级使用

批量转录虽然适合后台批处理作品,但操作流程上还可以进一步优化。未来计划开发更便捷的GUI集成界面,提升使用体验。

另外可能还有日常零散视频的轻量化处理需求,所以我想,干脆一不做二不休,直接在飞书和微信上做一个机器人方便自己随时使用,下面是我自己实现的效果,这里我们可以使用开源的wechatpy 或者基于hook协议去做,这块我就不展开了,github上面有许多基于wechatpy的项目,大家可以以此为关键词在github搜索一下魔改然后直接拿一个小号即可。

后续规划

  1. 智能分析:集成AI,实现文案主题分类、文案二次创作优化和分发

  2. 实时监控:开发实时监控系统,及时监控捕捉最新爆款文案

  3. **包装GUI:**更快速便捷地使用