最近我们公司的领导热爱分享一些鸡汤和培训视频让我们这些管理层学习。但是我们在群里也只能象征性的回复 “1” 或疯狂点赞。如果这个时候有人能在群里将这些内容做一个归纳总结发出来,岂不是能赢得领导的欢心?在职场还是要懂得如何拍马屁的。
说干就干!
要总结视频要点,就要先将视频中的音频转化为文字,然后将文字投喂给 AI,让 AI 帮我们总结归纳。
Whisper 是 AI 增强型语音识别工具,通过 Whisper 我们能够将音视频转换为纯文本。
安装
推荐在 WSL2 子系统中安装。
Whisper 使用 Python3.9.9 和 PyTorch 1.10.1 来训练和测试模型。为了获得更好的兼容性,我推荐使用相同的版本。
使用以下命令行可以下载并安装 Whisper 命令:
pip install -U openai-whisper
Whisper 还依赖 ffmpeg 命令行工具,在大多数操作系统中都可以直接通过包管理器进行安装:
# on Ubuntu or Debian
sudo apt update && sudo apt install ffmpeg
# on Arch Linux
sudo pacman -S ffmpeg
# on MacOS using Homebrew (https://brew.sh/)
brew install ffmpeg
# on Windows using Chocolatey (https://chocolatey.org/)
choco install ffmpeg
# on Windows using Scoop (https://scoop.sh/)
scoop install ffmpeg
如果你在安装过程中遇到 tiktoken 相关错误,那么你可能还需要安装 rust。
使用
安装完之后我们可以使用
whisper 培训视频.mp4 --language Chinese
文本内容它会直接存储到同级目录下的同名.txt文件中。
AI 总结
如果你本地也部署了大语言模型,那么你还可以写一个程序将整个逻辑串联起来,将提取的文本直接投喂给 AI 模型让 AI 帮忙总结。
我这里直接使用豆包,让豆包帮我总结了。