转录工具
笔者平时用飞书妙记/豆包转录/get笔记等,进行语音录入。
- get笔记更适合手机端录入,并配合笔记系统进行整理,体验感不错,但网页端不支持语音录入,需要来回切换比较麻烦。
- 豆包手机端转录效果很好,但是回头翻记录进行整理,会比较麻烦。
- 飞书妙记进行录入和整理,内容多了也会不好整理。每月300分钟免费额度。
如果追求“知识管理”,更好的方案,显然是把转录功能按照自己平时的习惯集成到obsidian。 也是出于对whisper模型的好奇,就了解了一下whisper模型。
whisper的优势:
- 可以给音频增加时间戳,时间轴精准,字幕生成更友好。并可以通过脚本标识“识别置信度低”的部分,提醒自己二次人工核对。
- 可以把音频转录功能集成到自己的工作流之中。
- 本地跑whisper模型,则数据可以完全离线运行,安全性极高。
whisper的缺点:
- 原生模型不支持区分发言人,需要配合插件使用。
obdisian插件
Whisper插件:
- model 可根据本地GPU/CPU性能,配置为whisper对应的模型名称, 比如 base、medium、large、turbo等
如果配置本地模型:
- api key随便填写,本地模型不校验
- api url配置为 http://localhost:8000/v1/audio/transcriptions 。
如果配置为云端模型:
- 按照官方提供的url 和 key进行填写
ai-transcriber插件:
openai-o4mini价格(1M令牌代表100万token)
优点:
- 配置方便,价格透明。 缺点:
- 使用whisper,无时间戳的大概¥2.48/小时,有时间戳的大概¥4.96/小时。
- 不支持本地模型配置
Transcription插件
- 可以配置云端服务模型(仅支持swiftink),也可以配置本地模型(Whisper ASR)
本地服务配置
whisper本地服务
pip install faster-whisper-server
# 启动服务,默认会下载并使用 base 模型,你可以指定 large-v3
faster-whisper-server --model large-v3
本地whisper安装
安装命令
pip install -U openai-whisper
转录命令
whisper audio.wav --language Chinese --model medium
执行失败
大概看了下原因,大概是是显卡驱动或者CUDA版本冲突导致的,不想去解决。
总结:现在主流平台的免费额度,足够笔者本人使用,并且笔者也没有一定要构建工作流的需求。所以就先不搞了,先用主流平台的免费额度进行语音转换。
相关链接
openai-whisper项目: github.com/openai/whis… obdision ai-transcriber插件: github.com/mssoftjp/ob… obdision transcriber插件: github.com/djmango/obs… obdision whisper插件: github.com/nikdanilov/…