whisper语音转录及obdisian相关插件

0 阅读2分钟

转录工具

笔者平时用飞书妙记/豆包转录/get笔记等,进行语音录入。

  • get笔记更适合手机端录入,并配合笔记系统进行整理,体验感不错,但网页端不支持语音录入,需要来回切换比较麻烦。
  • 豆包手机端转录效果很好,但是回头翻记录进行整理,会比较麻烦。
  • 飞书妙记进行录入和整理,内容多了也会不好整理。每月300分钟免费额度。

如果追求“知识管理”,更好的方案,显然是把转录功能按照自己平时的习惯集成到obsidian。 也是出于对whisper模型的好奇,就了解了一下whisper模型。

whisper的优势:
  • 可以给音频增加时间戳,时间轴精准,字幕生成更友好。并可以通过脚本标识“识别置信度低”的部分,提醒自己二次人工核对。
  • 可以把音频转录功能集成到自己的工作流之中。
  • 本地跑whisper模型,则数据可以完全离线运行,安全性极高。
whisper的缺点:
  • 原生模型不支持区分发言人,需要配合插件使用。

obdisian插件

Whisper插件:

- model 可根据本地GPU/CPU性能,配置为whisper对应的模型名称, 比如 base、medium、large、turbo等

如果配置本地模型

  1. api key随便填写,本地模型不校验
  2. api url配置为 http://localhost:8000/v1/audio/transcriptions

如果配置为云端模型:

  1. 按照官方提供的url 和 key进行填写
ai-transcriber插件:

openai-o4mini价格(1M令牌代表100万token)

优点

  • 配置方便,价格透明。 缺点
  • 使用whisper,无时间戳的大概¥2.48/小时,有时间戳的大概¥4.96/小时。
  • 不支持本地模型配置
Transcription插件
  • 可以配置云端服务模型(仅支持swiftink),也可以配置本地模型(Whisper ASR)

本地服务配置

whisper本地服务

pip install faster-whisper-server 
# 启动服务,默认会下载并使用 base 模型,你可以指定 large-v3 
faster-whisper-server --model large-v3

本地whisper安装

安装命令
pip install -U openai-whisper
转录命令
whisper audio.wav --language Chinese --model medium
执行失败

大概看了下原因,大概是是显卡驱动或者CUDA版本冲突导致的,不想去解决。

总结:现在主流平台的免费额度,足够笔者本人使用,并且笔者也没有一定要构建工作流的需求。所以就先不搞了,先用主流平台的免费额度进行语音转换。

相关链接

openai-whisper项目: github.com/openai/whis… obdision ai-transcriber插件: github.com/mssoftjp/ob… obdision transcriber插件: github.com/djmango/obs… obdision whisper插件: github.com/nikdanilov/…