使用谷歌 gemini-pro-vision和gemini-pro或者 GPT4-vision以及 GPT4来解析某音视频内容

243 阅读1分钟

开源地址:github.com/disingn/cli… 

支持:

  • 某音去水印
  • 某音视频转文本(使用 gemini-pro-vision 或者 GPT4v )
  • geminikey 随机调用(多个)
  • OpenAI apikey 随机调用(多个)

目前已经对 GPT4v 进行兼容,注意:如果你不想花太多的钱,请不要使用 gpt4v 来解析!!!

实际测试,4v 消耗有点快

由于没啥时间,就没写 web 界面,后续有时间会完成 web 界面,以及兼容更多的视频平台

大概的思路:

  1. 对视频链接进行解析,解析出视频本体的url
  2. 使用 ffmpeg 对视频进行切片(这个是最重要的)
  3. 使用 gemini-pro-vision 或者 4v 来解析切片内容
  4. 将所有内容进行拼接(无序),再喂给 gemini-pro 或者 GPT4 进行进一步的补全和整理

感兴趣的大佬可以看看。

本人菜鸡,大佬勿喷

暂时没有写 web 界面,后续会把 web 界面写了,也会兼容更多的短视频平台

希望能给本项目点个 star!

谢谢