使用谷歌 gemini-pro-vision和gemini-pro或者 GPT4-vision以及 GPT4来解析某音视频内容

2024-01-11 243 阅读1分钟

开源地址：github.com/disingn/cli…

支持：

某音去水印
某音视频转文本（使用 gemini-pro-vision 或者 GPT4v ）
geminikey 随机调用（多个）
OpenAI apikey 随机调用（多个）

目前已经对 GPT4v 进行兼容，注意：如果你不想花太多的钱，请不要使用 gpt4v 来解析！！！

实际测试，4v 消耗有点快

由于没啥时间，就没写 web 界面，后续有时间会完成 web 界面，以及兼容更多的视频平台

大概的思路：

对视频链接进行解析，解析出视频本体的url
使用 ffmpeg 对视频进行切片（这个是最重要的）
使用 gemini-pro-vision 或者 4v 来解析切片内容
将所有内容进行拼接（无序），再喂给 gemini-pro 或者 GPT4 进行进一步的补全和整理

感兴趣的大佬可以看看。

本人菜鸡，大佬勿喷

暂时没有写 web 界面，后续会把 web 界面写了，也会兼容更多的短视频平台

希望能给本项目点个 star！

谢谢