用了一年多,终于在业余时间摸索出个人微调的三个 LLM 分别实现多模态识别视频课件,多模态添加字幕,还有英中单模态翻译,准确率已经有点高的可怕了,后续应该基本不需要我人工干预了,可以专心享受技术视频了。但是微调的成本确实也很高,我在大部分使用本地电脑(顶配 Mac M2)试错的情况下,尽量减少云微调的次数,还是花了 2w USD。最近在公司内部推广使用 AI 优化需求,也是必须用 RAG 压缩成本,否则太贵了。下一步优化就不从微调去做了,而是将识别的保存在向量数据库,并拉取各种 release note 辅助识别,优化新技术名词出现的识别,估计又得业余摸索几年。
一个识别的例子:www.bilibili.com