原来老旧电脑不仅仅是慢的问题,要发挥大模型的威力还会遇到相当的困难。
在图像生成上,经过多方选择比较,我最终选定使用 stable_diffusion.cpp 。
最主要原因是硬件限制,另一个原因是我想最终整合到工作流中,所以没有 CLI 的独立工具基本不考虑。
拉取代码和编译过程都还算顺利,当然中间也踩了不少坑。但到了获取模型并生成这一步就非常困难.
首先,寻找模型就不太容易,现在已经很少有专为这种老旧硬件优化的模型了,很多链接已经失效,可用的下载都很难找到。
其次,Intel 芯片的 Mac Book Pro 已经过于落后,对大模型的支持非常差,折腾了半天,始终没有办法在 GPU 上正常运行。尽管只有可怜的 4G 显存,但还是运行不了。
最终只能采取全 CPU 模式,但代价就是半个小时才能出一张图。
如果要在这个基础上做提示词工程或反复改动,几乎是不可能的。
原本我以为 12 分钟生成一个故事已经很慢了,没想到图片生成更夸张。
所以后续有两个调整方向:
- 尝试通过 LoRA 看能不能加快生成速度。
- 整个工程的逻辑需要变化。从故事生成到图片生成,都要采取一种后台静默生成、定期检查的方式。整个工程的流程和架构要从根本上重新设计。
具体踩了哪些坑,后续我会再整理出来一起发给大家,毕竟目前坑还没踩完。