测试模型: WizardLM/WizardLM-13B-V1.1 at main (huggingface.co)
测试设备AutoDL A5000
- PyTorch 2.0.0
- Python 3.8(ubuntu20.04)
- Cuda 11.8
- GPU RTX A5000(24GB)
- CPU15 vCPU AMD EPYC 7371 16-Core Processor
- 内存28GB
运行代码参考自官方repo:WizardLM/WizardLM/src/inference_wizardlm.py at main · nlpxucan/WizardLM · GitHub
从该设备来看:
- 预测运算时只需要大概15G的显存
- GPU在运算时只用了24%
- 运算时CPU处于100%状态
- 每次运算需要3分钟左右的时间,
- 加载模型时使用内存峰值为26G,也是模型的大小。这点在LLama模型上也有提到。
结论:还不清楚为什么生成答案如此慢。尝试了更好的机器,但是也没能提升生成答案的速度。回答问题质量上,也能基本满足我的要求,但是对比ChatGPT还是有一定差距。不确定130G的30B的模型效果如何。