WizardLM-13B-v1.1测试

409 阅读1分钟

测试模型: WizardLM/WizardLM-13B-V1.1 at main (huggingface.co)

测试设备AutoDL A5000

  • PyTorch  2.0.0
  • Python  3.8(ubuntu20.04)
  • Cuda  11.8
  • GPU RTX A5000(24GB)
  • CPU15 vCPU AMD EPYC 7371 16-Core Processor
  • 内存28GB

运行代码参考自官方repo:WizardLM/WizardLM/src/inference_wizardlm.py at main · nlpxucan/WizardLM · GitHub

image.png 从该设备来看:

  • 预测运算时只需要大概15G的显存
  • GPU在运算时只用了24%
  • 运算时CPU处于100%状态
  • 每次运算需要3分钟左右的时间,
  • 加载模型时使用内存峰值为26G,也是模型的大小。这点在LLama模型上也有提到。

结论:还不清楚为什么生成答案如此慢。尝试了更好的机器,但是也没能提升生成答案的速度。回答问题质量上,也能基本满足我的要求,但是对比ChatGPT还是有一定差距。不确定130G的30B的模型效果如何。