真的有人用过codellama70b吗?

6 阅读1分钟

测试环境

机器: A800 * 8

抱怨

codellama-70b,推理速度巨慢,用ollama也经常卡死

在网上没有看见任何吐槽/分析其推理速度的文章

同样大小的qwen 72b无论使用transformers框架还是ollama,速度都远远快于codellama

TODO

分析一下为什么慢

不知道是不是没用GQA,有待确认