真的有人用过codellama70b吗? lvzi 2024-11-13 6 阅读1分钟 测试环境 机器: A800 * 8 抱怨 codellama-70b,推理速度巨慢,用ollama也经常卡死 在网上没有看见任何吐槽/分析其推理速度的文章 同样大小的qwen 72b无论使用transformers框架还是ollama,速度都远远快于codellama TODO 分析一下为什么慢 不知道是不是没用GQA,有待确认