vllm推理速度

17 阅读1分钟

14s推理完2040条数据 142it/s input 264780 token output 6648 token

vllm 0.13.0 模型qwen2-coder-7b-insturct