实测Ollama和vLLM大模型推理性能对比Ollama和vLLM是目前最常见的两个大模型部署工具，在部署大模型推理服务

在部署大模型推理服务的时候，选择合适的部署工具可以让我们事半功倍，怎么在对应的场景下选择合适的部署工具，用于平衡部署的成本和推理的性能？

Ollama和vLLM是目前最常见的两个大模型部署工具，我们先问问DeepSeek看看这两个部署工具的功能特性，分别适用于什么场景？

这里选择英伟达的RTX 3090比较Ollama和vLLM这两个工具在大语言模型推理场景下性能表现，控制同样的模型、同样的API推理参数，并测试并发调用下的性能表现。

在GPU算力租用平台晨涧云(https://mornai.cn/) 分别租用3090显卡资源的Ollama和vLLM的云容器进行测试。

这里选择 Qwen3的模型进行测试，考虑到3090的显存是24GB，选择一个FP16精度的qwen3:8b模型进行测试。

借助DeepSeek 生成测试脚本，调整脚本控制变量：

然后就可以执行推理性能测试脚本，查看输出结果。

3090-Ollama大模型推理测试结果.png

3090-vLLM大模型推理测试结果.png

vLLM的显存占用比Ollama略高，GPU使用率比较接近，主要比较平均响应时长及平均Token生成速度两个指标：

	Batch Size	1	8	16
响应时长(s)	Ollama	5.68	7.64	15.6
响应时长(s)	vLLM	5.44	5.82	6.42
响应时长(s)	差异	104.4%	131.3%	243.0%
Token生成速度(tokens/s)	Ollama	45.1	268.0	262.9
Token生成速度(tokens/s)	vLLM	47.1	351.9	638.4
Token生成速度(tokens/s)	差异	95.6%	76.2%	41.2%

——Ollama的并发数量超过8之后有明显的性能瓶颈，调整 OLLAMA_NUM_PARALLEL 参数还是上不去，不知道是不是需要调整其他参数。

总体来说，顺序调用场景（Batch Size=1）Ollama和vLLM性能接近；并发调用场景vLLM的性能完胜，而且并发度越高的场景下vLLM的性能优势越明显。

这个测试基于单卡的推理场景，多卡下面并发调用的性能表现可能又会有差异。