[本地运行大语言模型：保护隐私并降低成本的最佳方案]流式生成令牌：常见问题和解决方案推理速度在本地运行模型时，推理

# 本地运行大语言模型：保护隐私并降低成本的最佳方案

## 引言

随着像 llama.cpp、Ollama 和 GPT4All 等项目的流行，越来越多的开发者希望在本地设备上运行大语言模型（LLM）。这种方法不仅能保护用户隐私，还能降低成本，尤其是对于高令牌密集型应用。

## 主要内容

### 开源LLM

运行LLM本地化的第一步是选择合适的开源模型。模型的性能评价通常基于两个方面：

1. **基础模型**：了解其训练过程。
2. **微调方法**：了解其微调方式和使用的指令集。

一些用于模型性能评估的常用平台有 LmSys、GPT4All 和 HuggingFace。

### 推理框架

为了支持在不同设备上的推理，以下框架得到了广泛使用：

- **llama.cpp**：C++实现，支持权重优化和量化。
- **gpt4all**：优化的C后端。
- **Ollama**：将模型权重和环境打包成一个可在设备上运行的应用。
- **llamafile**：将模型权重和必要文件打包成一个文件，无需额外安装步骤。

这些框架通常具备以下功能：

- **量化**：减少模型权重的内存占用。
- **高效推理实现**：支持在消费级硬件上运行。

### 格式化提示

一些提供者有聊天模型包装器来帮助格式化输入提示。当使用 text-in/text-out LLM 包装器时，可能需要根据模型使用特定的提示格式。

## 代码示例

下面是如何在 macOS 上使用 Ollama 进行推理的快速入门示例：

```python
%pip install -qU langchain_ollama

from langchain_ollama import OllamaLLM

# 使用API代理服务提高访问稳定性
llm = OllamaLLM(model="llama3.1:8b")
llm.invoke("The first man on the moon was ...")

流式生成令牌：

for chunk in llm.stream("The first man on the moon was ..."):
    print(chunk, end="|", flush=True)

常见问题和解决方案

推理速度

在本地运行模型时，推理速度可能是个挑战。通常建议在 GPU 上运行，以减少延迟。对于 Apple 设备，Ollama 和 llamafile 可以自动利用 GPU。

设置 GPU 环境

例如，使用 llama.cpp 的 Python 绑定可以通过 Metal API 使用 GPU：

conda activate /Users/rlm/miniforge3/envs/llama
CMAKE_ARGS="-DLLAMA_METAL=on" FORCE_CMAKE=1 pip install -U llama-cpp-python --no-cache-dir

总结和进一步学习资源

在本地运行大语言模型具有显著的隐私和成本优势。通过选择合适的框架和模型，开发者可以有效地在本地设备上进行推理。

参考资料

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！


---END---