AI的大模型部署主要有云端、PC 本地、手机端侧 三大场景。
*** 云端大模型(在线 API / 网页,最强能力)**
*** PC 本地大模型(Windows/macOS,GGUF 优先)**
*** 消费电子(手机端侧大模型Android/iOS,离线本地)**
一、云端大模型(闭源为主,API / 网页调用)
1. 主流模型
- 国际闭源
-
- GPT-5.4、GPT-4.5 Turbo(OpenAI)
- Claude Opus 4.6、Claude 3.5 Sonnet(Anthropic)
- Gemini 3.1 Ultra、Gemini 1.5 Flash(Google)
- 国产闭源
-
- 通义千问 3.5 Max/Pro(阿里)
- 文心一言 5.0(百度)
- 混元 2.0(腾讯)
- 豆包 4.0(字节)
2. 云端部署 / 调用工具
- 官方 API 平台
-
- OpenAI API、Anthropic API、Google Gemini API
- 阿里云通义千问 API、百度千帆 API、腾讯混元 API
- 第三方集成 / 管理工具
-
- LangChain:大模型编排、RAG、Agent 开发
- LlamaIndex:文档索引、检索增强、知识库
- Flowise:低代码可视化构建 LLM 工作流
- Dify:一站式 AI 应用开发(提示词、知识库、API)
- FastAPI/Flask:自建 API 网关,封装多模型调用
- 网页 / 客户端
-
-
ChatGPT、Claude、Gemini 网页版
-
通义千问、文心一言、豆包 App / 网页
-
二、PC 本地大模型(开源为主,7B–70B,离线运行)
1. 主流模型(2026)
- 通用基座
-
- Llama 3.1/4(8B/70B)、Qwen 3.5(7B/14B/32B/72B)
- Mistral-7B/13B、DeepSeek R1/Coder(7B/16B/33B)
- GLM 5(7B/13B/34B)、Yi 34B
- 轻量入门(无独显也可跑)
-
- Qwen 3.5 0.8B/1.8B、Gemma 4 2B/3B、MobileLLM 1.1B
2. PC 本地部署 / 运行工具(按易用度排序)
(1)一键式 GUI 工具
- Ollama(最流行)
-
- 一句话启动:
ollama run llama3.1/ollama run qwen3.5 - 支持 Windows/macOS/Linux,自动下载、量化、运行
- 内置 API,可对接 Chatbot、IDE 插件
- 一句话启动:
- LM Studio
-
- 可视化模型库、一键下载 / 运行、参数调节
- 支持 GGUF/GGML 量化,多模型并行
- 内置聊天界面,适合个人本地使用
- GPT4All
-
- 开源免费,内置大量轻量模型
- 纯 CPU 也可运行,适合轻薄本
- Text Generation WebUI(Oobabooga)
-
-
功能最全的开源 WebUI,支持加载各类模型格式
-
支持 LoRA 微调、插件扩展、多模态
-
适合开发者深度定制
-
(2)命令行 / 推理引擎(性能优先)
- llama.cpp(GGUF 格式标杆)
-
- 纯 C/C++,CPU/GPU 加速极快,内存占用极低
- 支持量化(Q4_K_M/Q5_K_M),7B 模型仅需 4–6GB 内存
- 命令:
./main -m qwen3.5-7b-q4.gguf -p "你好"
- vLLM(高吞吐推理)
-
- 主打高并发、低延迟,适合本地服务部署
- 支持 PagedAttention,显存利用率高
- 适合 13B/34B/70B 模型,需 NVIDIA GPU
- TensorRT-LLM(NVIDIA 极致加速)
-
- 基于 TensorRT,推理速度最快
- 适合高端显卡(RTX 4090/ADA 系列)做本地服务
- ExLlamaV2(GGUF/GPTQ 双支持)
-
-
速度与 llama.cpp 相当,支持更多模型格式
-
适合追求极致速度的用户
-
(3)框架 / 开发工具(开发者)
- Transformers(Hugging Face)
-
- 加载 / 推理 / 微调一站式,支持所有主流开源模型
- 配合
accelerate、bitsandbytes实现 4/8 比特量化
- AutoGPTQ
-
- GPTQ 量化专用,显存占用大幅降低
- 适合在有限显存下跑大参数模型
- Unsloth
-
- 轻量微调框架,速度快、显存省
- 适合个人 PC 做 LoRA 微调
三、手机端侧大模型(0.8B–8B,离线 / 低功耗)
1. 主流模型(2026)
- 国际端侧
-
- Gemma 4 E2B/E4B(Google,5B/8B,有效 2.3B/4.5B)
- Gemini Nano 4(1B–4B,Pixel 内置)
- MobileLLM-Pro(Meta,1.1B,开源)
- 国产端侧
-
- Qwen 3.5 0.8B/2B/4B(阿里,Android 适配最佳)
- 文心端侧 1B/3B(百度)
- 小米 MIMO-V2(3B–8B,小米旗舰内置)
- 华为端侧模型(4B–8B,麒麟 9010 内置)
2. 手机端侧部署 / 运行工具
(1)Android 端侧框架(开发 / 集成)
- TFLite(TensorFlow Lite)
-
- Google 官方端侧推理框架,支持 Gemma、MobileLLM
- 支持 CPU/GPU/NPU 加速,量化友好
- MNN(阿里)
-
- 国产端侧推理引擎,对 Qwen 系列优化极佳
- 支持 Android/iOS,低内存、低延迟
- NCNN(腾讯)
-
- 轻量高效,支持移动端 CPU/GPU 加速
- 适合轻量模型(0.8B–2B)
- llama.cpp for Android
-
- 直接在 Android 上跑 GGUF 模型
- Termux 环境可用,适合极客折腾
- HF Transformers for Android
-
- 移动端 Hugging Face 生态,加载 / 推理模型
(2)iOS 端侧框架
- Core ML
-
- Apple 原生框架,A17 Pro/A19 芯片 NPU 加速
- 支持 Gemma、Qwen 等模型的 Core ML 格式转换
- MLX(Apple)
-
- 专为 Apple Silicon 优化,支持端侧推理 / 微调
- 适合在 iPhone/Mac 上统一开发
(3)手机端侧 App(直接使用)
- Chatdoll(Android)
-
- 内置 Qwen/Gemma 端侧模型,离线聊天
- LM Studio Mobile
-
- 移动端版 LM Studio,下载 / 运行 GGUF 模型
- Termux + llama.cpp(Android 极客)
-
-
命令行运行任意 GGUF 模型,完全离线
-
四、三大场景模型 + 工具速览表
| 场景 | 参数范围 | 代表模型 | 核心部署 / 运行工具 | 硬件门槛 |
|---|---|---|---|---|
| 云端 | 千亿~万亿 | GPT-5.4、Claude Opus 4.6、Gemini 3.1 Ultra、通义千问 3.5 Max | OpenAI API、LangChain、Dify、Flowise | 企业级服务器 / 集群 |
| PC 本地 | 7B~70B | Llama 3.1-8B、Qwen 3.5-7B、Mistral-7B、DeepSeek R1 | Ollama、LM Studio、llama.cpp、vLLM、Transformers | 16GB + 内存 + 8GB + 显存 |
| 手机端侧 | 0.8B~8B | Gemma 4 E2B、Qwen 3.5-2B、Gemini Nano 4、MobileLLM-Pro | TFLite、MNN、llama.cpp for Android、Core ML | 旗舰手机(6GB + 内存,NPU 优先 |
五、端侧 AI 工程师部署标准链路场景
原始模型(safetensors)
↓(PyTorch + 脚本)
转 GGUF
↓(llama.cpp 核心)
LM Studio 预览 / Android 端侧部署运行
下一篇:
Miniconda/PyTorch/Jupyter/LM Studio/llama.cpp + Android完成从原始hugging face 原始模式--> pytorch自定义量化微调 --> LM Studio预览 + Android端侧部署。