端侧AI 模型部署实战二(云端、PC 本地、手机端侧主流大模型及部署工具 )

2026-04-03 1 阅读5分钟

AI的大模型部署主要有云端、PC 本地、手机端侧三大场景。

* 云端大模型（在线 API / 网页，最强能力）

* PC 本地大模型（Windows/macOS，GGUF 优先）

* 消费电子（手机端侧大模型Android/iOS，离线本地）

一、云端大模型（闭源为主，API / 网页调用）

1. 主流模型

国际闭源
- GPT-5.4、GPT-4.5 Turbo（OpenAI）
- Claude Opus 4.6、Claude 3.5 Sonnet（Anthropic）
- Gemini 3.1 Ultra、Gemini 1.5 Flash（Google）
国产闭源
- 通义千问 3.5 Max/Pro（阿里）
- 文心一言 5.0（百度）
- 混元 2.0（腾讯）
- 豆包 4.0（字节）

2. 云端部署 / 调用工具

官方 API 平台
- OpenAI API、Anthropic API、Google Gemini API
- 阿里云通义千问 API、百度千帆 API、腾讯混元 API
第三方集成 / 管理工具
- LangChain：大模型编排、RAG、Agent 开发
- LlamaIndex：文档索引、检索增强、知识库
- Flowise：低代码可视化构建 LLM 工作流
- Dify：一站式 AI 应用开发（提示词、知识库、API）
- FastAPI/Flask：自建 API 网关，封装多模型调用
网页 / 客户端
- ChatGPT、Claude、Gemini 网页版
- 通义千问、文心一言、豆包 App / 网页

二、PC 本地大模型（开源为主，7B–70B，离线运行）

1. 主流模型（2026）

通用基座
- Llama 3.1/4（8B/70B）、Qwen 3.5（7B/14B/32B/72B）
- Mistral-7B/13B、DeepSeek R1/Coder（7B/16B/33B）
- GLM 5（7B/13B/34B）、Yi 34B
轻量入门（无独显也可跑）
- Qwen 3.5 0.8B/1.8B、Gemma 4 2B/3B、MobileLLM 1.1B

2. PC 本地部署 / 运行工具（按易用度排序）

（1）一键式 GUI 工具

Ollama（最流行）
- 一句话启动：ollama run llama3.1 / ollama run qwen3.5
- 支持 Windows/macOS/Linux，自动下载、量化、运行
- 内置 API，可对接 Chatbot、IDE 插件
LM Studio
- 可视化模型库、一键下载 / 运行、参数调节
- 支持 GGUF/GGML 量化，多模型并行
- 内置聊天界面，适合个人本地使用
GPT4All
- 开源免费，内置大量轻量模型
- 纯 CPU 也可运行，适合轻薄本
Text Generation WebUI（Oobabooga）
- 功能最全的开源 WebUI，支持加载各类模型格式
- 支持 LoRA 微调、插件扩展、多模态
- 适合开发者深度定制

（2）命令行 / 推理引擎（性能优先）

llama.cpp（GGUF 格式标杆）
- 纯 C/C++，CPU/GPU 加速极快，内存占用极低
- 支持量化（Q4_K_M/Q5_K_M），7B 模型仅需 4–6GB 内存
- 命令：./main -m qwen3.5-7b-q4.gguf -p "你好"
vLLM（高吞吐推理）
- 主打高并发、低延迟，适合本地服务部署
- 支持 PagedAttention，显存利用率高
- 适合 13B/34B/70B 模型，需 NVIDIA GPU
TensorRT-LLM（NVIDIA 极致加速）
- 基于 TensorRT，推理速度最快
- 适合高端显卡（RTX 4090/ADA 系列）做本地服务
ExLlamaV2（GGUF/GPTQ 双支持）
- 速度与 llama.cpp 相当，支持更多模型格式
- 适合追求极致速度的用户

（3）框架 / 开发工具（开发者）

Transformers（Hugging Face）
- 加载 / 推理 / 微调一站式，支持所有主流开源模型
- 配合 accelerate、bitsandbytes 实现 4/8 比特量化
AutoGPTQ
- GPTQ 量化专用，显存占用大幅降低
- 适合在有限显存下跑大参数模型
Unsloth
- 轻量微调框架，速度快、显存省
- 适合个人 PC 做 LoRA 微调

三、手机端侧大模型（0.8B–8B，离线 / 低功耗）

1. 主流模型（2026）

国际端侧
- Gemma 4 E2B/E4B（Google，5B/8B，有效 2.3B/4.5B）
- Gemini Nano 4（1B–4B，Pixel 内置）
- MobileLLM-Pro（Meta，1.1B，开源）
国产端侧
- Qwen 3.5 0.8B/2B/4B（阿里，Android 适配最佳）
- 文心端侧 1B/3B（百度）
- 小米 MIMO-V2（3B–8B，小米旗舰内置）
- 华为端侧模型（4B–8B，麒麟 9010 内置）

2. 手机端侧部署 / 运行工具

（1）Android 端侧框架（开发 / 集成）

TFLite（TensorFlow Lite）
- Google 官方端侧推理框架，支持 Gemma、MobileLLM
- 支持 CPU/GPU/NPU 加速，量化友好
MNN（阿里）
- 国产端侧推理引擎，对 Qwen 系列优化极佳
- 支持 Android/iOS，低内存、低延迟
NCNN（腾讯）
- 轻量高效，支持移动端 CPU/GPU 加速
- 适合轻量模型（0.8B–2B）
llama.cpp for Android
- 直接在 Android 上跑 GGUF 模型
- Termux 环境可用，适合极客折腾
HF Transformers for Android
- 移动端 Hugging Face 生态，加载 / 推理模型

（2）iOS 端侧框架

Core ML
- Apple 原生框架，A17 Pro/A19 芯片 NPU 加速
- 支持 Gemma、Qwen 等模型的 Core ML 格式转换
MLX（Apple）
- 专为 Apple Silicon 优化，支持端侧推理 / 微调
- 适合在 iPhone/Mac 上统一开发

（3）手机端侧 App（直接使用）

Chatdoll（Android）
- 内置 Qwen/Gemma 端侧模型，离线聊天
LM Studio Mobile
- 移动端版 LM Studio，下载 / 运行 GGUF 模型
Termux + llama.cpp（Android 极客）
- 命令行运行任意 GGUF 模型，完全离线

四、三大场景模型 + 工具速览表

场景	参数范围	代表模型	核心部署 / 运行工具	硬件门槛
云端	千亿～万亿	GPT-5.4、Claude Opus 4.6、Gemini 3.1 Ultra、通义千问 3.5 Max	OpenAI API、LangChain、Dify、Flowise	企业级服务器 / 集群
PC 本地	7B~70B	Llama 3.1-8B、Qwen 3.5-7B、Mistral-7B、DeepSeek R1	Ollama、LM Studio、llama.cpp、vLLM、Transformers	16GB + 内存 + 8GB + 显存
手机端侧	0.8B~8B	Gemma 4 E2B、Qwen 3.5-2B、Gemini Nano 4、MobileLLM-Pro	TFLite、MNN、llama.cpp for Android、Core ML	旗舰手机（6GB + 内存，NPU 优先

五、端侧 AI 工程师部署标准链路场景

原始模型（safetensors）

↓（PyTorch + 脚本）

转 GGUF

↓（llama.cpp 核心）

LM Studio 预览 / Android 端侧部署运行

下一篇：

Miniconda/PyTorch/Jupyter/LM Studio/llama.cpp + Android完成从原始hugging face 原始模式--> pytorch自定义量化微调 --> LM Studio预览 + Android端侧部署。