端侧AI 模型部署实战二(云端、PC 本地、手机端侧主流大模型及部署工具 )

1 阅读5分钟

AI的大模型部署主要有云端、PC 本地、手机端侧 三大场景。

*** 云端大模型(在线 API / 网页,最强能力)**

*** PC 本地大模型(Windows/macOS,GGUF 优先)**

*** 消费电子(手机端侧大模型Android/iOS,离线本地)**

一、云端大模型(闭源为主,API / 网页调用)

1. 主流模型

  • 国际闭源
    • GPT-5.4、GPT-4.5 Turbo(OpenAI)
    • Claude Opus 4.6、Claude 3.5 Sonnet(Anthropic)
    • Gemini 3.1 Ultra、Gemini 1.5 Flash(Google)
  • 国产闭源
    • 通义千问 3.5 Max/Pro(阿里)
    • 文心一言 5.0(百度)
    • 混元 2.0(腾讯)
    • 豆包 4.0(字节)

2. 云端部署 / 调用工具

  • 官方 API 平台
    • OpenAI API、Anthropic API、Google Gemini API
    • 阿里云通义千问 API、百度千帆 API、腾讯混元 API
  • 第三方集成 / 管理工具
    • LangChain:大模型编排、RAG、Agent 开发
    • LlamaIndex:文档索引、检索增强、知识库
    • Flowise:低代码可视化构建 LLM 工作流
    • Dify:一站式 AI 应用开发(提示词、知识库、API)
    • FastAPI/Flask:自建 API 网关,封装多模型调用
  • 网页 / 客户端
    • ChatGPT、Claude、Gemini 网页版

    • 通义千问、文心一言、豆包 App / 网页

二、PC 本地大模型(开源为主,7B–70B,离线运行)

1. 主流模型(2026)

  • 通用基座
    • Llama 3.1/4(8B/70B)、Qwen 3.5(7B/14B/32B/72B)
    • Mistral-7B/13B、DeepSeek R1/Coder(7B/16B/33B)
    • GLM 5(7B/13B/34B)、Yi 34B
  • 轻量入门(无独显也可跑)
    • Qwen 3.5 0.8B/1.8B、Gemma 4 2B/3B、MobileLLM 1.1B

2. PC 本地部署 / 运行工具(按易用度排序)

(1)一键式 GUI 工具

  • Ollama(最流行)
    • 一句话启动:ollama run llama3.1 / ollama run qwen3.5
    • 支持 Windows/macOS/Linux,自动下载、量化、运行
    • 内置 API,可对接 Chatbot、IDE 插件
  • LM Studio
    • 可视化模型库、一键下载 / 运行、参数调节
    • 支持 GGUF/GGML 量化,多模型并行
    • 内置聊天界面,适合个人本地使用
  • GPT4All
    • 开源免费,内置大量轻量模型
    • 纯 CPU 也可运行,适合轻薄本
  • Text Generation WebUI(Oobabooga)
    • 功能最全的开源 WebUI,支持加载各类模型格式

    • 支持 LoRA 微调、插件扩展、多模态

    • 适合开发者深度定制

(2)命令行 / 推理引擎(性能优先)

  • llama.cpp(GGUF 格式标杆)
    • 纯 C/C++,CPU/GPU 加速极快,内存占用极低
    • 支持量化(Q4_K_M/Q5_K_M),7B 模型仅需 4–6GB 内存
    • 命令:./main -m qwen3.5-7b-q4.gguf -p "你好"
  • vLLM(高吞吐推理)
    • 主打高并发、低延迟,适合本地服务部署
    • 支持 PagedAttention,显存利用率高
    • 适合 13B/34B/70B 模型,需 NVIDIA GPU
  • TensorRT-LLM(NVIDIA 极致加速)
    • 基于 TensorRT,推理速度最快
    • 适合高端显卡(RTX 4090/ADA 系列)做本地服务
  • ExLlamaV2(GGUF/GPTQ 双支持)
    • 速度与 llama.cpp 相当,支持更多模型格式

    • 适合追求极致速度的用户

(3)框架 / 开发工具(开发者)

  • Transformers(Hugging Face)
    • 加载 / 推理 / 微调一站式,支持所有主流开源模型
    • 配合 acceleratebitsandbytes 实现 4/8 比特量化
  • AutoGPTQ
    • GPTQ 量化专用,显存占用大幅降低
    • 适合在有限显存下跑大参数模型
  • Unsloth
    • 轻量微调框架,速度快、显存省
    • 适合个人 PC 做 LoRA 微调

三、手机端侧大模型(0.8B–8B,离线 / 低功耗)

1. 主流模型(2026)

  • 国际端侧
    • Gemma 4 E2B/E4B(Google,5B/8B,有效 2.3B/4.5B)
    • Gemini Nano 4(1B–4B,Pixel 内置)
    • MobileLLM-Pro(Meta,1.1B,开源)
  • 国产端侧
    • Qwen 3.5 0.8B/2B/4B(阿里,Android 适配最佳)
    • 文心端侧 1B/3B(百度)
    • 小米 MIMO-V2(3B–8B,小米旗舰内置)
    • 华为端侧模型(4B–8B,麒麟 9010 内置)

2. 手机端侧部署 / 运行工具

(1)Android 端侧框架(开发 / 集成)

  • TFLite(TensorFlow Lite)
    • Google 官方端侧推理框架,支持 Gemma、MobileLLM
    • 支持 CPU/GPU/NPU 加速,量化友好
  • MNN(阿里)
    • 国产端侧推理引擎,对 Qwen 系列优化极佳
    • 支持 Android/iOS,低内存、低延迟
  • NCNN(腾讯)
    • 轻量高效,支持移动端 CPU/GPU 加速
    • 适合轻量模型(0.8B–2B)
  • llama.cpp for Android
    • 直接在 Android 上跑 GGUF 模型
    • Termux 环境可用,适合极客折腾
  • HF Transformers for Android
    • 移动端 Hugging Face 生态,加载 / 推理模型

(2)iOS 端侧框架

  • Core ML
    • Apple 原生框架,A17 Pro/A19 芯片 NPU 加速
    • 支持 Gemma、Qwen 等模型的 Core ML 格式转换
  • MLX(Apple)
    • 专为 Apple Silicon 优化,支持端侧推理 / 微调
    • 适合在 iPhone/Mac 上统一开发

(3)手机端侧 App(直接使用)

  • Chatdoll(Android)
    • 内置 Qwen/Gemma 端侧模型,离线聊天
  • LM Studio Mobile
    • 移动端版 LM Studio,下载 / 运行 GGUF 模型
  • Termux + llama.cpp(Android 极客)
    • 命令行运行任意 GGUF 模型,完全离线

四、三大场景模型 + 工具速览表

场景参数范围代表模型核心部署 / 运行工具硬件门槛
云端千亿~万亿GPT-5.4、Claude Opus 4.6、Gemini 3.1 Ultra、通义千问 3.5 MaxOpenAI API、LangChain、Dify、Flowise企业级服务器 / 集群
PC 本地7B~70BLlama 3.1-8B、Qwen 3.5-7B、Mistral-7B、DeepSeek R1Ollama、LM Studio、llama.cpp、vLLM、Transformers16GB + 内存 + 8GB + 显存
手机端侧0.8B~8BGemma 4 E2B、Qwen 3.5-2B、Gemini Nano 4、MobileLLM-ProTFLite、MNN、llama.cpp for Android、Core ML旗舰手机(6GB + 内存,NPU 优先

五、端侧 AI 工程师部署标准链路场景

原始模型(safetensors)

↓(PyTorch + 脚本)

转 GGUF

↓(llama.cpp 核心)

LM Studio 预览 / Android 端侧部署运行

下一篇:

Miniconda/PyTorch/Jupyter/LM Studio/llama.cpp + Android完成从原始hugging face 原始模式--> pytorch自定义量化微调 --> LM Studio预览 + Android端侧部署。