为什么端侧 AI 正在悄悄替代云端推理？为什么端侧 AI 正在悄悄替代云端推理？数据主权不再只是「用户顾虑」，而是法律硬

数据主权不再只是「用户顾虑」，而是法律硬约束

先从一个场景说起。

某家医疗 SaaS 公司打算给工作流接入 AI 辅助，让模型帮助医生快速整理病历摘要。调用云端 API 是最省事的路：不用维护模型，按 token 付钱，上线快。

但他们的法务最终叫停了这件事。

原因不是「我们觉得不安全」，而是具体的条款：欧盟 GDPR 要求医疗数据的处理和存储必须符合数据本地化要求，个人健康数据原则上不得转移至第三国服务器；国内《个人信息保护法》和《数据安全法》对敏感个人信息的处理也设定了严格约束，部分场景下需要在特定境内服务器完成处理。

一旦数据进了云端 API 调用链，数据流向就难以完全控制——日志、缓存、中间件，每个环节都可能成为合规盲区。

这不是小场景。金融风控、医疗影像分析、政务 AI、法律文书处理……这些领域的数据都具有高敏感性。对这些场景的开发者来说，端侧推理的吸引力不是「用户隐私感受更好」，而是让数据物理上不离开设备，是满足合规要求最干净的工程方案。

模型在本地跑，数据在本地处理，日志不出机器。这条路不是最省事的，但在强监管场景下，它可能是唯一能过审的路。

云端推理的延迟，本质上是不可预测的

来看第二个场景。

GUI 自动化工具——让 AI 代替人操作桌面界面，点按钮、填表单、截图判断状态——是目前 Agent 落地最贴近实际的方向之一。这类任务对延迟有个特殊要求：不只是要快，而是要稳。

一次 GUI 操作的典型流程大概是：截图 → 模型推理（当前状态是什么？下一步操作是什么？）→ 执行操作 → 再截图 → 再推理。这个循环可能要跑几十轮。

如果每次推理的延迟是 200ms，整体任务时间是可以预期的。但如果延迟在 100ms 到 1200ms 之间随机波动，任务就会变得不稳定——有时候上一步操作还没完成，下一步推理已经基于旧截图得出了错误的判断。

云端推理的延迟抖动来自多个层次：网络 RTT（跨区域可能达到 50-200ms）、模型服务队列（高峰期排队等待）、冷启动（部分 serverless 推理服务存在首次调用延迟）。这些因素叠加起来，P99 延迟可能是 P50 的 5-10 倍。

端侧推理没有网络，没有队列，没有冷启动。延迟的主要来源只有一个：本地硬件的计算速度。这个值是稳定的，可以被测量，可以被纳入工程预期。

对于实时 GUI 自动化、语音交互、游戏 NPC 这类对响应节奏敏感的场景，延迟确定性本身就是一个核心需求，而不只是性能优化的加分项。

量化 + 端侧芯片，让推理成本曲线出现了交叉点

最后说成本，这是很多人最容易忽略、也最容易算错的一件事。

云端推理是按 token 计费的——确切说，是按输入 token + 输出 token 计费。对于低频调用场景，这笔钱很便宜，几乎可以忽略；但对于高频、实时、长上下文的 Agent 任务，账单会增长得很快。

端侧推理的成本结构不一样：硬件是固定资产，一次性投入；电费是边际成本，但远低于云端 API。一旦硬件折旧摊销完成，每次推理的边际成本趋近于零。

但这个算法成立有一个前提：端侧模型的推理速度必须足够实用。

这里，量化技术是关键变量。W4A8（权重 4-bit 量化、激活 8-bit 量化）和 W8A8 等量化方案，在精度损失可控的前提下，大幅降低了模型的显存占用和计算开销。Apple Silicon 的统一内存架构进一步放大了这一效果——CPU 和 GPU 共享同一块内存，大模型的 KV Cache 不需要在两块内存之间搬运数据。

结果是：量化后的中等规模模型（4B-7B）在 M 系列芯片上可以跑出实用的推理速度，而量化后的大参数模型（72B 级别）也已经可以在配置较高的 Mac 上跑通。

成本曲线的交叉点出现了：当一个开发者或团队的日推理量超过某个阈值，端侧推理在单次推理成本上就会低于云端 API。 这个阈值随着量化技术的进步和芯片性能的提升，正在持续下降。

三个原因的共同指向

回头看这三个原因，它们指向的不是同一个用户，而是三种不同的刚需：

合规驱动：医疗、金融、政务场景的开发者，需要数据不离开本地。
确定性驱动：实时 Agent、GUI 自动化开发者，需要延迟可预期。
成本驱动：高频调用场景的开发者，需要边际成本趋近于零。

当这三类需求开始重叠，端侧推理就从「极客玩具」变成了工程选项。

一个正在跑在端侧的 GUI Agent

作为参考，我们（明略科技）开源的 Mano-P 就是在这个方向上的一次实践。

它是一个完整的 GUI-VLA Agent，运行在本地 Mac（Apple M4 + 32GB 内存）上，数据不出本机。4B 量化版本在 M4 Pro 上的实测性能：prefill 476 tokens/s，decode 76 tokens/s，峰值内存占用 4.3GB。72B 版本在 OSWorld 基准测试（Proprietary 分类）中达到了 58.2% 的得分，是该分类当前的最高分。

完全开源，Apache 2.0 协议。

GitHub：github.com/Mininglamp-…

端侧推理能走多远，现在还很难定论。但它能走到哪，已经比两年前远得多了。

如果你在端侧 Agent、GUI 自动化、或本地推理优化方向有实践经验，欢迎在评论区聊聊你遇到的问题和解法。