数据主权不再只是「用户顾虑」,而是法律硬约束
先从一个场景说起。
某家医疗 SaaS 公司打算给工作流接入 AI 辅助,让模型帮助医生快速整理病历摘要。调用云端 API 是最省事的路:不用维护模型,按 token 付钱,上线快。
但他们的法务最终叫停了这件事。
原因不是「我们觉得不安全」,而是具体的条款:欧盟 GDPR 要求医疗数据的处理和存储必须符合数据本地化要求,个人健康数据原则上不得转移至第三国服务器;国内《个人信息保护法》和《数据安全法》对敏感个人信息的处理也设定了严格约束,部分场景下需要在特定境内服务器完成处理。
一旦数据进了云端 API 调用链,数据流向就难以完全控制——日志、缓存、中间件,每个环节都可能成为合规盲区。
这不是小场景。金融风控、医疗影像分析、政务 AI、法律文书处理……这些领域的数据都具有高敏感性。对这些场景的开发者来说,端侧推理的吸引力不是「用户隐私感受更好」,而是让数据物理上不离开设备,是满足合规要求最干净的工程方案。
模型在本地跑,数据在本地处理,日志不出机器。这条路不是最省事的,但在强监管场景下,它可能是唯一能过审的路。
云端推理的延迟,本质上是不可预测的
来看第二个场景。
GUI 自动化工具——让 AI 代替人操作桌面界面,点按钮、填表单、截图判断状态——是目前 Agent 落地最贴近实际的方向之一。这类任务对延迟有个特殊要求:不只是要快,而是要稳。
一次 GUI 操作的典型流程大概是:截图 → 模型推理(当前状态是什么?下一步操作是什么?)→ 执行操作 → 再截图 → 再推理。这个循环可能要跑几十轮。
如果每次推理的延迟是 200ms,整体任务时间是可以预期的。但如果延迟在 100ms 到 1200ms 之间随机波动,任务就会变得不稳定——有时候上一步操作还没完成,下一步推理已经基于旧截图得出了错误的判断。
云端推理的延迟抖动来自多个层次:网络 RTT(跨区域可能达到 50-200ms)、模型服务队列(高峰期排队等待)、冷启动(部分 serverless 推理服务存在首次调用延迟)。这些因素叠加起来,P99 延迟可能是 P50 的 5-10 倍。
端侧推理没有网络,没有队列,没有冷启动。延迟的主要来源只有一个:本地硬件的计算速度。这个值是稳定的,可以被测量,可以被纳入工程预期。
对于实时 GUI 自动化、语音交互、游戏 NPC 这类对响应节奏敏感的场景,延迟确定性本身就是一个核心需求,而不只是性能优化的加分项。
量化 + 端侧芯片,让推理成本曲线出现了交叉点
最后说成本,这是很多人最容易忽略、也最容易算错的一件事。
云端推理是按 token 计费的——确切说,是按输入 token + 输出 token 计费。对于低频调用场景,这笔钱很便宜,几乎可以忽略;但对于高频、实时、长上下文的 Agent 任务,账单会增长得很快。
端侧推理的成本结构不一样:硬件是固定资产,一次性投入;电费是边际成本,但远低于云端 API。一旦硬件折旧摊销完成,每次推理的边际成本趋近于零。
但这个算法成立有一个前提:端侧模型的推理速度必须足够实用。
这里,量化技术是关键变量。W4A8(权重 4-bit 量化、激活 8-bit 量化)和 W8A8 等量化方案,在精度损失可控的前提下,大幅降低了模型的显存占用和计算开销。Apple Silicon 的统一内存架构进一步放大了这一效果——CPU 和 GPU 共享同一块内存,大模型的 KV Cache 不需要在两块内存之间搬运数据。
结果是:量化后的中等规模模型(4B-7B)在 M 系列芯片上可以跑出实用的推理速度,而量化后的大参数模型(72B 级别)也已经可以在配置较高的 Mac 上跑通。
成本曲线的交叉点出现了:当一个开发者或团队的日推理量超过某个阈值,端侧推理在单次推理成本上就会低于云端 API。 这个阈值随着量化技术的进步和芯片性能的提升,正在持续下降。
三个原因的共同指向
回头看这三个原因,它们指向的不是同一个用户,而是三种不同的刚需:
- 合规驱动:医疗、金融、政务场景的开发者,需要数据不离开本地。
- 确定性驱动:实时 Agent、GUI 自动化开发者,需要延迟可预期。
- 成本驱动:高频调用场景的开发者,需要边际成本趋近于零。
当这三类需求开始重叠,端侧推理就从「极客玩具」变成了工程选项。
一个正在跑在端侧的 GUI Agent
作为参考,我们(明略科技)开源的 Mano-P 就是在这个方向上的一次实践。
它是一个完整的 GUI-VLA Agent,运行在本地 Mac(Apple M4 + 32GB 内存)上,数据不出本机。4B 量化版本在 M4 Pro 上的实测性能:prefill 476 tokens/s,decode 76 tokens/s,峰值内存占用 4.3GB。72B 版本在 OSWorld 基准测试(Proprietary 分类)中达到了 58.2% 的得分,是该分类当前的最高分。
完全开源,Apache 2.0 协议。
- GitHub:github.com/Mininglamp-…
端侧推理能走多远,现在还很难定论。但它能走到哪,已经比两年前远得多了。
如果你在端侧 Agent、GUI 自动化、或本地推理优化方向有实践经验,欢迎在评论区聊聊你遇到的问题和解法。