看完黄仁勋GTC这段演示，我觉得端侧AI的拐点真的到了黄仁勋的GTC演示当然有舞台效果的成分，但如果把视野拉开，端侧AI

看完黄仁勋GTC这段演示，我觉得端侧AI的拐点真的到了

GTC 2026的主题演讲进行到一半，黄仁勋掏出了一台笔记本电脑。

不是用来放PPT的，也不是切到云端做远程调用，他打开了一个AI Agent界面，用自然语言输入了一段建筑设计需求：一个特定风格、有具体的面积、朝向和功能分区要求的住宅方案。

接下来的几分钟里，这个Agent自主完成了从需求理解、方案生成、代码编写、自动调试到最终交付的全部流程。全程0人工干预。

这台笔记本是RTX Spark，搭载NVIDIA全新N1X芯片，集成Blackwell GPU、Grace CPU和128GB统一内存，把Petaflop级算力塞进了桌面PC的体积里。黄仁勋称之为"40年来对PC的重新定义"。

但真正让我觉得拐点到了的，不是这颗芯片有多强，而是整个端侧AI技术栈的成熟度，已经到了可以支撑这种复杂Agent工作流的阶段。

在探讨端侧AI的可行性之前，开源社区已经有相关项目了。Mano-P 是一个专门面向端侧设备的GUI Agent开源项目，Apache 2.0许可证，可以在Apple Silicon Mac上纯本地运行复杂的GUI自动化任务。后面我会用它的实测数据来佐证端侧AI当前的实际水平。

拆开来看：端侧AI Agent需要哪四层技术栈

GTC那个Demo看起来很流畅，但把它拆开，至少需要四层技术栈同时到位。

第一层：芯片算力层

端侧AI对芯片的要求和传统PC负载完全不同。传统场景看峰值性能和多核调度，AI推理看的是内存带宽、统一内存容量和低精度算力。

NVIDIA这次的N1X用Blackwell GPU + Grace CPU的异构架构解决了算力问题，128GB统一内存让大模型可以完整加载不做拆分。苹果走的是另一条路线：统一内存架构加上能效优先设计，M4系列芯片在32GB/64GB配置下也能跑起相当规模的模型。

两条路线的共同点是：统一内存是端侧AI芯片的必选项，传统的CPU+独显+分离内存架构很难满足大模型推理对内存带宽的需求。

当前，NVIDIA和苹果都已经把端侧芯片推到了能跑4B-7B参数模型的水平，部分配置可以跑更大规模。这一层已经不是瓶颈。

第二层：推理框架层

有了硬件算力，还需要高效的推理框架把模型跑起来。

苹果生态的MLX已经相当成熟，原生支持权重量化（W8A16、W4A16），对Apple Silicon做了深度优化。社区也在这个基础上继续往前推。

比如开源项目 Cider 在MLX基础上实现了W8A8/W4A8激活量化。MLX原生只做权重量化，激活值仍然是FP16/FP32；Cider把激活值也压到INT8，在M5 Pro芯片上实现了prefill阶段1.4x-2.2x的加速（对比MLX W4A16基线）。这个SDK兼容所有MLX模型，不限于特定项目。

NVIDIA这边有TensorRT-LLM和对应的推理优化栈，在RTX Spark上对Blackwell架构做了针对性适配。

当前，推理框架已经从"能跑"走到了"跑得快"的阶段。量化技术的进步让端侧模型的推理速度接近实用水平。

第三层：模型层

框架再快，模型本身的能力跟不上也是白搭。端侧模型面临的核心矛盾是：参数量受限于内存和算力，但任务复杂度并不因为跑在本地就降低。

以 Mano-P为例，它的72B模型在OSWorld评测中拿到58.2%的成绩，在专项模型中排名第1（第2名opencua-72b为45.0%）。需要说明的是，72B模型主要用于评测验证，实际端侧使用的是4B版本。

在WebRetriever Protocol I评测中，NavEval得分41.7，超过了Gemini 2.5 Pro的40.9和Claude 4.5的31.3。这说明端侧规模的模型经过专项优化后，在特定任务上可以达到甚至超过大规模云端模型的水平。

当前，端侧专项模型在GUI操作、Web导航等特定领域已经具备实用能力。通用性还有差距，但垂直场景已经够用。

第四层：Agent编排与工具调用层

要完成GTC那种"接需求到交付"的完整工作流，还需要一个Agent编排层来管理任务拆分、工具调用、错误恢复和状态追踪。

这一层在2026年也有了明显进步。开源社区的Agent框架百花齐放，从简单的ReAct循环到支持多步规划和回退的复杂编排，可选方案越来越多。

Mano-P生态中的 Mano-AFK 就是一个端侧Agent编排的例子：从自然语言需求出发，自动生成PRD、架构设计、代码，然后本地部署、E2E测试、自动修复，直到交付。整个流程使用Mano-P作为本地视觉模型来驱动浏览器进行GUI自动化测试。

当前，编排层正在从实验走向工程化，但稳定性和错误恢复能力仍然需要打磨。

端侧跑起来到底有多快

说了这么多架构层面的东西，端侧模型实际跑起来是什么体验？

在M5 Pro 64GB的Mac上实测Mano-P 4B模型：

W8A16量化：prefill耗时2.839秒，decode速度80.1 tok/s
W8A8量化（Cider加速）：prefill耗时2.519秒，decode速度79.5 tok/s
prefill阶段加速约12.7%

80 tok/s的decode速度意味着什么？对于GUI Agent的场景，模型需要看截图、理解界面、输出操作指令。这个速度已经可以做到接近实时的响应，用户体感上不会觉得在"等AI想"。

而且这是纯本地执行。所有截图和任务数据不出设备，没有网络延迟，也没有隐私数据上传的顾虑。这对于企业级部署和个人隐私场景来说，是云端方案很难替代的优势。

为什么说2026年是拐点

回到开头的问题。黄仁勋的GTC演示当然有舞台效果的成分，但如果把视野拉开，端侧AI的拐点信号确实已经足够密集：

芯片端：NVIDIA和苹果分别从两个方向把端侧芯片推到了实用水平，统一内存架构成为共识。

框架端：MLX生态成熟，激活量化等优化技术让推理速度再上一个台阶。

模型端：专项优化的小模型在垂直任务上已经能和大模型掰手腕。

生态端：GitHub全平台Commit数据从3亿增长到9亿，开源Agent项目的数量和质量都在快速提升。黄仁勋自己也说，"未来Agent数量远超人类"。

这四层同时到位，才是拐点的真正含义。不是某一个芯片或某一个模型的突破，而是整个技术栈从上到下第一次达到了"可以交付实际价值"的最低门槛。

端侧AI不会取代云端AI，两者会长期共存。但从2026年开始，"这件事必须在云端才能做"的默认假设，正在被越来越多的实际案例打破。

如果你对端侧AI Agent的实际效果感兴趣，可以去 Mano-P 的GitHub仓库看看。项目是Apache 2.0开源的，有完整的模型、推理框架和使用文档。觉得有价值的话，欢迎给个Star。