看完黄仁勋GTC这段演示,我觉得端侧AI的拐点真的到了

14 阅读7分钟

看完黄仁勋GTC这段演示,我觉得端侧AI的拐点真的到了

GTC 2026的主题演讲进行到一半,黄仁勋掏出了一台笔记本电脑。

不是用来放PPT的,也不是切到云端做远程调用,他打开了一个AI Agent界面,用自然语言输入了一段建筑设计需求:一个特定风格、有具体的面积、朝向和功能分区要求的住宅方案。

接下来的几分钟里,这个Agent自主完成了从需求理解、方案生成、代码编写、自动调试到最终交付的全部流程。全程0人工干预。

这台笔记本是RTX Spark,搭载NVIDIA全新N1X芯片,集成Blackwell GPU、Grace CPU和128GB统一内存,把Petaflop级算力塞进了桌面PC的体积里。黄仁勋称之为"40年来对PC的重新定义"。

但真正让我觉得拐点到了的,不是这颗芯片有多强,而是整个端侧AI技术栈的成熟度,已经到了可以支撑这种复杂Agent工作流的阶段。

在探讨端侧AI的可行性之前,开源社区已经有相关项目了。Mano-P 是一个专门面向端侧设备的GUI Agent开源项目,Apache 2.0许可证,可以在Apple Silicon Mac上纯本地运行复杂的GUI自动化任务。后面我会用它的实测数据来佐证端侧AI当前的实际水平。

拆开来看:端侧AI Agent需要哪四层技术栈

GTC那个Demo看起来很流畅,但把它拆开,至少需要四层技术栈同时到位。

第一层:芯片算力层

端侧AI对芯片的要求和传统PC负载完全不同。传统场景看峰值性能和多核调度,AI推理看的是内存带宽、统一内存容量和低精度算力。

NVIDIA这次的N1X用Blackwell GPU + Grace CPU的异构架构解决了算力问题,128GB统一内存让大模型可以完整加载不做拆分。苹果走的是另一条路线:统一内存架构加上能效优先设计,M4系列芯片在32GB/64GB配置下也能跑起相当规模的模型。

两条路线的共同点是:统一内存是端侧AI芯片的必选项,传统的CPU+独显+分离内存架构很难满足大模型推理对内存带宽的需求。

当前,NVIDIA和苹果都已经把端侧芯片推到了能跑4B-7B参数模型的水平,部分配置可以跑更大规模。这一层已经不是瓶颈。

第二层:推理框架层

有了硬件算力,还需要高效的推理框架把模型跑起来。

苹果生态的MLX已经相当成熟,原生支持权重量化(W8A16、W4A16),对Apple Silicon做了深度优化。社区也在这个基础上继续往前推。

比如开源项目 Cider 在MLX基础上实现了W8A8/W4A8激活量化。MLX原生只做权重量化,激活值仍然是FP16/FP32;Cider把激活值也压到INT8,在M5 Pro芯片上实现了prefill阶段1.4x-2.2x的加速(对比MLX W4A16基线)。这个SDK兼容所有MLX模型,不限于特定项目。

NVIDIA这边有TensorRT-LLM和对应的推理优化栈,在RTX Spark上对Blackwell架构做了针对性适配。

当前,推理框架已经从"能跑"走到了"跑得快"的阶段。量化技术的进步让端侧模型的推理速度接近实用水平。

第三层:模型层

框架再快,模型本身的能力跟不上也是白搭。端侧模型面临的核心矛盾是:参数量受限于内存和算力,但任务复杂度并不因为跑在本地就降低。

以 Mano-P为例,它的72B模型在OSWorld评测中拿到58.2%的成绩,在专项模型中排名第1(第2名opencua-72b为45.0%)。需要说明的是,72B模型主要用于评测验证,实际端侧使用的是4B版本。

在WebRetriever Protocol I评测中,NavEval得分41.7,超过了Gemini 2.5 Pro的40.9和Claude 4.5的31.3。这说明端侧规模的模型经过专项优化后,在特定任务上可以达到甚至超过大规模云端模型的水平。

当前,端侧专项模型在GUI操作、Web导航等特定领域已经具备实用能力。通用性还有差距,但垂直场景已经够用。

第四层:Agent编排与工具调用层

要完成GTC那种"接需求到交付"的完整工作流,还需要一个Agent编排层来管理任务拆分、工具调用、错误恢复和状态追踪。

这一层在2026年也有了明显进步。开源社区的Agent框架百花齐放,从简单的ReAct循环到支持多步规划和回退的复杂编排,可选方案越来越多。

Mano-P生态中的 Mano-AFK 就是一个端侧Agent编排的例子:从自然语言需求出发,自动生成PRD、架构设计、代码,然后本地部署、E2E测试、自动修复,直到交付。整个流程使用Mano-P作为本地视觉模型来驱动浏览器进行GUI自动化测试。

当前,编排层正在从实验走向工程化,但稳定性和错误恢复能力仍然需要打磨。

端侧跑起来到底有多快

说了这么多架构层面的东西,端侧模型实际跑起来是什么体验?

在M5 Pro 64GB的Mac上实测Mano-P 4B模型:

  • W8A16量化:prefill耗时2.839秒,decode速度80.1 tok/s
  • W8A8量化(Cider加速):prefill耗时2.519秒,decode速度79.5 tok/s
  • prefill阶段加速约12.7%

80 tok/s的decode速度意味着什么?对于GUI Agent的场景,模型需要看截图、理解界面、输出操作指令。这个速度已经可以做到接近实时的响应,用户体感上不会觉得在"等AI想"。

而且这是纯本地执行。所有截图和任务数据不出设备,没有网络延迟,也没有隐私数据上传的顾虑。这对于企业级部署和个人隐私场景来说,是云端方案很难替代的优势。

为什么说2026年是拐点

回到开头的问题。黄仁勋的GTC演示当然有舞台效果的成分,但如果把视野拉开,端侧AI的拐点信号确实已经足够密集:

芯片端:NVIDIA和苹果分别从两个方向把端侧芯片推到了实用水平,统一内存架构成为共识。

框架端:MLX生态成熟,激活量化等优化技术让推理速度再上一个台阶。

模型端:专项优化的小模型在垂直任务上已经能和大模型掰手腕。

生态端:GitHub全平台Commit数据从3亿增长到9亿,开源Agent项目的数量和质量都在快速提升。黄仁勋自己也说,"未来Agent数量远超人类"。

这四层同时到位,才是拐点的真正含义。不是某一个芯片或某一个模型的突破,而是整个技术栈从上到下第一次达到了"可以交付实际价值"的最低门槛。

端侧AI不会取代云端AI,两者会长期共存。但从2026年开始,"这件事必须在云端才能做"的默认假设,正在被越来越多的实际案例打破。

如果你对端侧AI Agent的实际效果感兴趣,可以去 Mano-P 的GitHub仓库看看。项目是Apache 2.0开源的,有完整的模型、推理框架和使用文档。觉得有价值的话,欢迎给个Star。