Apple Siri AI 新信号:用 Vision LLM 读取屏幕,但这次该信吗?

0 阅读3分钟

WWDC 2026 上 Apple 宣布了下一代 Siri AI,核心变化不是更聪明的聊天,而是让 Siri 能“看”你的屏幕。Simon Willison 在分析中指出,Apple 正利用 Vision LLM 从用户屏幕提取信息,从而绕过每个应用单独集成的麻烦。同时 Apple 开放了 Core AI 库,允许开发者将 PyTorch 模型直接跑到自家硬件上。但 Willison 自己都强调:“我在亲眼验证前,绝不会再像 2024 年那样轻信。”

WWDC 2026 为什么值得留意:对 iOS 开发者来说,这是一个明确的架构信号——Apple 正在用端侧视觉模型替代传统的应用内 Siri 集成,并开放硬件推理能力,但技术可行性不等于产品可靠性。

发生了什么

  • Apple 在 2026 年 6 月 8 日的 WWDC 上发布了新一代 Siri AI,核心能力依赖 Vision LLM 从用户屏幕读取内容,从而实现跨应用操作(比如“把这张图片里的文字翻译成中文”)。
  • 为了处理复杂请求(agentic tool-use、复杂推理),Apple 许可了定制 Gemini 派生模型,运行在 Private Cloud Compute 上——合作方是 Google Cloud 和 NVIDIA GPU。
  • 同时推出了 Core AI 库,支持 PyTorch 模型通过 coreai-torch 扩展直接转换为 Apple 硬件可运行的程序,无需额外框架适配。

变化在哪里

过去 Siri 想要理解应用内容,需要应用主动提供 App Intent 或 Shortcuts 集成。现在 Apple 试图用视觉模型直接读取屏幕,这个路径的变化很大:开发者不用再写集成代码,但用户数据在模型推理过程中是如何处理的?Apple 承诺视觉信息不离开设备,但复杂度明显高于文本。

谁会受影响

  • iOS 开发者:短期不需要改动现有应用——Vision LLM 会自动理解屏幕内容,但这也意味着你失去了对 Siri 交互的控制。如果你的应用依赖精确意图匹配,建议关注 Core AI 库的本地推理能力,将部分逻辑下放到设备端。
  • AI 创业者:Vision LLM + 本地推理这条路如果验证可行,桌面级智能助手(比如基于 LLM 的 UI 自动化)的壁垒会被打破。
  • 技术管理者:如果团队依赖 Apple 生态,建议等待第一批通过等待列表的开发者实测报告,再决定是否投入资源适配新 Siri。

可以怎么做

  • 小范围验证:安装 iOS 27 Developer Beta,申请 Siri AI 等待列表。一旦通过,测试 Vision LLM 对你的应用场景的理解准确度。
  • 研究 Core AI 库:如果你的 App 内置了用 PyTorch 训练的模型(比如图像分类、语音处理),可以尝试用 coreai-torch 导出到 Apple 硬件上运行,对比推理性能和功耗。
  • 设置观察指标:关注两个关键信号——Vision LLM 在非理想屏幕(弹窗、隐私遮罩)下的表现,以及 Private Cloud Compute 上 Gemini 模型的推理延迟。

风险和不确定性

  • WWDC 2024 的 Apple Intelligence 承诺最终执行缩水,这次历史可能重演。Willison 也特别提到“我信了再看”。
  • Vision LLM 的屏幕理解能力边界未知:是否能处理视频、连续滚动、动态内容?Apple 没有在发布会中给出详细评测。
  • Private Cloud Compute 上的模型虽然承诺数据不泄露,但调用了 Google Cloud 和 NVIDIA 的硬件,工程可信度需要第三方安全审计报告验证。

来源 Simon Willison 博客:simonwillison.net/2026/Jun/8/… Apple Newsroom:www.apple.com/newsroom/20… Apple 安全研究博客(Expanding Private Cloud Compute):security.apple.com/blog/expand…