Apple Siri AI 新信号：用 Vision LLM 读取屏幕，但这次该信吗？WWDC 2026 上 Apple

WWDC 2026 上 Apple 宣布了下一代 Siri AI，核心变化不是更聪明的聊天，而是让 Siri 能“看”你的屏幕。Simon Willison 在分析中指出，Apple 正利用 Vision LLM 从用户屏幕提取信息，从而绕过每个应用单独集成的麻烦。同时 Apple 开放了 Core AI 库，允许开发者将 PyTorch 模型直接跑到自家硬件上。但 Willison 自己都强调：“我在亲眼验证前，绝不会再像 2024 年那样轻信。”

WWDC 2026 为什么值得留意：对 iOS 开发者来说，这是一个明确的架构信号——Apple 正在用端侧视觉模型替代传统的应用内 Siri 集成，并开放硬件推理能力，但技术可行性不等于产品可靠性。

发生了什么

Apple 在 2026 年 6 月 8 日的 WWDC 上发布了新一代 Siri AI，核心能力依赖 Vision LLM 从用户屏幕读取内容，从而实现跨应用操作（比如“把这张图片里的文字翻译成中文”）。
为了处理复杂请求（agentic tool-use、复杂推理），Apple 许可了定制 Gemini 派生模型，运行在 Private Cloud Compute 上——合作方是 Google Cloud 和 NVIDIA GPU。
同时推出了 Core AI 库，支持 PyTorch 模型通过 coreai-torch 扩展直接转换为 Apple 硬件可运行的程序，无需额外框架适配。

变化在哪里

过去 Siri 想要理解应用内容，需要应用主动提供 App Intent 或 Shortcuts 集成。现在 Apple 试图用视觉模型直接读取屏幕，这个路径的变化很大：开发者不用再写集成代码，但用户数据在模型推理过程中是如何处理的？Apple 承诺视觉信息不离开设备，但复杂度明显高于文本。

谁会受影响

iOS 开发者：短期不需要改动现有应用——Vision LLM 会自动理解屏幕内容，但这也意味着你失去了对 Siri 交互的控制。如果你的应用依赖精确意图匹配，建议关注 Core AI 库的本地推理能力，将部分逻辑下放到设备端。
AI 创业者：Vision LLM + 本地推理这条路如果验证可行，桌面级智能助手（比如基于 LLM 的 UI 自动化）的壁垒会被打破。
技术管理者：如果团队依赖 Apple 生态，建议等待第一批通过等待列表的开发者实测报告，再决定是否投入资源适配新 Siri。

可以怎么做

小范围验证：安装 iOS 27 Developer Beta，申请 Siri AI 等待列表。一旦通过，测试 Vision LLM 对你的应用场景的理解准确度。
研究 Core AI 库：如果你的 App 内置了用 PyTorch 训练的模型（比如图像分类、语音处理），可以尝试用 coreai-torch 导出到 Apple 硬件上运行，对比推理性能和功耗。
设置观察指标：关注两个关键信号——Vision LLM 在非理想屏幕（弹窗、隐私遮罩）下的表现，以及 Private Cloud Compute 上 Gemini 模型的推理延迟。

风险和不确定性

WWDC 2024 的 Apple Intelligence 承诺最终执行缩水，这次历史可能重演。Willison 也特别提到“我信了再看”。
Vision LLM 的屏幕理解能力边界未知：是否能处理视频、连续滚动、动态内容？Apple 没有在发布会中给出详细评测。
Private Cloud Compute 上的模型虽然承诺数据不泄露，但调用了 Google Cloud 和 NVIDIA 的硬件，工程可信度需要第三方安全审计报告验证。

来源 Simon Willison 博客：simonwillison.net/2026/Jun/8/… Apple Newsroom：www.apple.com/newsroom/20… Apple 安全研究博客（Expanding Private Cloud Compute）：security.apple.com/blog/expand…