苹果最新的 UI 系统 so sucks,忍不住冲动试试我的想法

859 阅读14分钟

看看X 上网友对 ios26的吐槽:

Image

Image

乔布斯要是看到现在的 IOS UI 估计要跳脚了,乔帮主,真的是一声叹息,你离开这个世界太早了:

Image

Image

Image

每年六月,我们都像等待一场盛大的仪式一样,等待苹果在 WWDC 上定义下一个未来。

我们期待着那个“One More Thing”能再次震动整个科技行业。

但今年,我们等来的,可能只是对过去的又一次精美包装。

苹果端出了他们引以为傲的“Apple Intelligence”,一套看起来很努力的 AI 功能集。

然而,这些所谓的“智能”,却被小心翼翼地灌注进一个诞生于上世纪的交互范式里。

这就像给一辆精美的古董马车,装上了一个GPS导航仪,然后宣称它进入了智能交通时代。

别误会,我不是在抱怨几个像素的错位,或某个功能的缺失。我们真正失望的,是苹果在 AI 浪潮席卷一切的今天,所展现出的惊人“战略定力”——一种近乎顽固的、对旧有范式的坚守。

你的手机不是“笨”,它只是个“哑终端”

让我们先戳破一个幻象:你的手机今天所面临的问题,不是不够“智能”,而是太过“死板”。

它的核心交互逻辑,依然是那个由施乐帕克中心奠基、被乔布斯在1984年发扬光大的“桌面隐喻”:

一堆固定的图标,像一个个独立的店铺,安静地躺在那里等你“翻牌子”。

你需要扮演一个效率低下的“人工调度员”。

想订个机票?

好,先找到航旅 App,在里面查好航班,记住信息,再切到日历 App,手动创建日程,最后打开微信,把信息打字发给同事。

整个过程,你就是那个在不同部门之间跑腿传话的人。

你的“智能手机”,在这个过程中,本质上只是一个显示器和输入板,一个被动的工具集合。

社交媒体上对苹果新系统的吐槽,看似五花八门,实则都指向了这个根源。

用户想要的不是更多的开关和选项,不是一个让我们花更多时间去“整理”的数字房间。

图片

想要的是一个真正的智能伙伴。一个能预判你的需求,理解你的意图,并主动为你连接一切能力的“个人首席运营官”。

图片

而现在这个阶段的手机给出的,依然是一个需要你手动操作的“总机接线员”。

无独有偶,我在这篇文章完结的同一天,看到老罗和谢杨在 FounderPark 组织的 AI 论坛上聊到了同样的话题,截取了部分内容:

图片

原文链接:罗永浩:梁文锋建议我「靠嘴吃饭」,我想做个播客帮助科技创业者

下面这些内容是我差不多思考了两个多月的结果,同样,不一定成熟和正确,抛砖引玉,为的是大家都聊聊这个话题,越多专家关注,类似的进步会越快的发生:

颠覆现有移动端 GUI:从“图形界面”到“意图驱动的流式界面”

彻底抛弃“界面”这个概念,取而代之的是“流”。

我们不应该再把 UI 看作一个固定的、被设计好的“画板”,而应将其视为一条根据你的意图实时生成的“信息流”与“能力流”。

我愿称之为 “意图驱动的流式界面”(Intent-Driven Fluid Interface)

Image

想象一下它的运作方式:

场景一:清晨醒来

你拿起手机,看到的不是密密麻麻的红点和图标。屏幕上只有一张简洁的卡片流。

  • 最顶端:“早上好。今天有雨,下午三点开始,出门记得带上伞。你的第一项日程是9点的团队周会。”——这不是天气App和日历App的简单拼接,这是一个“清晨助理”Agent 对关键信息的提炼。
  • 中间是一个硕大的播放按钮:“开始收听‘科技早知道’?”——系统知道你80%的早晨都会听这个播客。
  • 下方是一个动态的工具栏:一个通往咖啡机控制的快捷键,一个通往车库门的开关。 这个界面上的一切,都是为你此刻“准备出门”的意图而生的。十分钟后,当你坐进车里,这个界面会自动消失,无缝切换到极简的导航和音乐控制流。

Image

场景二:商务午餐

你和客户走进餐厅,手机轻微震动。你瞥了一眼,界面已经变成了“商务午餐模式”。

  • 它自动识别了餐厅,并拉取了菜单。但它不是简单地显示菜单,而是用高亮标记了符合你客户(从你们过往的邮件和聊天记录中得知)口味偏好的菜品。
  • 下方出现了一个“录音并转录摘要”的按钮,方便你记录要点。
  • 旁边还有一个小工具,可以根据你和客户的职位、公司信息,快速从网上抓取最新的相关新闻或动态,为你提供潜在的聊天话题。

Image

这就是流式界面的吸引人的地方。

它存在的唯一目的,就是预测并满足你下一步的意图,并把达成意图所需的一切信息和工具,主动“推”到你的面前。

它把用户从“寻找功能”的苦差事中解放出来,回归到“思考目标”的本质。

要支撑这套流式界面,底层的技术架构必须是混合式的。

高频、低延迟的意图推断和UI元素生成,由端侧的SLM(小型语言模型)在NPU上完成,这保证了速度和隐私。

Image

而当你抛出一个复杂任务——“帮我女儿找一个下学期离家近、评价高的绘画班,并对比一下学费”——系统会将这个任务无缝打包,交给云端的LLM(大型语言模型)去处理,然后将结果以卡片流的形式返回给你。

整个操作系统,就像一个高度默契的“专家混合体”,永远用最合适的算力,去解决最合适的问题。

而且是用户可随时感知且参与交互过程的。

深度交互:当UI有了“情商”和“共情力”

一个真正的 AI 原生 OS,不仅要智商高,情商也要在线。

它需要超越功能性,具备对用户状态的感知和共情能力。

会“察言观色”的情绪感知 UI

借助摄像头、麦克风和可穿戴设备传来的多模态数据,系统可以构建一个实时的用户情绪模型。这不是为了窥探你的内心,而是为了提供更具人文关怀的交互体验。

  • 当你焦虑时,UI的色彩会趋向柔和,系统动画会变得平缓。它会像一个体贴的朋友,默默地把非紧急通知的优先级调到最低,也许还会在锁屏界面上生成一个引导你进行深呼吸的、几乎无感的动态光晕。

Image

  • 当你专注时,它会自动进入“心流”状态。无关的元素会像水墨一样淡化隐去,只留下你当前任务所需的核心工具。这种专注模式不是你手动开启的,而是系统“观察”到你进入状态后,主动为你营造的。

Image

能“量体裁衣”的能力感知交互

传统的“辅助功能”是被动和静态的,而 AI 原生的交互应该能主动适应你的“当下能力”。

  • 你一手提着东西,一手刷手机。系统通过传感器感知到你的“单手握持”状态,于是,所有需要点击的按钮,都像磁铁一样自动滑向你拇指可以轻松触及的热区。
  • 你开始跑步,系统自动切换成“运动模式”,界面只剩心率、配速等关键信息,所有交互都切换为语音优先。
  • 对于一个孩子或者有操作障碍的老人,系统能自动调整UI的布局、简化逻辑、增大触控面积,实现“千人千面”的无障碍体验。

Image

交互方式本身,从一个固定的设计,变成了一种可以被 AI 按需生成和适配的动态能力。

终极形态:从“App孤岛”到“Agent联邦”

现在,我们来谈谈最核心的变革:彻底摧毁 App 的围墙。

今天的 App 生态,就像一个个独立的“手工作坊”。

每个作坊都有自己的工具和原料,但彼此之间老死不相往来。

而用户,就是那个必须亲自跑遍全城,挨个委托这些作坊才能完成一件事的人。

我记得前一段有个哥们靠整合售卖自己编写的苹果指令合集

AI 原生 OS 必须进化成一个 “智能体联邦”(Federation of Agents)。

在这个联邦里,所有的 App 都被“解构”成向系统提供标准能力的“智能体”(Agent)。

Image

让我们用一个具体的例子,来感受这种云泥之别:

你的指令:“下周三约一下张伟碰个面,找个我们俩都方便的时间,在公司附近订个安静的咖啡馆,把行程发给我们。”

在旧系统上:Siri 可能会帮你打开日历,然后……就没有然后了。你需要自己去查日历、问张伟、打开地图App搜索、再打电话或用App预订、最后手动发通知。

Image

在 Agent 联邦 OS 上,

总调度Agent(OS核心) 接到指令,立刻理解了这是一个包含“时间协调、地点搜索、预订、通知”的多步骤任务。

它像一个项目经理一样开始派单:

  • “@日历Agent,查询我和张伟下周三的共同空闲时段。”

  • 日历Agent(在获得授权后)立刻返回结果:“下午2-4点。”

  • “@地图Agent,在公司方圆1公里内,搜索标签为‘安静’、评分高于4.5、且在下午2-4点接受预订的咖啡馆。”

  • 地图Agent返回了“芸芸咖啡”和“独处角落”两个选项。

  • 总调度Agent将这两个选项以卡片流的形式呈现给你,你点选了“芸芸咖啡”。

  • “@预订Agent,以我的名义,预订芸芸咖啡,下周三下午2:30,两人位。

  • 预订成功后,总调度Agent再次调用日历Agent创建日程,并调用通讯Agent,自动生成一条包含时间、地点、预订确认信息的简洁通知,分别发送给你和张伟。

Image

你只下达了一次意图,系统就在后台完成了一整套过去需要你手动切换5个App、操作十几步才能完成的工作流。

这才是智能。

它将所有App的能力“原子化”并汇入一个统一的“能力池”,由一个总调度Agent为你按需编排调用。

Image

无独有偶,我看小互也转了这个 Gemini 2.5 Flash-Lite 生成式 UI 的视频介绍:

Image

我的构想:一个“个人能力OS”的四根支柱

要构建这样一个革命性的操作系统,需要四根坚实的支柱:Agent、Memory、Tools、Data (AMTD)。

  1. 1. Agent (智能体):这是 OS 的大脑,一个遵循“推理-行动”(Reason-Act)循环的主动执行者。它负责理解、规划、决策,是整个系统的认知核心。

  2. 2. Memory (记忆):OS 必须拥有超越聊天记录的、真正的长期和短期记忆。它通过“检索增强生成”(RAG)技术,记住你的偏好(“我不吃辣”)、你的人际关系(“张伟是我的重要客户”)、你的知识背景。这样,它的每一次互动,都建立在对你完整认知的基础之上。

  3. 3. Tools (工具集):这是 Agent 连接世界的手和脚。所有 App 的功能、所有系统的 API、所有云端的服务,都被标准化封装成即插即用的“工具”,供 Agent 随时调用。

  4. 4. Data (数据) & Privacy (隐私):这是最关键,也最敏感的一环。要让 Agent 足够了解你,就必须喂给它海量的个人数据。但这种喂养,绝不能以牺牲隐私为代价。解决方案必须是决绝的:

    • 数据主权归于用户:所有原始数据默认存储在本地安全隔区,绝不上云。
    • 端侧智能优先:绝大多数的个性化建模,都在手机的NPU上由小型模型完成。你的数据,只为你一人服务。
    • 原子化授权:任何需要云端大模型参与的任务,都必须对所需的最少数据进行“一次一授权”。用户必须能清晰地看到,是哪些“脱敏后的信息”被临时发送出去。

Image

别再给马车换坐垫了

苹果的“Apple Intelligence”是一次谨慎的、聪明的、但毫无勇气的尝试。

它试图在不触动旧有地基的前提下,给房子做一次漂亮的软装。

但 AI 带来的,是一场足以改变地壳结构的地震。苹果这次太保守了或者说试一次被动的不得不的保守。

听说他们 AI 加持版的 Siri 又跳票了。

我们需要的,不是一个更好用的 App 启动器,而是一个能放大我们个人能力的智能伙伴。

我上面讲的“意图驱动的流式界面”、“Agent联邦”和“个人能力OS”,并非遥远的科幻。

构建它的所有关键技术——LLM、SLM、RAG、Agent——在今天都已经初具雏形。

而且,在 web 端,非常多的Agent 产品已经给出了很好的范式与启发。

抄作业总可以的。

问题是,那个曾经用 iPhone 重新定义了“手机”的巨人,这次会不会只满足于,给他的古董马车,换上一副更柔软的坐垫?

所以,我按照自己的理解画一下

理想中的设计

Image

外部智能体交互层

  • 功能:
    • 用户通过UI(用户界面)或交互发起请求,或者系统主动识别用户需求。

    • 与外部智能体(如外部智能体1、外部智能体2…N)进行交互。

    • 智能体集成层负责协调和处理来自不同外部智能体的交互请求。

核心处理与适配层

  • 功能:
    • 情绪识别模块:识别用户的情绪状态。
    • 能力评估模块:评估用户的能力或认知状态。
    • 智能体集成层:负责接收和处理来自外部智能体的请求,并将请求传递给核心模块。

    • 更新UI/交互或通知核心模块:根据请求的内容,决定是否需要更新UI或通知核心模块进行进一步处理。

    • 核心模块:

    • 生成式UI/交互引擎:根据情绪识别模块和能力评估模块的输出,生成个性化的UI或交互内容。

    • 动态UI/交互呈现:将生成的UI或交互内容动态地呈现给用户。

用户交互层

  • 功能:
    • 用户交互:用户通过多模态传感器(如语音、文本、手势等)与系统进行交互。

    • 多模态传感器:收集用户的多模态输入(如语音、文本、图像等),并将这些输入传递给核心处理层进行分析和处理。

整体交互流程

  1. 1. 用户通过UI或交互发起请求,或者系统主动识别用户需求。

  2. 2. 请求通过外部智能体交互层传递到智能体集成层。

  3. 3. 智能体集成层将请求传递给核心处理与适配层。

  4. 4. 根据请求的内容,更新UI/交互或通知核心模块进行进一步处理。

  5. 5. 核心模块(情绪识别模块和能力评估模块)分析用户的情绪和能力状态。

  6. 6. 生成式UI/交互引擎根据分析结果生成个性化的UI或交互内容。

  7. 7. 动态UI/交互呈现模块将生成的内容呈现给用户。

  8. 8. 用户通过多模态传感器与系统进行进一步交互。

相信 AI 时代的移动端交互会以更灵活,简洁直接的方式跟用户进行交互。

而不再是现在这样下载一堆堆app,在不停的切换 app 这个熟悉的动作,每天在每台手机上都会发生,

谁能先抓住这个变革的机会,也许谁就能开启一个新的移动端时代。