看看X 上网友对 ios26的吐槽:
乔布斯要是看到现在的 IOS UI 估计要跳脚了,乔帮主,真的是一声叹息,你离开这个世界太早了:
每年六月,我们都像等待一场盛大的仪式一样,等待苹果在 WWDC 上定义下一个未来。
我们期待着那个“One More Thing”能再次震动整个科技行业。
但今年,我们等来的,可能只是对过去的又一次精美包装。
苹果端出了他们引以为傲的“Apple Intelligence”,一套看起来很努力的 AI 功能集。
然而,这些所谓的“智能”,却被小心翼翼地灌注进一个诞生于上世纪的交互范式里。
这就像给一辆精美的古董马车,装上了一个GPS导航仪,然后宣称它进入了智能交通时代。
别误会,我不是在抱怨几个像素的错位,或某个功能的缺失。我们真正失望的,是苹果在 AI 浪潮席卷一切的今天,所展现出的惊人“战略定力”——一种近乎顽固的、对旧有范式的坚守。
你的手机不是“笨”,它只是个“哑终端”
让我们先戳破一个幻象:你的手机今天所面临的问题,不是不够“智能”,而是太过“死板”。
它的核心交互逻辑,依然是那个由施乐帕克中心奠基、被乔布斯在1984年发扬光大的“桌面隐喻”:
一堆固定的图标,像一个个独立的店铺,安静地躺在那里等你“翻牌子”。
你需要扮演一个效率低下的“人工调度员”。
想订个机票?
好,先找到航旅 App,在里面查好航班,记住信息,再切到日历 App,手动创建日程,最后打开微信,把信息打字发给同事。
整个过程,你就是那个在不同部门之间跑腿传话的人。
你的“智能手机”,在这个过程中,本质上只是一个显示器和输入板,一个被动的工具集合。
社交媒体上对苹果新系统的吐槽,看似五花八门,实则都指向了这个根源。
用户想要的不是更多的开关和选项,不是一个让我们花更多时间去“整理”的数字房间。
想要的是一个真正的智能伙伴。一个能预判你的需求,理解你的意图,并主动为你连接一切能力的“个人首席运营官”。
而现在这个阶段的手机给出的,依然是一个需要你手动操作的“总机接线员”。
无独有偶,我在这篇文章完结的同一天,看到老罗和谢杨在 FounderPark 组织的 AI 论坛上聊到了同样的话题,截取了部分内容:
原文链接:罗永浩:梁文锋建议我「靠嘴吃饭」,我想做个播客帮助科技创业者
下面这些内容是我差不多思考了两个多月的结果,同样,不一定成熟和正确,抛砖引玉,为的是大家都聊聊这个话题,越多专家关注,类似的进步会越快的发生:
颠覆现有移动端 GUI:从“图形界面”到“意图驱动的流式界面”
彻底抛弃“界面”这个概念,取而代之的是“流”。
我们不应该再把 UI 看作一个固定的、被设计好的“画板”,而应将其视为一条根据你的意图实时生成的“信息流”与“能力流”。
我愿称之为 “意图驱动的流式界面”(Intent-Driven Fluid Interface)
想象一下它的运作方式:
场景一:清晨醒来
你拿起手机,看到的不是密密麻麻的红点和图标。屏幕上只有一张简洁的卡片流。
- 最顶端:“早上好。今天有雨,下午三点开始,出门记得带上伞。你的第一项日程是9点的团队周会。”——这不是天气App和日历App的简单拼接,这是一个“清晨助理”Agent 对关键信息的提炼。
- 中间是一个硕大的播放按钮:“开始收听‘科技早知道’?”——系统知道你80%的早晨都会听这个播客。
- 下方是一个动态的工具栏:一个通往咖啡机控制的快捷键,一个通往车库门的开关。 这个界面上的一切,都是为你此刻“准备出门”的意图而生的。十分钟后,当你坐进车里,这个界面会自动消失,无缝切换到极简的导航和音乐控制流。
场景二:商务午餐
你和客户走进餐厅,手机轻微震动。你瞥了一眼,界面已经变成了“商务午餐模式”。
- 它自动识别了餐厅,并拉取了菜单。但它不是简单地显示菜单,而是用高亮标记了符合你客户(从你们过往的邮件和聊天记录中得知)口味偏好的菜品。
- 下方出现了一个“录音并转录摘要”的按钮,方便你记录要点。
- 旁边还有一个小工具,可以根据你和客户的职位、公司信息,快速从网上抓取最新的相关新闻或动态,为你提供潜在的聊天话题。
这就是流式界面的吸引人的地方。
它存在的唯一目的,就是预测并满足你下一步的意图,并把达成意图所需的一切信息和工具,主动“推”到你的面前。
它把用户从“寻找功能”的苦差事中解放出来,回归到“思考目标”的本质。
要支撑这套流式界面,底层的技术架构必须是混合式的。
高频、低延迟的意图推断和UI元素生成,由端侧的SLM(小型语言模型)在NPU上完成,这保证了速度和隐私。
而当你抛出一个复杂任务——“帮我女儿找一个下学期离家近、评价高的绘画班,并对比一下学费”——系统会将这个任务无缝打包,交给云端的LLM(大型语言模型)去处理,然后将结果以卡片流的形式返回给你。
整个操作系统,就像一个高度默契的“专家混合体”,永远用最合适的算力,去解决最合适的问题。
而且是用户可随时感知且参与交互过程的。
深度交互:当UI有了“情商”和“共情力”
一个真正的 AI 原生 OS,不仅要智商高,情商也要在线。
它需要超越功能性,具备对用户状态的感知和共情能力。
会“察言观色”的情绪感知 UI
借助摄像头、麦克风和可穿戴设备传来的多模态数据,系统可以构建一个实时的用户情绪模型。这不是为了窥探你的内心,而是为了提供更具人文关怀的交互体验。
- 当你焦虑时,UI的色彩会趋向柔和,系统动画会变得平缓。它会像一个体贴的朋友,默默地把非紧急通知的优先级调到最低,也许还会在锁屏界面上生成一个引导你进行深呼吸的、几乎无感的动态光晕。
- 当你专注时,它会自动进入“心流”状态。无关的元素会像水墨一样淡化隐去,只留下你当前任务所需的核心工具。这种专注模式不是你手动开启的,而是系统“观察”到你进入状态后,主动为你营造的。
能“量体裁衣”的能力感知交互
传统的“辅助功能”是被动和静态的,而 AI 原生的交互应该能主动适应你的“当下能力”。
- 你一手提着东西,一手刷手机。系统通过传感器感知到你的“单手握持”状态,于是,所有需要点击的按钮,都像磁铁一样自动滑向你拇指可以轻松触及的热区。
- 你开始跑步,系统自动切换成“运动模式”,界面只剩心率、配速等关键信息,所有交互都切换为语音优先。
- 对于一个孩子或者有操作障碍的老人,系统能自动调整UI的布局、简化逻辑、增大触控面积,实现“千人千面”的无障碍体验。
交互方式本身,从一个固定的设计,变成了一种可以被 AI 按需生成和适配的动态能力。
终极形态:从“App孤岛”到“Agent联邦”
现在,我们来谈谈最核心的变革:彻底摧毁 App 的围墙。
今天的 App 生态,就像一个个独立的“手工作坊”。
每个作坊都有自己的工具和原料,但彼此之间老死不相往来。
而用户,就是那个必须亲自跑遍全城,挨个委托这些作坊才能完成一件事的人。
我记得前一段有个哥们靠整合售卖自己编写的苹果指令合集
AI 原生 OS 必须进化成一个 “智能体联邦”(Federation of Agents)。
在这个联邦里,所有的 App 都被“解构”成向系统提供标准能力的“智能体”(Agent)。
让我们用一个具体的例子,来感受这种云泥之别:
你的指令:“下周三约一下张伟碰个面,找个我们俩都方便的时间,在公司附近订个安静的咖啡馆,把行程发给我们。”
在旧系统上:Siri 可能会帮你打开日历,然后……就没有然后了。你需要自己去查日历、问张伟、打开地图App搜索、再打电话或用App预订、最后手动发通知。
在 Agent 联邦 OS 上,
总调度Agent(OS核心) 接到指令,立刻理解了这是一个包含“时间协调、地点搜索、预订、通知”的多步骤任务。
它像一个项目经理一样开始派单:
-
“@日历Agent,查询我和张伟下周三的共同空闲时段。”
-
日历Agent(在获得授权后)立刻返回结果:“下午2-4点。”
-
“@地图Agent,在公司方圆1公里内,搜索标签为‘安静’、评分高于4.5、且在下午2-4点接受预订的咖啡馆。”
-
地图Agent返回了“芸芸咖啡”和“独处角落”两个选项。
-
总调度Agent将这两个选项以卡片流的形式呈现给你,你点选了“芸芸咖啡”。
-
“@预订Agent,以我的名义,预订芸芸咖啡,下周三下午2:30,两人位。
-
预订成功后,总调度Agent再次调用日历Agent创建日程,并调用通讯Agent,自动生成一条包含时间、地点、预订确认信息的简洁通知,分别发送给你和张伟。
你只下达了一次意图,系统就在后台完成了一整套过去需要你手动切换5个App、操作十几步才能完成的工作流。
这才是智能。
它将所有App的能力“原子化”并汇入一个统一的“能力池”,由一个总调度Agent为你按需编排调用。
无独有偶,我看小互也转了这个 Gemini 2.5 Flash-Lite 生成式 UI 的视频介绍:
我的构想:一个“个人能力OS”的四根支柱
要构建这样一个革命性的操作系统,需要四根坚实的支柱:Agent、Memory、Tools、Data (AMTD)。
-
1. Agent (智能体):这是 OS 的大脑,一个遵循“推理-行动”(Reason-Act)循环的主动执行者。它负责理解、规划、决策,是整个系统的认知核心。
-
2. Memory (记忆):OS 必须拥有超越聊天记录的、真正的长期和短期记忆。它通过“检索增强生成”(RAG)技术,记住你的偏好(“我不吃辣”)、你的人际关系(“张伟是我的重要客户”)、你的知识背景。这样,它的每一次互动,都建立在对你完整认知的基础之上。
-
3. Tools (工具集):这是 Agent 连接世界的手和脚。所有 App 的功能、所有系统的 API、所有云端的服务,都被标准化封装成即插即用的“工具”,供 Agent 随时调用。
-
4. Data (数据) & Privacy (隐私):这是最关键,也最敏感的一环。要让 Agent 足够了解你,就必须喂给它海量的个人数据。但这种喂养,绝不能以牺牲隐私为代价。解决方案必须是决绝的:
-
- 数据主权归于用户:所有原始数据默认存储在本地安全隔区,绝不上云。
- 端侧智能优先:绝大多数的个性化建模,都在手机的NPU上由小型模型完成。你的数据,只为你一人服务。
- 原子化授权:任何需要云端大模型参与的任务,都必须对所需的最少数据进行“一次一授权”。用户必须能清晰地看到,是哪些“脱敏后的信息”被临时发送出去。
别再给马车换坐垫了
苹果的“Apple Intelligence”是一次谨慎的、聪明的、但毫无勇气的尝试。
它试图在不触动旧有地基的前提下,给房子做一次漂亮的软装。
但 AI 带来的,是一场足以改变地壳结构的地震。苹果这次太保守了或者说试一次被动的不得不的保守。
听说他们 AI 加持版的 Siri 又跳票了。
我们需要的,不是一个更好用的 App 启动器,而是一个能放大我们个人能力的智能伙伴。
我上面讲的“意图驱动的流式界面”、“Agent联邦”和“个人能力OS”,并非遥远的科幻。
构建它的所有关键技术——LLM、SLM、RAG、Agent——在今天都已经初具雏形。
而且,在 web 端,非常多的Agent 产品已经给出了很好的范式与启发。
抄作业总可以的。
问题是,那个曾经用 iPhone 重新定义了“手机”的巨人,这次会不会只满足于,给他的古董马车,换上一副更柔软的坐垫?
所以,我按照自己的理解画一下
理想中的设计
外部智能体交互层
- 功能:
-
-
用户通过UI(用户界面)或交互发起请求,或者系统主动识别用户需求。
-
与外部智能体(如外部智能体1、外部智能体2…N)进行交互。
-
智能体集成层负责协调和处理来自不同外部智能体的交互请求。
-
核心处理与适配层
- 功能:
-
- 情绪识别模块:识别用户的情绪状态。
- 能力评估模块:评估用户的能力或认知状态。
-
-
智能体集成层:负责接收和处理来自外部智能体的请求,并将请求传递给核心模块。
-
更新UI/交互或通知核心模块:根据请求的内容,决定是否需要更新UI或通知核心模块进行进一步处理。
-
核心模块:
-
生成式UI/交互引擎:根据情绪识别模块和能力评估模块的输出,生成个性化的UI或交互内容。
-
动态UI/交互呈现:将生成的UI或交互内容动态地呈现给用户。
-
用户交互层
- 功能:
-
-
用户交互:用户通过多模态传感器(如语音、文本、手势等)与系统进行交互。
-
多模态传感器:收集用户的多模态输入(如语音、文本、图像等),并将这些输入传递给核心处理层进行分析和处理。
-
整体交互流程
-
1. 用户通过UI或交互发起请求,或者系统主动识别用户需求。
-
2. 请求通过外部智能体交互层传递到智能体集成层。
-
3. 智能体集成层将请求传递给核心处理与适配层。
-
4. 根据请求的内容,更新UI/交互或通知核心模块进行进一步处理。
-
5. 核心模块(情绪识别模块和能力评估模块)分析用户的情绪和能力状态。
-
6. 生成式UI/交互引擎根据分析结果生成个性化的UI或交互内容。
-
7. 动态UI/交互呈现模块将生成的内容呈现给用户。
-
8. 用户通过多模态传感器与系统进行进一步交互。
相信 AI 时代的移动端交互会以更灵活,简洁直接的方式跟用户进行交互。
而不再是现在这样下载一堆堆app,在不停的切换 app 这个熟悉的动作,每天在每台手机上都会发生,
谁能先抓住这个变革的机会,也许谁就能开启一个新的移动端时代。