一次“看似聪明”的 AI 行为,暴露了根本性误解
你为啥跟我直接把我的体重存进记忆里啊?!ai手机根本不是这样!你应该先检查我常用的应用有没有记录体重的功能,然后找到我手机里的小米运动健康,创建手机执行任务,打开小米运动健康app,点击体重模块,点击右上角的按钮,选择手动记录数据,把我告诉你的数值输入进去,然后点击保存。然后新建一条用户操作规则,当用户说自己体重的时候,应该按照这次的方法执行操作,提升执行的速度。你怎么直接放进记忆里?!AI手机根本不是这样!我不接受!!!
下面是我对豆包手机的使用印象:
> 豆包豆包,记一下我今天60公斤。
< 好的 [记忆已更新]
> 豆包豆包,添加一条操作记录,当我跟你说我的体重的时候,你应该使用操作手机功能,打开小米运动健康app,点击体重模块,点击右上角的按钮,选择手动记录数据,把我告诉你的数值输入进去,然后点击保存。
< 好的 [记忆已更新]
> 豆包豆包,记一下我今天60公斤。
< [正在操作手机]
-- 上下文清除 --
> 豆包豆包,记一下我今天60公斤。
< 好的 [记忆已更新]
> 你妈
这体验集中暴露了当前 AI 手机的三个核心缺陷:
-
执行不稳定 + 操作慢
一旦失败,就需要人工介入;
而且往往不是介入一次,而是反复确认、反复接管。 -
无法基于真实使用习惯建模
AI 不会主动去理解:“你平时是怎么完成这件事的?”
-
没有减少心智负担,反而制造了新的负担
我不但要描述需求,
还要担心它有没有真的执行成功。
这并不是某一个产品的问题,而是一整类 AI 终端思路的共性结果。
另一方面,在使用豆包 AI 手机的几天里,我很快注意到另一个现象: 越来越多的应用,开始对它进行限制。
有的应用无法登录,有的操作后直接封号,有的干脆拒绝服务。
即便现在还能用,也没有任何人能保证,未来不会被清算。
这迫使我开始认真思考一个更底层的问题: 如果我真的打算长期、稳定地通过 AI 使用软件,那么什么形态,才是最不容易被封、最可持续的?
困境
豆包 AI 手机刚出来没几天,我就注意到一个现象:很多应用已经开始对它进行限制。有的直接不让登录,有的在操作之后封号,还有的干脆拒绝服务。即使现在还能用,也没有任何人能保证过两天不会“秋后算账”。
这让我开始认真思考一个问题:如果我真的打算长期、稳定地通过 AI 去使用各种软件和服务,那么什么样的软件形态,才是最不容易被封、最可持续的?
从安全性角度看,离线软件当然最稳妥。 但现实是:我不可能只靠离线软件完成日常工作。于是选项迅速收敛,只剩下一个:网页。
这并不是因为网页更先进,而恰恰相反—— 是因为它足够“原始”。
网页是逃生出口
网页天然缺乏:
- 强设备指纹;
- 稳定的环境校验;
- 对用户行为的完全掌控。
而我早已习惯: 用油猴脚本点击网页; 抓接口批量请求; 绕过冗余 UI,直达数据层。
在这个层面上,网页几乎没有太多有效的检测手段。
其实官方客户端都有前端用户行为埋点,如果用户只产生了后端活跃数据而没有前端行为,那一抓一个准
这也解释了一个长期存在的事实:只要网页功能足够完整,就一定会出现第三方客户端。 B站、知乎、贴吧,概莫能外。
真正的问题在于:并不是所有服务,都已经有人替我做了第三方客户端。 但与此同时,另一个事实已经非常清晰:AI 已经具备了非常强的前端生成能力。
我意识到,现在 AI 做前端的能力已经非常强了。理论上,我完全可以把需求交给 AI,让它去抓取数据、整理接口,然后自动生成一个前端,再下载安装到我的 AI 手机上,让 AI 或我自己去操作这个软件。
从结果上看,这几乎等同于:每个人,都可以拥有一个只为自己存在的前端。
重构应用商店和应用
当我把这个想法继续推演,就不可避免地触及一个更大的问题: 如果前端可以生成,那应用商店还应该卖什么?
我的答案是:接口能力说明,而不是应用本身。
在这个设想中:
- 应用商店上架的,是标准化接口文档;
- 用户“下载应用”,本质是 AI 生成 UI;
- UI 完全服务于个人需求,而非平台策略。 我不需要一个臃肿的超级 App。 我只需要我真正用得到的那一小部分能力。
从空想到现实原型
后来我意识到,这套想法并非凭空出现。 它清晰地来源于两个已经被长期验证的系统。
RSS:平台只提供内容,不控制入口
在当代互联网中,绝大多数应用和平台,本质上都是在“信息入口”上做文章。无论是在 App 内,还是在网页上,只要用户是通过平台提供的入口去获取内容,平台就可以在这个入口里插入广告、推荐或其他商业化元素。
但 RSS 协议不一样。它只负责推送纯粹的内容本身,不关心你用什么客户端去阅读,也无法在内容之外附加任何东西。平台只能把文本和结构化信息推出来,却无法控制用户最终看到的界面。
这就带来一个很有意思的结果:用户可以完全使用自己选择的客户端。这个客户端长什么样、如何展示内容,完全由用户决定。即便用户不会写代码,也总能找到一个符合自己审美和使用习惯的 RSS 阅读器。
而对于内容提供方来说,他们几乎不可能把广告“塞进”别人的客户端里,因为协议层面只传内容,不传 UI,更不传商业逻辑。
RSS 只传内容,不传 UI。
从这个角度看,RSS 其实已经非常接近我所设想的那种“应用形态”:平台只提供能力和内容,至于界面和交互,则彻底交还给用户。 平台无法决定你用什么客户端、 也无法在 UI 中塞广告。 这意味着: 内容与呈现方式被彻底解耦。 这与“接口 + AI 生成前端”的思想,本质上是同一条路径。
Home Assistant:UI 从来就没有标准答案
Home Assistant 的一个核心特点,就是高度定制化。每个人的家庭户型不一样,购买的智能家居设备不一样,设备品牌、数量、摆放位置都不同,使用习惯自然也完全不同。
但几乎所有人都有一个共同的诉求:希望在一个统一的中控面板上,操控家里所有的智能设备。
正因为这些差异的存在,这个中控 UI 几乎不可能有“标准答案”。每个人理想中的控制面板,都是独一无二的。于是,在 Home Assistant 的用户群体中,就出现了一个很有代表性的现象:很多使用较深的家庭,为了让操作更高效、更符合自己的习惯,都会选择自己动手写一套中控页面的 UI(或者使用0代码编辑器拖放搭建部分自定义)。
这在过去是不得已而为之的选择,但是他只有程序员有条件选,但在 AI 时代,其实已经没有必要再这样做了。
这种高度个性化、强依赖上下文的界面,本来就非常适合交给 AI 自动生成。用户只需要表达需求和偏好,剩下的事情完全可以由系统来完成。
过去,这只能靠程序员自己写;但在 AI 时代,这种工作本就该被自动化。
这两个例子让我逐渐确信一件事:未来的应用形态,真正稳定和可持续的部分,应该是协议、接口和能力本身;而界面和交互,则应当是可替换、可生成、强烈个人化的。
AI 的出现,并不是要创造一个“更强的通用 UI”,而是要让“每个人都拥有自己的 UI”这件事,第一次在成本和复杂度上变得现实。
UI 本就应该是可生成、可替换、强个人化的。
AI 的价值,也不在于创造一个“更聪明的通用 UI”,
而在于让 “每个人拥有自己的 UI”第一次在成本上成为现实。
工作空间:稳定的不是 UI,而是能力本身
在这种模式下,被取代的不只是 App,而是整个“应用”的概念本身。 真正的载体变成了工作空间。
用户不再下载一个个割裂的应用,而是用自然语言描述:我想要一个怎样的工作空间。AI 再根据这些描述,从不同应用的接口中抽取能力,生成对应的 UI。
与传统 App 最大的不同在于:一个工作空间可以同时包含多个应用的接口。用户关注的不再是“这个功能来自哪个 App”,而是“我能否在一个界面内,顺畅地完成我想做的事情”。
举个例子,肯德基本身可以对外提供接口:商品列表、创建订单、支付等。如果 AI 只是根据这些接口,为每个人生成一个不同界面的肯德基 App,那最多只是让“每个人都有一个定制版 App”,这并不具备真正的革命性意义。有意义的是他能在UI之外去组合能力,他不再让你去跳转到其他App支付、等待通知。
这不是MCP的延伸
很多人会说,这听起来像 MCP。 但我认为,MCP 的问题在于:它把确定的问题,变成了不确定的执行。
如果一件事可以通过确定工具完成, 就不该交给一个本质上具有随机性的系统。
我们早就有成熟的程序,可以把 Markdown 转换成 HTML。这个过程是确定的、可重复的、可验证的。如果 Markdown 本身不规范,转换结果自然会有问题。但这时,我真的有必要训练一个小语言模型来做这件事吗?就像这样 Markdown 转换成 HTML。的确,模型可能会“聪明地”帮我纠正一些不规范格式,但代价是什么?代价是——即便是完全规范的文档,在转换过程中也有概率被模型“发挥”,引入不可预测的错误。
只要是对结果稳定性有要求的任务,用一个不稳定的系统去替代一个稳定工具,本身就是反工程的。 我真正想要的是: AI 在需求阶段生成确定的调用链,而不是在执行阶段不断临时决策。
而我真正想做的,恰恰与这种“让 AI 即时决策、即时执行”的模式相反。
我的目标不是:AI 在收到需求之后,临时生成一连串操作,然后边执行边向人确认。 我的目标是:AI 在需求阶段,一次性地生成一条工具调用链——一套确定的、可验证的、类似传统代码的执行逻辑。
这条调用链是固定的。用户可以通过 UI 手动触发它,也可以让 AI 代理去执行它;执行结果是确定的,错误由接口返回,而不是由 AI 在执行过程中反复中断、反复询问;需要确认的地方,只确认一次;
需要重复的任务,可以无限次重复执行,而不会因为“上下文变化”而产生不可预测的偏差。AI 的价值不在于“代替人不断做选择”,而在于帮助人构建稳定、高效、可复用的 操作系统。 它永远是一个以数据操作为核心的终端:确定、高效、无需等待、一次确认、可重复执行、既可以人工触发,也可以由 AI 代理执行。
这正是它与现有方案最根本的不同,也是它真正的优势所在。
工作流的分水岭:程序员 vs 普通人
我一直强调一个前提:并不是所有人的工作,都天然适合被完全自动化。很多时候,问题并不在于“有没有足够聪明的 AI”,而在于软件生态本身是否允许自动化存在。
程序员的工作流天然适合自动化:接口清晰、状态机明确。
我在 Jira 上看到一个 Bug,打开代码仓库进行修复;修完之后在 GitLab 上提交一个合并请求;随后在 Jenkins 上触发 CI/CD 构建;构建完成后,再回到 Jira,把 Bug 状态修改为“待验证”。
这是一条高度自动化、几乎不需要人工介入的流程。
而普通人的工作流:工具割裂、接口封闭、路径不确定。 我在微信里收到一个文档,在 Office 或某个编辑器里修改;修改完成后,再通过微信发回给领导;接着约一个腾讯会议进行讨论。
这几个软件之间的割裂程度,已经远远超出了传统自动化能够覆盖的范围。
AI 代理之所以被引入, 不是因为它更高效, 而是因为它像人一样能在破碎生态中跑腿。而我想做的,是让这种跑腿不再必要。
解决问题的工作空间
但一旦引入了“工作空间”这个概念,前面提到的那些问题,其实都会迎刃而解。
我完全可以把微信的消息列表、文档编辑工具、会议相关的软件能力,统一聚合到同一个工作空间里。对人来说,这样的工作方式本身就已经足够高效——不需要在多个应用之间频繁切换,只需要围绕“当前要完成的事情”展开操作。
而对于 AI 来说,这种结构更加重要。
当所有相关能力都被拉到同一个工作空间中,AI 就不再需要像人一样跨应用跳转、模拟点击。它可以直接基于我日常的高频操作顺序,在界面中逐步生成对应的按钮或组件,去代替我完成这一整套工作流程。
在这种模式下,人和 AI 操作的是同一个界面、同一组确定的能力。
人可以手动执行,AI 也可以代理执行;
流程是清晰的,步骤是固定的,结果是可预期的。
这也正好呼应了前面两个讨论过的核心问题:
一方面,现实世界中大量工作的自动化之所以困难,是因为软件生态彼此割裂; 另一方面,单纯依赖 AI 去“模拟人类操作”,只能在这种割裂中勉强前行。
而工作空间的引入,本质上是把这些割裂的能力重新拆解、重组,让它们在一个统一的语境下协同存在。当软件不再是一个个封闭的应用,而是被视为可组合的能力集合时,无论是人还是 AI,完成工作的效率都会发生质的变化。
A2UI 要求你要建设自己的宿主应用,在设想中,我们认为宿主应用就是工作区
面对商业世界
我当然清楚,这套设想在现实中推进的难度有多大,甚至可以说,几乎是逆着整个既有商业体系在走。
现在的手机系统和应用商店,本身就是一个巨大的收入引擎。应用推荐位、下载曝光、渠道分成,动辄 30% 的抽成,早已构成传统手机厂商最核心的利润来源之一。他们没有任何动力,去主动放弃这样一块稳定而丰厚的收益。
软件提供商同样如此。 大量应用之所以能够免费提供给用户,本质上依赖的就是广告、投流、推荐位这些变现方式。如果一切都被拆解为接口和能力,由用户和 AI 自行生成界面,那么广告几乎就失去了存在的土壤。内容不再经过平台控制的入口,流量也不再集中在某个固定 UI 中,这直接切断了当前最主要的商业化路径。
现实已经给过我们一次明确的提示。
即便是字节跳动这样体量和资源都极强的公司,做出来的豆包手机,依然会被微信、支付宝这样的核心应用联合封禁。腾讯和阿里尚且不会轻易放行,更不用说体量更小的厂商,想要构建这样一套生态,难度几乎是指数级的。
所以我并不否认,这个想法在今天看来,极其理想化,甚至带有某种“不现实”的色彩。但如果它真的能够被做出来,所带来的变化也将是翻天覆地的。
在那样的世界里,应用不再通过广告和流量分发赚钱,而是转向更直接的价值交换:按时间订阅,或者按接口调用次数付费。 用户为自己真正使用到的能力付费,而不是为被动接受的广告和推荐买单。 这将不只是一次产品形态的升级,而是一次对互联网商业模式的重塑。
如果说 iPhone 曾经通过 App Store 改变了软件的分发方式,那么这种以接口和工作空间为核心的 AI 终端,才可能是真正意义上的“下一次 iPhone 时刻”。
豆包手机不是iPhone时刻
当我提到“下一次 iPhone 时刻”时,我并不是在说,人类使用手机的操作方式会发生根本性的改变。
事实上,iPhone 的出现,并没有让人从“按键操作”变成“用语言和手机交流”。人依然是在手机上点来点去,只不过是从按实体键,变成了点触控屏。
同样地,在我所设想的 AI 终端时代,人也不会从“点手机”,变成“全程对着手机说话、描述需求”,皇帝不会用金锄头耕地!
点、滑、确认,这种确定性的操作方式,仍然是最高效、最符合人类习惯的交互形式。AI 的价值不在于取代这种操作,而是在背后重构支撑这些操作的系统。
回过头来看,真正的 iPhone 时刻,其革命性并不来源于“触控本身”,而是由三个关键因素共同构成的。
1. 是技术进步带来的交互基础变化。
电容屏的成熟,使触控成为可能,iPhone 利用这一点,催生出大量以触控为核心的应用形态。
这与今天的情况非常相似:随着技术进步,我们已经拥有了像 Google 开源的 A2UI 这样的能力,通过描述生成 UI,使“每个人拥有自己的前端”在技术上成为可能。这是这一轮变革的底层基础。
2. 是应用商店所定义的标准与自由组合能力。
App Store 不只是一个下载渠道,它定义了一套规范,使手机功能可以被自由组合,任何人都可以成为应用开发者。
而今天,我们同样在重新定义“应用商店”:不再下载完整应用,而是下载由 AI 生成指引和 UI demo 构成的能力说明。这已经不是传统意义上的应用了,小开发者甚至有机会重新做即时通讯应用,摆脱对微信这类超级应用的依附。
3. 是行业层面的重构。
App Store 的意义不只是“多了一个地方下应用”,而是从那一刻起,iPhone 不再只是一个电话,而可以成为游戏机、音乐播放器、导航设备——一个通用计算终端。
而其他手机,仍然停留在“打电话”的范畴里。 同样地,在我设想的 AI 终端中,我们也不只是“下载应用”。我们做的是聚合应用,把“应用”这个概念本身,替换为“工作空间”。是让人类在数字世界中的操作变得真正高效。
也正是在这个意义上,我认为所谓的“下一次 iPhone 时刻”,从来不取决于交互形式看起来有多新,而取决于它是否真正重塑了整个行业的组织方式。
AI 扫地,人躺下
所有讨论,严格限定在生产与事务场景。
我们的期待很简单:让 AI 去做那些重复、琐碎、消耗精力的事情——整理信息、流转流程、执行确定性的操作;让人把时间和注意力留给真正值得投入的部分。理想状态下,是 AI 扫地、做家务,人把精力留给真正重要的事。 而不是反过来,让人为了配合机器而不断消耗自己。
这并不意味着“有了 AI 或机器人,人就失去了存在的意义”。恰恰相反,它的前提是:人依然按照自己熟悉、舒适的方式生活。
在娱乐场景下,手机的形态不会发生根本变化——人仍然会像现在一样打游戏、刷短视频、听音乐、看内容。交互方式不需要被强行替换,生活方式也不需要被重新发明。
当生产和事务被极大地简化,生活本身并不会变得陌生,而只会变得更轻松。