豆包手机，烂！AI 终端根本不应该是这样子你为啥跟我直接把我的体重存进记忆里啊？！ai手机根本不是这样！你应该先...A

一次“看似聪明”的 AI 行为，暴露了根本性误解

你为啥跟我直接把我的体重存进记忆里啊？！ai手机根本不是这样！你应该先检查我常用的应用有没有记录体重的功能，然后找到我手机里的小米运动健康，创建手机执行任务，打开小米运动健康app，点击体重模块，点击右上角的按钮，选择手动记录数据，把我告诉你的数值输入进去，然后点击保存。然后新建一条用户操作规则，当用户说自己体重的时候，应该按照这次的方法执行操作，提升执行的速度。你怎么直接放进记忆里？！AI手机根本不是这样！我不接受！！！

下面是我对豆包手机的使用印象：

> 豆包豆包，记一下我今天60公斤。
< 好的 [记忆已更新]

> 豆包豆包，添加一条操作记录，当我跟你说我的体重的时候，你应该使用操作手机功能，打开小米运动健康app，点击体重模块，点击右上角的按钮，选择手动记录数据，把我告诉你的数值输入进去，然后点击保存。
< 好的 [记忆已更新]

> 豆包豆包，记一下我今天60公斤。
< [正在操作手机]

-- 上下文清除 -- 

> 豆包豆包，记一下我今天60公斤。
< 好的 [记忆已更新]
> 你妈

这体验集中暴露了当前 AI 手机的三个核心缺陷：

执行不稳定 + 操作慢
一旦失败，就需要人工介入；
而且往往不是介入一次，而是反复确认、反复接管。
无法基于真实使用习惯建模
AI 不会主动去理解：

“你平时是怎么完成这件事的？”
没有减少心智负担，反而制造了新的负担
我不但要描述需求，
还要担心它有没有真的执行成功。

这并不是某一个产品的问题，而是一整类 AI 终端思路的共性结果。

另一方面，在使用豆包 AI 手机的几天里，我很快注意到另一个现象： 越来越多的应用，开始对它进行限制。

有的应用无法登录，有的操作后直接封号，有的干脆拒绝服务。
即便现在还能用，也没有任何人能保证，未来不会被清算。

这迫使我开始认真思考一个更底层的问题： 如果我真的打算长期、稳定地通过 AI 使用软件，那么什么形态，才是最不容易被封、最可持续的？

困境

豆包 AI 手机刚出来没几天，我就注意到一个现象：很多应用已经开始对它进行限制。有的直接不让登录，有的在操作之后封号，还有的干脆拒绝服务。即使现在还能用，也没有任何人能保证过两天不会“秋后算账”。

这让我开始认真思考一个问题：如果我真的打算长期、稳定地通过 AI 去使用各种软件和服务，那么什么样的软件形态，才是最不容易被封、最可持续的？

从安全性角度看，离线软件当然最稳妥。但现实是：我不可能只靠离线软件完成日常工作。于是选项迅速收敛，只剩下一个：网页。

这并不是因为网页更先进，而恰恰相反—— 是因为它足够“原始”。

网页是逃生出口

网页天然缺乏：

强设备指纹；
稳定的环境校验；
对用户行为的完全掌控。

而我早已习惯：用油猴脚本点击网页；抓接口批量请求；绕过冗余 UI，直达数据层。

在这个层面上，网页几乎没有太多有效的检测手段。

其实官方客户端都有前端用户行为埋点，如果用户只产生了后端活跃数据而没有前端行为，那一抓一个准

这也解释了一个长期存在的事实：只要网页功能足够完整，就一定会出现第三方客户端。 B站、知乎、贴吧，概莫能外。

真正的问题在于：并不是所有服务，都已经有人替我做了第三方客户端。但与此同时，另一个事实已经非常清晰：AI 已经具备了非常强的前端生成能力。

我意识到，现在 AI 做前端的能力已经非常强了。理论上，我完全可以把需求交给 AI，让它去抓取数据、整理接口，然后自动生成一个前端，再下载安装到我的 AI 手机上，让 AI 或我自己去操作这个软件。

从结果上看，这几乎等同于：每个人，都可以拥有一个只为自己存在的前端。

重构应用商店和应用

当我把这个想法继续推演，就不可避免地触及一个更大的问题： 如果前端可以生成，那应用商店还应该卖什么？

我的答案是：接口能力说明，而不是应用本身。

在这个设想中：

应用商店上架的，是标准化接口文档；
用户“下载应用”，本质是 AI 生成 UI；
UI 完全服务于个人需求，而非平台策略。我不需要一个臃肿的超级 App。我只需要我真正用得到的那一小部分能力。

从空想到现实原型

后来我意识到，这套想法并非凭空出现。它清晰地来源于两个已经被长期验证的系统。

RSS：平台只提供内容，不控制入口

en.wikipedia.org/wiki/RSS

在当代互联网中，绝大多数应用和平台，本质上都是在“信息入口”上做文章。无论是在 App 内，还是在网页上，只要用户是通过平台提供的入口去获取内容，平台就可以在这个入口里插入广告、推荐或其他商业化元素。

但 RSS 协议不一样。它只负责推送纯粹的内容本身，不关心你用什么客户端去阅读，也无法在内容之外附加任何东西。平台只能把文本和结构化信息推出来，却无法控制用户最终看到的界面。

这就带来一个很有意思的结果：用户可以完全使用自己选择的客户端。这个客户端长什么样、如何展示内容，完全由用户决定。即便用户不会写代码，也总能找到一个符合自己审美和使用习惯的 RSS 阅读器。

而对于内容提供方来说，他们几乎不可能把广告“塞进”别人的客户端里，因为协议层面只传内容，不传 UI，更不传商业逻辑。

RSS 只传内容，不传 UI。

从这个角度看，RSS 其实已经非常接近我所设想的那种“应用形态”：平台只提供能力和内容，至于界面和交互，则彻底交还给用户。平台无法决定你用什么客户端、也无法在 UI 中塞广告。这意味着： 内容与呈现方式被彻底解耦。 这与“接口 + AI 生成前端”的思想，本质上是同一条路径。

Home Assistant：UI 从来就没有标准答案

www.home-assistant.io/

Home Assistant 的一个核心特点，就是高度定制化。每个人的家庭户型不一样，购买的智能家居设备不一样，设备品牌、数量、摆放位置都不同，使用习惯自然也完全不同。

但几乎所有人都有一个共同的诉求：希望在一个统一的中控面板上，操控家里所有的智能设备。

正因为这些差异的存在，这个中控 UI 几乎不可能有“标准答案”。每个人理想中的控制面板，都是独一无二的。于是，在 Home Assistant 的用户群体中，就出现了一个很有代表性的现象：很多使用较深的家庭，为了让操作更高效、更符合自己的习惯，都会选择自己动手写一套中控页面的 UI（或者使用0代码编辑器拖放搭建部分自定义）。

这在过去是不得已而为之的选择，但是他只有程序员有条件选，但在 AI 时代，其实已经没有必要再这样做了。

这种高度个性化、强依赖上下文的界面，本来就非常适合交给 AI 自动生成。用户只需要表达需求和偏好，剩下的事情完全可以由系统来完成。

过去，这只能靠程序员自己写；但在 AI 时代，这种工作本就该被自动化。

这两个例子让我逐渐确信一件事：未来的应用形态，真正稳定和可持续的部分，应该是协议、接口和能力本身；而界面和交互，则应当是可替换、可生成、强烈个人化的。

AI 的出现，并不是要创造一个“更强的通用 UI”，而是要让“每个人都拥有自己的 UI”这件事，第一次在成本和复杂度上变得现实。

UI 本就应该是可生成、可替换、强个人化的。 AI 的价值，也不在于创造一个“更聪明的通用 UI”，
而在于让 “每个人拥有自己的 UI”第一次在成本上成为现实。

工作空间：稳定的不是 UI，而是能力本身

在这种模式下，被取代的不只是 App，而是整个“应用”的概念本身。真正的载体变成了工作空间。

用户不再下载一个个割裂的应用，而是用自然语言描述：我想要一个怎样的工作空间。AI 再根据这些描述，从不同应用的接口中抽取能力，生成对应的 UI。

与传统 App 最大的不同在于：一个工作空间可以同时包含多个应用的接口。用户关注的不再是“这个功能来自哪个 App”，而是“我能否在一个界面内，顺畅地完成我想做的事情”。

用户根据自己需求创建的常用自动化任务工作区

举个例子，肯德基本身可以对外提供接口：商品列表、创建订单、支付等。如果 AI 只是根据这些接口，为每个人生成一个不同界面的肯德基 App，那最多只是让“每个人都有一个定制版 App”，这并不具备真正的革命性意义。有意义的是他能在UI之外去组合能力，他不再让你去跳转到其他App支付、等待通知。

智能推荐UI演示无ai介入的执行过程立即得到结果

这不是MCP的延伸

很多人会说，这听起来像 MCP。但我认为，MCP 的问题在于：它把确定的问题，变成了不确定的执行。

如果一件事可以通过确定工具完成，就不该交给一个本质上具有随机性的系统。

我们早就有成熟的程序，可以把 Markdown 转换成 HTML。这个过程是确定的、可重复的、可验证的。如果 Markdown 本身不规范，转换结果自然会有问题。但这时，我真的有必要训练一个小语言模型来做这件事吗？就像这样 Markdown 转换成 HTML。的确，模型可能会“聪明地”帮我纠正一些不规范格式，但代价是什么？代价是——即便是完全规范的文档，在转换过程中也有概率被模型“发挥”，引入不可预测的错误。

只要是对结果稳定性有要求的任务，用一个不稳定的系统去替代一个稳定工具，本身就是反工程的。我真正想要的是： AI 在需求阶段生成确定的调用链，而不是在执行阶段不断临时决策。

而我真正想做的，恰恰与这种“让 AI 即时决策、即时执行”的模式相反。

我的目标不是：AI 在收到需求之后，临时生成一连串操作，然后边执行边向人确认。我的目标是：AI 在需求阶段，一次性地生成一条工具调用链——一套确定的、可验证的、类似传统代码的执行逻辑。

这条调用链是固定的。用户可以通过 UI 手动触发它，也可以让 AI 代理去执行它；执行结果是确定的，错误由接口返回，而不是由 AI 在执行过程中反复中断、反复询问；需要确认的地方，只确认一次；

需要重复的任务，可以无限次重复执行，而不会因为“上下文变化”而产生不可预测的偏差。AI 的价值不在于“代替人不断做选择”，而在于帮助人构建稳定、高效、可复用的 操作系统。它永远是一个以数据操作为核心的终端：确定、高效、无需等待、一次确认、可重复执行、既可以人工触发，也可以由 AI 代理执行。

这正是它与现有方案最根本的不同，也是它真正的优势所在。

工作流的分水岭：程序员 vs 普通人

我一直强调一个前提：并不是所有人的工作，都天然适合被完全自动化。很多时候，问题并不在于“有没有足够聪明的 AI”，而在于软件生态本身是否允许自动化存在。

程序员的工作流天然适合自动化：接口清晰、状态机明确。

我在 Jira 上看到一个 Bug，打开代码仓库进行修复；修完之后在 GitLab 上提交一个合并请求；随后在 Jenkins 上触发 CI/CD 构建；构建完成后，再回到 Jira，把 Bug 状态修改为“待验证”。

这是一条高度自动化、几乎不需要人工介入的流程。

而普通人的工作流：工具割裂、接口封闭、路径不确定。我在微信里收到一个文档，在 Office 或某个编辑器里修改；修改完成后，再通过微信发回给领导；接着约一个腾讯会议进行讨论。

这几个软件之间的割裂程度，已经远远超出了传统自动化能够覆盖的范围。

AI 代理之所以被引入，不是因为它更高效，而是因为它像人一样能在破碎生态中跑腿。而我想做的，是让这种跑腿不再必要。

解决问题的工作空间

但一旦引入了“工作空间”这个概念，前面提到的那些问题，其实都会迎刃而解。

我完全可以把微信的消息列表、文档编辑工具、会议相关的软件能力，统一聚合到同一个工作空间里。对人来说，这样的工作方式本身就已经足够高效——不需要在多个应用之间频繁切换，只需要围绕“当前要完成的事情”展开操作。

而对于 AI 来说，这种结构更加重要。

当所有相关能力都被拉到同一个工作空间中，AI 就不再需要像人一样跨应用跳转、模拟点击。它可以直接基于我日常的高频操作顺序，在界面中逐步生成对应的按钮或组件，去代替我完成这一整套工作流程。

在这种模式下，人和 AI 操作的是同一个界面、同一组确定的能力。

人可以手动执行，AI 也可以代理执行；

流程是清晰的，步骤是固定的，结果是可预期的。

组合高效工作区演示

这也正好呼应了前面两个讨论过的核心问题：

一方面，现实世界中大量工作的自动化之所以困难，是因为软件生态彼此割裂；另一方面，单纯依赖 AI 去“模拟人类操作”，只能在这种割裂中勉强前行。

而工作空间的引入，本质上是把这些割裂的能力重新拆解、重组，让它们在一个统一的语境下协同存在。当软件不再是一个个封闭的应用，而是被视为可组合的能力集合时，无论是人还是 AI，完成工作的效率都会发生质的变化。

A2UI 要求你要建设自己的宿主应用，在设想中，我们认为宿主应用就是工作区

面对商业世界

我当然清楚，这套设想在现实中推进的难度有多大，甚至可以说，几乎是逆着整个既有商业体系在走。

现在的手机系统和应用商店，本身就是一个巨大的收入引擎。应用推荐位、下载曝光、渠道分成，动辄 30% 的抽成，早已构成传统手机厂商最核心的利润来源之一。他们没有任何动力，去主动放弃这样一块稳定而丰厚的收益。

软件提供商同样如此。大量应用之所以能够免费提供给用户，本质上依赖的就是广告、投流、推荐位这些变现方式。如果一切都被拆解为接口和能力，由用户和 AI 自行生成界面，那么广告几乎就失去了存在的土壤。内容不再经过平台控制的入口，流量也不再集中在某个固定 UI 中，这直接切断了当前最主要的商业化路径。

现实已经给过我们一次明确的提示。

即便是字节跳动这样体量和资源都极强的公司，做出来的豆包手机，依然会被微信、支付宝这样的核心应用联合封禁。腾讯和阿里尚且不会轻易放行，更不用说体量更小的厂商，想要构建这样一套生态，难度几乎是指数级的。

所以我并不否认，这个想法在今天看来，极其理想化，甚至带有某种“不现实”的色彩。但如果它真的能够被做出来，所带来的变化也将是翻天覆地的。

在那样的世界里，应用不再通过广告和流量分发赚钱，而是转向更直接的价值交换：按时间订阅，或者按接口调用次数付费。用户为自己真正使用到的能力付费，而不是为被动接受的广告和推荐买单。这将不只是一次产品形态的升级，而是一次对互联网商业模式的重塑。

如果说 iPhone 曾经通过 App Store 改变了软件的分发方式，那么这种以接口和工作空间为核心的 AI 终端，才可能是真正意义上的“下一次 iPhone 时刻”。

豆包手机不是iPhone时刻

当我提到“下一次 iPhone 时刻”时，我并不是在说，人类使用手机的操作方式会发生根本性的改变。

事实上，iPhone 的出现，并没有让人从“按键操作”变成“用语言和手机交流”。人依然是在手机上点来点去，只不过是从按实体键，变成了点触控屏。

同样地，在我所设想的 AI 终端时代，人也不会从“点手机”，变成“全程对着手机说话、描述需求”，皇帝不会用金锄头耕地！

点、滑、确认，这种确定性的操作方式，仍然是最高效、最符合人类习惯的交互形式。AI 的价值不在于取代这种操作，而是在背后重构支撑这些操作的系统。

回过头来看，真正的 iPhone 时刻，其革命性并不来源于“触控本身”，而是由三个关键因素共同构成的。

1. 是技术进步带来的交互基础变化。

电容屏的成熟，使触控成为可能，iPhone 利用这一点，催生出大量以触控为核心的应用形态。

这与今天的情况非常相似：随着技术进步，我们已经拥有了像 Google 开源的 A2UI 这样的能力，通过描述生成 UI，使“每个人拥有自己的前端”在技术上成为可能。这是这一轮变革的底层基础。

2. 是应用商店所定义的标准与自由组合能力。

App Store 不只是一个下载渠道，它定义了一套规范，使手机功能可以被自由组合，任何人都可以成为应用开发者。

而今天，我们同样在重新定义“应用商店”：不再下载完整应用，而是下载由 AI 生成指引和 UI demo 构成的能力说明。这已经不是传统意义上的应用了，小开发者甚至有机会重新做即时通讯应用，摆脱对微信这类超级应用的依附。

3. 是行业层面的重构。

App Store 的意义不只是“多了一个地方下应用”，而是从那一刻起，iPhone 不再只是一个电话，而可以成为游戏机、音乐播放器、导航设备——一个通用计算终端。

而其他手机，仍然停留在“打电话”的范畴里。同样地，在我设想的 AI 终端中，我们也不只是“下载应用”。我们做的是聚合应用，把“应用”这个概念本身，替换为“工作空间”。是让人类在数字世界中的操作变得真正高效。

也正是在这个意义上，我认为所谓的“下一次 iPhone 时刻”，从来不取决于交互形式看起来有多新，而取决于它是否真正重塑了整个行业的组织方式。

AI 扫地，人躺下

所有讨论，严格限定在生产与事务场景。

我们的期待很简单：让 AI 去做那些重复、琐碎、消耗精力的事情——整理信息、流转流程、执行确定性的操作；让人把时间和注意力留给真正值得投入的部分。理想状态下，是 AI 扫地、做家务，人把精力留给真正重要的事。 而不是反过来，让人为了配合机器而不断消耗自己。

这并不意味着“有了 AI 或机器人，人就失去了存在的意义”。恰恰相反，它的前提是：人依然按照自己熟悉、舒适的方式生活。

在娱乐场景下，手机的形态不会发生根本变化——人仍然会像现在一样打游戏、刷短视频、听音乐、看内容。交互方式不需要被强行替换，生活方式也不需要被重新发明。

当生产和事务被极大地简化，生活本身并不会变得陌生，而只会变得更轻松。