Google Gemini 帮我叫了 Uber，我反而陷入了沉思"帮我叫辆 Uber"——Gemini 真的能自己打开

声明：本文基于 The Verge、WIRED 等媒体报道的 Demo 演示撰写，带你深入了解 AI Agent 落地的真实面貌。

一、这次，AI 真的能干活了？

就在上周的 Galaxy Unpacked 2026 大会上，Google 展示了一个让我既兴奋又不安的功能：

Gemini 可以帮你在手机上直接叫 Uber、订 DoorDash 了。

Gemini 任务自动化演示

Gemini 任务自动化界面，来源 TechCrunch

不是那种"打开 App 你自己点"的伪助手，而是——

"帮我叫辆去机场的 Uber" "帮我把购物车里的东西下单"

然后它真的会自己打开 App、填信息、选商品，最后弹到支付页面等你确认。

Google Android 生态系统总裁 Sameer Samat 在接受 WIRED 采访时说了一句特别有意思的话：

"我把这些任务称为'数字家务'——你知道必须做，但真的不想亲自去做的事情。"

这句话直接戳中了我的痛点。

二、实测细节：它是怎么工作的？

根据 WIRED 记者的现场 Demo，Gemini 的任务自动化有三种执行方式：

1. MCP 协议集成（后台执行，无感知）

如果 App 接入了 Model Context Protocol，Gemini 会在后台完成操作，你只会看到最终确认页面。

2. App Functions（结构化接口）

开发者为 Gemini 开放的结构化接口，类似于"技能"。

3. 屏幕理解 + 自主操作（这次的重点）

这也是最让我震撼的部分：

Gemini 会看着屏幕就像你看着一样
它能理解界面上的按钮、输入框、菜单
不依赖固定的 App 界面地图——即使 App 改版了，它也能自适应

Samta 举了一个例子：

朋友在群聊里说想吃 Pizza 店的披萨，还报了具体口味。Gemini 听到"帮我订这个"后，直接从群里提取了所有人的订单，在 Grubhub 里一个个加入购物车，最后让他确认支付。

Gemini 从群聊提取订单

Gemini 从群聊对话中提取订单信息并自动下单，来源 TechCrunch

这意味着：

AI 不再只是回答问题，而是开始干活了
它有了执行能力（Action Capability）
这也是 2026 年 AI 圈最火的概念——Agent（智能体）

三、我的真实感受：兴奋，但有点慌

作为一个每天和 AI 打交道的人，我的第一反应是：

"终于来了。"

但第二反应是：

"它都看见了，它会不会记住我的支付密码？"

Google 显然预料到了这种担忧，Samat 专门回应：

初期只开放了 Uber、DoorDash、Grubhub、Uber Eats 这些"不那么敏感"的 App
数据不会用于广告
用户可以随时删除 Gemini 看到的数据

但我还是忍不住想：

如果有一天，它能操作我的银行 App、支付密码，那安全边界在哪里？

Gemini AI

四、伏笔：这可能只是开始

有意思的是，Samat 提到了一个未来场景：

"以后你可能戴着智能眼镜、挂着 AI 吊坠，甚至在车里，就能让 AI 帮你下单。"

想象一下：

你开车时说一句"帮我点杯星巴克"，AI 直接帮你下单，到店取餐
你出差在外，AI 帮你订酒店、叫专车、安排日程
甚至——你回家路上，AI 帮你把家里的空调打开、热水器预热

但你有没有想过：

如果你的智能眼镜被人抢了，对方让 AI 帮你下单 55 个汉堡怎么办？
如果 AI 记错了你的喜好，给你点了你过敏的食物怎么办？
如果 AI 被恶意授权了你的全部权限，它能不能帮你"借"一笔网贷？

五、写在最后

Gemini 这次的更新，让我看到了 AI 从"工具"到"助手"再到"Agent"的进化轨迹。

我们曾经嘲笑 Siri 十年如一日地"抱歉，我无法完成这个操作"。

但现在，AI 真的开始帮我们干活了。

只是，当 AI 帮你做事的时候，你真的放心吗？

你会让 AI 帮你点外卖、叫车吗？最担心什么问题？