Google Gemini 帮我叫了 Uber,我反而陷入了沉思

0 阅读3分钟

声明:本文基于 The Verge、WIRED 等媒体报道的 Demo 演示撰写,带你深入了解 AI Agent 落地的真实面貌。


一、这次,AI 真的能干活了?

就在上周的 Galaxy Unpacked 2026 大会上,Google 展示了一个让我既兴奋又不安的功能:

Gemini 可以帮你在手机上直接叫 Uber、订 DoorDash 了。

Gemini 任务自动化演示

Gemini 任务自动化界面,来源 TechCrunch

不是那种"打开 App 你自己点"的伪助手,而是——

"帮我叫辆去机场的 Uber" "帮我把购物车里的东西下单"

然后它真的会自己打开 App、填信息、选商品,最后弹到支付页面等你确认。

Google Android 生态系统总裁 Sameer Samat 在接受 WIRED 采访时说了一句特别有意思的话:

"我把这些任务称为'数字家务'——你知道必须做,但真的不想亲自去做的事情。"

这句话直接戳中了我的痛点。


二、实测细节:它是怎么工作的?

根据 WIRED 记者的现场 Demo,Gemini 的任务自动化有三种执行方式:

1. MCP 协议集成(后台执行,无感知)

如果 App 接入了 Model Context Protocol,Gemini 会在后台完成操作,你只会看到最终确认页面。

2. App Functions(结构化接口)

开发者为 Gemini 开放的结构化接口,类似于"技能"。

3. 屏幕理解 + 自主操作(这次的重点)

这也是最让我震撼的部分:

  • Gemini 会看着屏幕就像你看着一样
  • 它能理解界面上的按钮、输入框、菜单
  • 不依赖固定的 App 界面地图——即使 App 改版了,它也能自适应

Samta 举了一个例子:

朋友在群聊里说想吃 Pizza 店的披萨,还报了具体口味。Gemini 听到"帮我订这个"后,直接从群里提取了所有人的订单,在 Grubhub 里一个个加入购物车,最后让他确认支付。

Gemini 从群聊提取订单

Gemini 从群聊对话中提取订单信息并自动下单,来源 TechCrunch

这意味着:

  • AI 不再只是回答问题,而是开始干活了
  • 它有了执行能力(Action Capability)
  • 这也是 2026 年 AI 圈最火的概念——Agent(智能体)

三、我的真实感受:兴奋,但有点慌

作为一个每天和 AI 打交道的人,我的第一反应是:

"终于来了。"

但第二反应是:

"它都看见了,它会不会记住我的支付密码?"

Google 显然预料到了这种担忧,Samat 专门回应:

  • 初期只开放了 Uber、DoorDash、Grubhub、Uber Eats 这些"不那么敏感"的 App
  • 数据不会用于广告
  • 用户可以随时删除 Gemini 看到的数据

但我还是忍不住想:

如果有一天,它能操作我的银行 App、支付密码,那安全边界在哪里?

Gemini AI


四、伏笔:这可能只是开始

有意思的是,Samat 提到了一个未来场景:

"以后你可能戴着智能眼镜、挂着 AI 吊坠,甚至在车里,就能让 AI 帮你下单。"

想象一下:

  • 你开车时说一句"帮我点杯星巴克",AI 直接帮你下单,到店取餐
  • 你出差在外,AI 帮你订酒店、叫专车、安排日程
  • 甚至——你回家路上,AI 帮你把家里的空调打开、热水器预热

但你有没有想过:

  • 如果你的智能眼镜被人抢了,对方让 AI 帮你下单 55 个汉堡怎么办?
  • 如果 AI 记错了你的喜好,给你点了你过敏的食物怎么办?
  • 如果 AI 被恶意授权了你的全部权限,它能不能帮你"借"一笔网贷?

五、写在最后

Gemini 这次的更新,让我看到了 AI 从"工具"到"助手"再到"Agent"的进化轨迹。

我们曾经嘲笑 Siri 十年如一日地"抱歉,我无法完成这个操作"。

但现在,AI 真的开始帮我们干活了。

只是,当 AI 帮你做事的时候,你真的放心吗?

你会让 AI 帮你点外卖、叫车吗?最担心什么问题?