一周之内,五家公司用行动画出了AI的未来地图

596 阅读9分钟

过去这一周,科技圈的几个大动作,单独看都是新闻,连起来看,就是一张正在快速成型的未来地图。

地图的一角,微软发出警告,说中国AI正在新兴市场成为默认选择。另一角,苹果正式宣布,下一代Siri的核心将交给谷歌的Gemini来驱动。与此同时,Anthropic让Claude变成了能直接操作你电脑文件的“数字员工”。

这些事发生在不同公司、不同领域,但指向同一个方向:AI竞赛已经结束了实验室炫技阶段,进入了拼生态、抢入口、定标准的实战环节。

微软的警告,关于另一种游戏规则

微软这份报告,分量很重。它不是什么分析师的观点,而是这家深度绑定OpenAI、运营着全球顶级云服务、天天看着全球数据流的巨头,在陈述一个它观察到的事实。

微软说,在高端企业市场、云基础设施这块,西方公司依然领先。但出了西方世界,游戏规则变了。

中国AI生态推的模型,更便宜,更容易获取,很多还是开源或接近开源的。在非洲、东欧、拉丁美洲这些地方,企业问的第一个问题往往不是“哪个模型最强大”,而是“哪个我们用得起、部署得了、维护得了”。

微软点名了深度求索这类公司,说它们的模型在这些区域用量很大,有时甚至超过了西方产品。

这件事的关键在于,一旦用上了,就容易形成生态锁定。开发者、初创公司、大学习惯了用某一套工具链,未来几年都会沿着这条路走下去。早期的互联网协议、移动操作系统、云服务商,都是这么过来的。

所以微软的警告其实是,在西方市场之外,中国AI可能正在因为“便宜好用”而成为默认选项。这背后是一整套国家支持、基建投入和快速规模化能力的协同。西方面对的,不是一个对手,而是一个高度协调、能快速铺开的生态系统。

对微软、谷歌、亚马逊这些公司来说,新兴市场不是锦上添花,而是未来的增长引擎。如果在那里失去影响,失去的不仅是客户,还有数据飞轮、开发者生态,最终是市场份额。

苹果的选择,与生态的合纵连横

就在微软描绘全球竞争图景时,苹果用行动展示了竞争的另一面:合纵连横。

苹果官方宣布,和谷歌达成一项多年期合作。谷歌的Gemini模型和云技术,将成为苹果下一代基础模型和未来“苹果智能”功能的基石。预计2026年,我们会看到一个由Gemini驱动的全新Siri。

苹果的说法很值得玩味。他们说,经过仔细评估,认为谷歌的AI提供了“能力最强的基础”。以苹果的挑剔,这算是很高的评价了。

更关键的是,苹果并没有因此踢掉OpenAI。他们告诉媒体,之前将ChatGPT集成到Siri和苹果智能中的协议不变。Gemini是来驱动基础模型和下一代Siri核心能力的,而OpenAI则处理某些特定类型的复杂查询。 苹果本质上是在Siri内部构建一个AI路由系统。它想保持自己隐私、本地处理、严格控制的一贯身份,但在底层模型上,它选择依靠谷歌的堆栈,同时也不排斥接入其他强者。

这个决定的背景很有意思。谷歌母公司Alphabet的市值刚超过苹果,这是2019年以来的第一次。同时,谷歌和苹果之间那个著名的搜索默认协议,正因垄断问题被美国法院审视。

但即便在这种压力下,谷歌依然通过AI,把自己的触角更深地伸进了苹果生态。Siri每天在超过20亿台活跃设备上处理10亿次请求,这个分发渠道是谷歌靠自己永远无法复制的。

苹果评估过Anthropic,最终选了谷歌。有消息说,财务条款是重要考量。这不再是功能合作,而是基础设施层面的绑定。AI竞赛,已经进入了巨头结盟的新阶段。

从桌面到现实,AI代理开始动手

当巨头们在云端结盟时,AI也在变得更具体、更“动手”。

Anthropic给Claude推出了一个叫“CoWork”的功能,目前是研究预览版,只给Mac版Claude的订阅用户。这个功能很简单,你授权Claude访问你Mac上的某个文件夹,之后它就能直接在里面读取、编辑、创建文件。

这听起来简单,但区别巨大。聊天助手是给你建议,而代理是直接触碰你的资产并产出结果。CoWork设计用来处理多步骤项目,比如整理文件、从图片里提取数据、把零散的笔记生成报告。你可以实时反馈,它还能通过连接器调用外部数据或控制浏览器工作流。

风险是显然的,所以Anthropic强调了安全控制。用户决定Claude能访问哪些文件夹,在删除文件这类重大操作前,助手会请求许可。他们甚至提到了“提示词注入”风险——恶意文档或网页可能嵌入指令,试图劫持代理。目前这功能还限于美国区的macOS。

另一家公司Manus,则瞄准了比电脑桌面更普遍的场景:现实中的对话。他们推出了“会议纪要”功能,专门针对线下面对面会议、访谈,而不是线上会议。 它实时录音,然后产出结构化内容:摘要、发言人识别、参会者列表、可执行任务。两个细节很关键,一是支持离线录音,网络断了也不影响,二是能尝试识别谁说了什么,以便把任务项准确分配给人。

Manus还想把“说到做到”的闭环打通,它能直接从会议笔记在同一个工作流里生成交付物,比如演示文稿、网站或社交媒体素材。商业模式是积分制,录音免费,但分析和结构化输出要花积分。价值显然在“思考”部分,而不只是记录。

机器人学会“预演”,谷歌想定义AI购物

从虚拟代理到实体机器人,逻辑是相通的。机器人公司1X将其新的视频预训练世界模型集成到了Neo机器人平台。

传统机器人训练往往依赖海量的机器人演示数据,让机器人反复做动作,慢且贵。1X的新方法,结合了互联网视频和“自我中心”的人类与机器人数据。自我中心数据,就是第一人称视角。

这个模型通过生成文本条件下的视频推演来预测机器人动作,然后再通过逆向动力学把视频转换成运动指令。简单说,AI不仅在看,还在预测“做什么动作会导致什么视觉结果”,然后据此控制身体。

目前每次推演推理大约需要11秒,这说明技术还没到瞬间自主反应的级别。但好处是泛化能力更强,对于训练数据里没有的新物体和新动作,处理得更好。内部测试显示,它在双手协调、复杂物体操控等任务上,成功率匹配或超过了以前的模型。

最后,是谷歌可能埋下的一个最深的基础设施。它正式宣布进入“AI商务”阶段,核心是推出“通用商务协议”。

这是一个新的开放标准,旨在为AI代理、商家和支付系统之间的交互提供通用语言。谷歌与Shopify、沃尔玛、Target、eBay等大公司合作开发。它兼容现有的其他协议,这意味着它能接入现有生态,而不是推倒重来。

一个最直接的应用,就是用户在美国可以通过谷歌的AI搜索模式和Gemini应用,直接购买合作零售商的商品,使用谷歌钱包或PayPal支付。零售商依然是销售主体,保留定制集成的能力。

谷歌还在推出“商务代理”,让品牌能在搜索结果中直接以虚拟购物助手的形态与顾客互动,用品牌自己的风格回答问题。第一阶段包括劳氏、锐步等品牌。

谷歌做的,是在协议层尝试标准化AI购物,把它嵌入Gemini和AI搜索,并给商家在搜索结果里提供代理界面。这是基础设施级别的布局。

所以,未来是什么样

把这些碎片拼起来,画面就清晰了。

竞争是全球化的,但打法分成了两种。 一种是以微软报告为代表的观察:在高端市场之外,性价比和可获取性正在成为决定性因素,催生新的生态主导者。

联盟是必然的,没有全能选手。 强如苹果,也需要在底层模型上依靠谷歌,并接入OpenAI。未来的AI服务,很可能是一个由多家供应商模型驱动的混合体,关键在于谁能做好路由和整合。

AI正在从“说”走向“做”。 无论是操作你的电脑文件,处理线下会议,控制机器人手臂,还是帮你完成购物,AI代理开始拥有执行权。这带来了巨大的便利,也带来了全新的安全和伦理挑战。

标准协议是隐藏的战场。 谷歌推通用商务协议,是想在AI代理如何与商业世界交互这个根本问题上,定义规则。谁定义了协议,谁就掌握了生态的枢纽位置。

我们正在经历的,不是单个产品的升级,而是一整个数字世界运行规则的迁移。AI正在从一项技术,变成我们与所有机器、所有信息、所有商业活动交互的新界面。

这个界面如何工作,由谁定义,又将被谁主导,就是未来十年科技竞争的核心故事。故事才刚刚翻开第一章。