一周之内，五家公司用行动画出了AI的未来地图过去这一周，科技圈的几个大动作，单独看都是新闻，连起来看，就是一张正在快速成

过去这一周，科技圈的几个大动作，单独看都是新闻，连起来看，就是一张正在快速成型的未来地图。

地图的一角，微软发出警告，说中国AI正在新兴市场成为默认选择。另一角，苹果正式宣布，下一代Siri的核心将交给谷歌的Gemini来驱动。与此同时，Anthropic让Claude变成了能直接操作你电脑文件的“数字员工”。

这些事发生在不同公司、不同领域，但指向同一个方向：AI竞赛已经结束了实验室炫技阶段，进入了拼生态、抢入口、定标准的实战环节。

微软的警告，关于另一种游戏规则

微软这份报告，分量很重。它不是什么分析师的观点，而是这家深度绑定OpenAI、运营着全球顶级云服务、天天看着全球数据流的巨头，在陈述一个它观察到的事实。

微软说，在高端企业市场、云基础设施这块，西方公司依然领先。但出了西方世界，游戏规则变了。

中国AI生态推的模型，更便宜，更容易获取，很多还是开源或接近开源的。在非洲、东欧、拉丁美洲这些地方，企业问的第一个问题往往不是“哪个模型最强大”，而是“哪个我们用得起、部署得了、维护得了”。

微软点名了深度求索这类公司，说它们的模型在这些区域用量很大，有时甚至超过了西方产品。

这件事的关键在于，一旦用上了，就容易形成生态锁定。开发者、初创公司、大学习惯了用某一套工具链，未来几年都会沿着这条路走下去。早期的互联网协议、移动操作系统、云服务商，都是这么过来的。

所以微软的警告其实是，在西方市场之外，中国AI可能正在因为“便宜好用”而成为默认选项。这背后是一整套国家支持、基建投入和快速规模化能力的协同。西方面对的，不是一个对手，而是一个高度协调、能快速铺开的生态系统。

对微软、谷歌、亚马逊这些公司来说，新兴市场不是锦上添花，而是未来的增长引擎。如果在那里失去影响，失去的不仅是客户，还有数据飞轮、开发者生态，最终是市场份额。

苹果的选择，与生态的合纵连横

就在微软描绘全球竞争图景时，苹果用行动展示了竞争的另一面：合纵连横。

苹果官方宣布，和谷歌达成一项多年期合作。谷歌的Gemini模型和云技术，将成为苹果下一代基础模型和未来“苹果智能”功能的基石。预计2026年，我们会看到一个由Gemini驱动的全新Siri。

苹果的说法很值得玩味。他们说，经过仔细评估，认为谷歌的AI提供了“能力最强的基础”。以苹果的挑剔，这算是很高的评价了。

更关键的是，苹果并没有因此踢掉OpenAI。他们告诉媒体，之前将ChatGPT集成到Siri和苹果智能中的协议不变。Gemini是来驱动基础模型和下一代Siri核心能力的，而OpenAI则处理某些特定类型的复杂查询。苹果本质上是在Siri内部构建一个AI路由系统。它想保持自己隐私、本地处理、严格控制的一贯身份，但在底层模型上，它选择依靠谷歌的堆栈，同时也不排斥接入其他强者。

这个决定的背景很有意思。谷歌母公司Alphabet的市值刚超过苹果，这是2019年以来的第一次。同时，谷歌和苹果之间那个著名的搜索默认协议，正因垄断问题被美国法院审视。

但即便在这种压力下，谷歌依然通过AI，把自己的触角更深地伸进了苹果生态。Siri每天在超过20亿台活跃设备上处理10亿次请求，这个分发渠道是谷歌靠自己永远无法复制的。

苹果评估过Anthropic，最终选了谷歌。有消息说，财务条款是重要考量。这不再是功能合作，而是基础设施层面的绑定。AI竞赛，已经进入了巨头结盟的新阶段。

从桌面到现实，AI代理开始动手

当巨头们在云端结盟时，AI也在变得更具体、更“动手”。

Anthropic给Claude推出了一个叫“CoWork”的功能，目前是研究预览版，只给Mac版Claude的订阅用户。这个功能很简单，你授权Claude访问你Mac上的某个文件夹，之后它就能直接在里面读取、编辑、创建文件。

这听起来简单，但区别巨大。聊天助手是给你建议，而代理是直接触碰你的资产并产出结果。CoWork设计用来处理多步骤项目，比如整理文件、从图片里提取数据、把零散的笔记生成报告。你可以实时反馈，它还能通过连接器调用外部数据或控制浏览器工作流。

风险是显然的，所以Anthropic强调了安全控制。用户决定Claude能访问哪些文件夹，在删除文件这类重大操作前，助手会请求许可。他们甚至提到了“提示词注入”风险——恶意文档或网页可能嵌入指令，试图劫持代理。目前这功能还限于美国区的macOS。

另一家公司Manus，则瞄准了比电脑桌面更普遍的场景：现实中的对话。他们推出了“会议纪要”功能，专门针对线下面对面会议、访谈，而不是线上会议。它实时录音，然后产出结构化内容：摘要、发言人识别、参会者列表、可执行任务。两个细节很关键，一是支持离线录音，网络断了也不影响，二是能尝试识别谁说了什么，以便把任务项准确分配给人。

Manus还想把“说到做到”的闭环打通，它能直接从会议笔记在同一个工作流里生成交付物，比如演示文稿、网站或社交媒体素材。商业模式是积分制，录音免费，但分析和结构化输出要花积分。价值显然在“思考”部分，而不只是记录。

机器人学会“预演”，谷歌想定义AI购物

从虚拟代理到实体机器人，逻辑是相通的。机器人公司1X将其新的视频预训练世界模型集成到了Neo机器人平台。

传统机器人训练往往依赖海量的机器人演示数据，让机器人反复做动作，慢且贵。1X的新方法，结合了互联网视频和“自我中心”的人类与机器人数据。自我中心数据，就是第一人称视角。

这个模型通过生成文本条件下的视频推演来预测机器人动作，然后再通过逆向动力学把视频转换成运动指令。简单说，AI不仅在看，还在预测“做什么动作会导致什么视觉结果”，然后据此控制身体。

目前每次推演推理大约需要11秒，这说明技术还没到瞬间自主反应的级别。但好处是泛化能力更强，对于训练数据里没有的新物体和新动作，处理得更好。内部测试显示，它在双手协调、复杂物体操控等任务上，成功率匹配或超过了以前的模型。

最后，是谷歌可能埋下的一个最深的基础设施。它正式宣布进入“AI商务”阶段，核心是推出“通用商务协议”。

这是一个新的开放标准，旨在为AI代理、商家和支付系统之间的交互提供通用语言。谷歌与Shopify、沃尔玛、Target、eBay等大公司合作开发。它兼容现有的其他协议，这意味着它能接入现有生态，而不是推倒重来。

一个最直接的应用，就是用户在美国可以通过谷歌的AI搜索模式和Gemini应用，直接购买合作零售商的商品，使用谷歌钱包或PayPal支付。零售商依然是销售主体，保留定制集成的能力。

谷歌还在推出“商务代理”，让品牌能在搜索结果中直接以虚拟购物助手的形态与顾客互动，用品牌自己的风格回答问题。第一阶段包括劳氏、锐步等品牌。

谷歌做的，是在协议层尝试标准化AI购物，把它嵌入Gemini和AI搜索，并给商家在搜索结果里提供代理界面。这是基础设施级别的布局。

所以，未来是什么样

把这些碎片拼起来，画面就清晰了。

竞争是全球化的，但打法分成了两种。 一种是以微软报告为代表的观察：在高端市场之外，性价比和可获取性正在成为决定性因素，催生新的生态主导者。

联盟是必然的，没有全能选手。 强如苹果，也需要在底层模型上依靠谷歌，并接入OpenAI。未来的AI服务，很可能是一个由多家供应商模型驱动的混合体，关键在于谁能做好路由和整合。

AI正在从“说”走向“做”。 无论是操作你的电脑文件，处理线下会议，控制机器人手臂，还是帮你完成购物，AI代理开始拥有执行权。这带来了巨大的便利，也带来了全新的安全和伦理挑战。

标准协议是隐藏的战场。 谷歌推通用商务协议，是想在AI代理如何与商业世界交互这个根本问题上，定义规则。谁定义了协议，谁就掌握了生态的枢纽位置。

我们正在经历的，不是单个产品的升级，而是一整个数字世界运行规则的迁移。AI正在从一项技术，变成我们与所有机器、所有信息、所有商业活动交互的新界面。

这个界面如何工作，由谁定义，又将被谁主导，就是未来十年科技竞争的核心故事。故事才刚刚翻开第一章。