昨晚谷歌 I/O 开发者大会直播,说实话我是很想看的。
但看了眼时间,再想想第二天还得早起赶车,罢了,还是睡觉重要。
这时候我突然想起,前两天刚拿到 flowith 新的 AI agent ——Neo 的内测邀请码。
一个想法冒出来:我能不能不自己看了,直接让 Neo 去“看”?
于是就开始了实验。
我把 Neo 设定成“夜间情报官”,让它在我睡觉时,去自动追踪谷歌 I/O 大会的全网直播、新闻发布、媒体总结、KOL 点评、社交平台的热议趋势……
第二天早上直接给我发一份“信息浓缩版”的简报给我。
那既然简报都写了,不如顺手把公众号文章也写了,这样我醒来就能一键发布,效率拉满。
于是我找了一篇我之前写过的文章给它参考,要求它写一篇图文并茂的文章。
它真的,做到了。
当然,初稿文风还没完全对齐我,但结构和信息密度都已经可圈可点,只需要我稍微润色一下,加点观点就能发。
这个过程让我第一次真正感受到,AI Agent 可能会彻底重构“内容生产”的流程。
以前的内容工作是这样:
人熬夜+人写稿+人排版+人发文
现在,它变成了:
Agent 看直播+Agent 写简报+人补主观+人发文
半年后呢?
也许连最后一步都能自动化。
我们真正需要思考的问题就只剩下:我们到底要表达什么,我们是谁。
以下是 Flowth Neo 写的全文。
哇塞!谷歌 I/O 大会,这个科技圈的年度盛宴,今年真是把 AI 玩出了新高度!
如果说去年的 I/O 是 AI 秀肌肉,那 2025 年的这场,绝对是 AI“注入灵魂”,让所有谷歌产品都瞬间变得活色生香!这次大会的核心关键词?
毫无疑问,就是 AI 原生!
从手机到眼镜,从搜索框到视频创作,AI 的身影无处不在,而且它不再只是个旁边提供帮助的“工具人”,而是正在变成我们数字生活里那个能主动思考、主动协助、甚至能跟你实时“看见”并交流的超级伙伴!
AI 的使用量在谷歌产品和服务中实现了惊人的增长,从去年 4 月的 9.7 万亿 tokens 飙升至超过 480 万亿 tokens,足足增长了 50 倍!
这速度,简直飞起!
核心驱动:Gemini 模型家族的“超进化”与 Ironwood 助燃
AI 的强大,首先得有强大的“大脑”。这次 I/O 大会,谷歌的旗舰 AI 模型——Gemini 2.5 系列,彻底 C 位出道,带来了惊人的升级!
Gemini 整体智能水平提升显著,Elo 分数相比第一代提高了 300 分以上,模型推理速度提升,且成本大幅降低。
Gemini 2.5 Pro 不仅在长上下文处理、推理和代码生成上遥遥领先,更是亮出了王牌功能——Deep Think 模式!
想象一下,AI 在回答你的问题前,可以自己进行多轮“头脑风暴”,评估各种可能性,这不就是让 AI 学会了更深层的“思考”吗?
通过这种“增强型推理”,它能在复杂基准测试中表现更佳,虽然目前还是实验功能,但这绝对是迈向更高阶智能的关键一步!
同时,为了应对不同场景的需求,谷歌还推出了速度更快、成本更低的 Gemini 2.5 Flash,更适应实际场景,甚至可以为其设置“推理预算”,实现端侧/边缘端与云端 AI 能力按需分配,让 AI 的能力更灵活地下沉到各种应用中。
而那个实验性的 Gemini Diffusion 文本扩散模型,据说生成内容比 2.0 版的 Flash Lite 快五倍!
当然,光有聪明的大脑还不够,还得有强劲的“身体”支撑。谷歌发布了专为推理任务打造的第七代 TPU——“Ironwood”!
这家伙针对思考和推理型 AI 负载进行定制,单个 Pod 能提供高达 42.5 exaflops 的运算能力,性能是上一代的 10 倍!有了 Ironwood 的强力助攻,Gemini 系列模型的运行将更加高效流畅。
AI 全面渗透:搜索、助手与智能体,让你的生活瞬间升级!
AI 不再是实验室里的高冷技术,它正大踏步地走进我们每天使用的产品里。
搜索大变身:不止是链接,更是直接的答案和行动!
谷歌最核心的产品——搜索,这次被 AI 彻底重塑了!“AI Mode”来了!
这个全新的搜索模式允许你提出超长、超复杂的问题,AI 会像个超级侦探一样,自动帮你拆解、联网搜索、综合信息,直接给你一个结构清晰、多信息流卡片整合的答案(通过“query fan-out technique”进行高级推理)。
而且,它还能记住你的偏好,甚至连接到 Gmail、Drive 等个人应用获取上下文,提供更个性化的搜索结果!
Deep Search 功能甚至能够同时进行数百次搜索!告别漫无目的地翻链接,谷歌搜索正变得越来越像你的专属知识管家。AI Overviews(AI 概览)功能也已经服务超过 15 亿用户,并且在不断改进质量和准确性。
此外,像基于用户照片的虚拟试穿、以及令人惊叹的 Search Live(可以通过手机摄像头与 Google AI 互动,让 AI 帮你完成现实世界中的任务,比如教你园艺、移除污渍!)这些功能,听起来就超酷炫,感觉生活里的各种小难题都能交给 AI 了!
Gemini Live:看得见、听得懂、能帮忙的超能助手!
Gemini 应用本身也在飞速进化。全新的 Gemini Live,也就是之前令人惊艳的 Project Astra,现在正式面向用户普及!
它不仅支持实时、多模态的对话,最厉害的是它能通过你的手机摄像头和屏幕,真正“看见”你在做什么、在看什么,并据此提供实时帮助。
比如,面试前帮你模拟练习、或者教你处理文件,甚至未来几周内还能更深入整合 Google 应用,帮你通过对话完成 Google 地图导航、在 Google 日历中创建事件或在 Google 任务中生成任务列表!
你的 AI 助手,正在从“听筒”升级到“眼睛+大脑”!Gemini 应用月活用户已突破 4 亿!
Agent 模式:AI 帮你跑腿,解放双手!
谷歌提出的“代理式 AI”(Agentic AI)概念正在变成现实。Agent Mode 和 Project Mariner 的亮相,意味着 AI 不再满足于回答问题,它要开始替你做事了!
通过 Agent Mode,你可以向 AI 提供需求,让它在网上执行多步骤任务。
想象一下,你只需要告诉 AI 你想找一套公寓,基于 Project Mariner 的 AI 就能自己去各大房产网站筛选信息、对比条件,甚至自动填写预约看房的表格!Project Mariner 甚至已经能并行处理 10 项任务了!
这种“示范并重复”(teach and repeat)的学习机制,让 AI 能从你的操作中学习,然后帮你自动化完成那些繁琐的网络任务。
这简直是效率提升的神器啊!Project Mariner 将通过 Gemini API 向开发者提供能力。
而另一款 AI 编程 Agent Jules,目前全球测试中,可以直接连接你的 GitHub,帮你处理复杂的代码库任务,甚至自动拉取和提交代码。码农们,你们的专属智能副驾驶来了!
创作新维度:生成式 AI 模型,让创意插上翅膀!
内容创作领域,AI 的潜力被进一步激发!
Veo 3 与 Imagen 4:视频和图像生成的王者!
谷歌推出了新一代的生成式媒体模型:Veo 3 和 Imagen 4。
Veo 3,谷歌的视频生成模型,这次升级加入了原生音频生成!
也就是说,它不仅能根据你的文本或图片描述生成高质量的视频,还能给视频配上逼真的音效、环境声,甚至人物对话!并且对物理、重力和光线有了更好的理解!
感觉离 AI 拍电影的日子越来越近了!目前可通过 Gemini 聊天机器人应用向 AI Ultra 订阅用户开放。
Imagen 4,新一代图像生成模型,在画质、细节和文字处理上都有显著提升,能够准确生成文本内容!而且渲染速度比前代提升高达 10 倍!
支持各种风格、长宽比和高达 2K 的分辨率。从写实到抽象,各种风格都能驾驭,绝对是设计师和创作者的福音。目前 Imagen 4 已在 Gemini App 中推出。
而结合了 Veo、Imagen 和 Gemini 能力的 Flow 工具,更是旨在帮助创作者更高效地构建视频故事,甚至能把短视频自动扩展成长篇场景!音频 AI Lyria 模型和音乐创作 AI Music Sandbox 也为专业内容创作提供支持。
Gemma 开放模型家族壮大:AI 普惠进行时
谷歌还在继续推动 AI 的开放与普及。
更新的 Gemma 系列开放模型,包括多模态的 Gemma 3n Preview(厉害之处在于,它可以在内存低至 2GB RAM 的设备上运行!)、专注于健康文本和图像分析的 MedGemma,以及能将手语(目前主要支持美国手语)翻译为口语文本的 SignGemma。
这标志着谷歌正在努力让 AI 能力触达更多设备和更广泛的专业领域。
AI 连接未来:XR 与 3D 通信,构建沉浸式新体验!
未来的计算形态会是什么样?谷歌给出的答案之一是——空间计算(Spatial Computing)。
Android XR:眼镜里的 AI 世界!
Android XR 操作系统的首次亮相,预示着谷歌正式进军 XR(扩展现实)领域的核心平台!Gemini 作为 XR 系统的核心交互引擎,能让眼镜和头显拥有强大的 AI 能力。
Google 展示了如何将 Gemini 带入眼镜和头显等设备。
与三星等伙伴合作的 Google AI 眼镜和 XR 头显(Project Moohan),让我们看到了 AI 与增强现实结合后,未来的可能性——比如眼镜里直接弹出实时语言翻译!虽然现场演示有点小插曲,但潜力巨大,形成了“开放、协作”的生态路线!
Google Beam:面对面,就像你在我眼前!
还记得谷歌那个科幻感十足的 Project Starline 吗?它升级了!变成了 Google Beam,一个 AI 优先的 3D 视频通话平台。
它不再是简单的 2D 画面,而是通过六摄像头阵列和 AI 技术,把你朋友或同事的影像转化成逼真、沉浸式的 3D 影像,具备毫米级头部追踪和实时渲染,感觉就像他们真真切切地坐在你对面一样!
与 HP 合作的首批设备今年晚些时候面向客户推出。这种 AI 驱动的 3D 通信,彻底改变了远程协作的体验。
开发者赋能与商业布局:AI 生态的基石
强大的 AI 离不开繁荣的开发者生态。谷歌对 AI Studio 进行了重磅升级,支持 24 种语言原生语音识别、URL 上下文摘要、增强函数调用与推理功能,提供了更强大的模型 API 调用和更多的开发工具。
Gemini Code Assist 进入全面可用阶段,为个人用户和 GitHub 提供支持,让开发者写代码更高效。而新的 Computer Use API,则让开发者能构建可以浏览网页、使用其他软件工具的 AI 应用!Google Cloud 的 Vertex AI 平台也扩展了 Gemini 2.5 Flash 和 Pro 的能力。
在商业化方面,谷歌推出了顶级的 Google AI Ultra 订阅套餐,月费 249.99 美元(美国首发),前三个月半价 124.99 美元。
该套餐打包了 Gemini Ultra、Veo 3、Deep Think 2.5 Pro 等最先进的 AI 能力和 30TB 云存储(战略文件提及),以及 Flow 平台。这显然是针对专业用户和企业级需求,也预示着高端 AI 能力的商业价值正在凸显。
AI 在 Gmail、Docs、Google Vids 等 Workspace 办公场景的深度应用,以及 Google Meet 集成实时语音翻译功能(英西互译已向订阅用户开放),都进一步提升了 AI 在日常工作中的生产力。
最后,谷歌也强调了在 AI 安全和内容鉴别方面的努力,推出了 SynthID Detector 这个新的门户网站,旨在帮助识别 AI 生成的内容,并通过 SynthID 功能在模型中嵌入不可见的数字水印来标记 AI 生成媒体。
在 AI 狂奔的同时,不忘安全与责任。Google 还展示了利用 AI 解决现实世界问题的努力,例如通过 Fire SAT 卫星星座结合 AI,近乎实时地监测自然灾害。
结语:AI,正在重新定义一切!
这次 Google I/O 大会,与其说是“有关于 AI 的”大会,不如说是“被 AI 驱动的”大会。谷歌正在将 AI,特别是 Gemini 模型,深深地嵌入到其所有的产品和平台底层。
从“移动优先”到“AI 原生”,这不仅仅是技术方向的转变,更是谷歌构建通用 AI 助手和“世界模型”,迈向通用人工智能(AGI),在新一轮全球 AI 竞赛中牢牢掌控技术主导权的战略核心。
通用 AI 助手、代理式 AI、多设备空间计算、全场景 AI 感知……这些以前听起来还略显遥远的概念,正在一步步成为现实。
CEO Sundar Pichai 强调将用户控制放在重要位置,确保隐私透明。2025 年的 Google I/O,让我们真切感受到了 AI 浪潮的澎湃力量,以及它将如何深刻地改变我们的工作、生活和创意方式。AI 的未来,才刚刚拉开序幕,让我们拭目以待!