介绍Gemini 2.0:面向智能体时代的新AI模型
Demis Hassabis 和 Koray Kavukcuoglu 代表 Gemini 团队撰写
在过去一年中,人工智能领域继续取得了令人难以置信的进展。今天,我们发布Gemini 2.0模型家族中的第一个模型:Gemini 2.0 Flash的实验版本。这是我们具备低延迟、在技术前沿提供增强性能的规模化主力模型。
同时,也通过展示由Gemini 2.0原生多模态能力支持的多个原型,分享我们在智能体研究领域的前沿探索。
Gemini 2.0 Flash
Gemini 2.0 Flash建立在1.5 Flash成功的基础上。1.5 Flash是迄今为止开发者中最受欢迎的模型,2.0 Flash在保持类似快速响应时间的同时,性能得到了增强。值得注意的是,在关键基准测试中,2.0 Flash的表现甚至超过了1.5 Pro,且速度快一倍。
2.0 Flash还带来了新的能力。除了支持图像、视频和音频等多模态输入外,2.0 Flash现在还支持多模态输出,例如原生生成的图像与文本混合输出,以及可操控的文本转语音(TTS)多语言音频。它还能原生调用工具,如搜索、代码执行以及第三方用户自定义函数。
目标是安全、快速地将模型交到人们手中。过去一个月,一直在分享Gemini 2.0的早期实验版本,并从开发者那里获得了宝贵的反馈。
Gemini 2.0 Flash现已作为实验模型向开发者提供,可通过某中心的AI Studio和Vertex AI中的Gemini API访问。所有开发者均可使用其多模态输入和文本输出功能,文本转语音和原生图像生成功能则提供给早期访问合作伙伴。通用可用性将于一月份随更多模型规模一同推出。
为了帮助开发者构建动态和交互式应用程序,还发布了一个新的多模态实时API,支持实时音频、视频流输入以及使用多个组合工具的能力。有关2.0 Flash和多模态实时API的更多信息,可在开发者博客中找到。
在AI助手中提供Gemini 2.0
同样从今天开始,全球Gemini用户可以通过在桌面端和移动网页的模型下拉菜单中选择,访问一个针对聊天优化的2.0 Flash实验版本,该版本也即将在Gemini移动应用上线。借助这个新模型,用户可以体验到更有帮助的AI助手。
明年初,Gemini 2.0将扩展到更多产品中。
用Gemini 2.0解锁智能体体验
Gemini 2.0 Flash的原生用户界面操作能力,连同其他改进,如多模态推理、长上下文理解、复杂指令跟随和规划、组合式函数调用、原生工具使用以及改进的延迟,共同协作,实现了一类新的智能体体验。
AI智能体的实际应用是一个充满令人兴奋可能性的研究领域。正在通过一系列原型来探索这个新前沿,这些原型可以帮助人们完成任务和做成事情。其中包括:
- Project Astra更新:这是探索通用AI助手未来能力的研究原型。
- 新的Project Mariner:探索人机交互的未来,从浏览器开始。
- Jules:一个可以帮助开发者的AI驱动代码智能体。
目前仍处于开发的早期阶段,但很兴奋看到受信任的测试者如何使用这些新功能,以及可以从中吸取哪些经验教训,以便未来能让它们在产品中更广泛地应用。
Project Astra:在现实世界中使用多模态理解的智能体
自某中心在I/O大会上推出Project Astra以来,一直在从使用Android手机的受信任测试者那里学习。他们宝贵的反馈帮助更好地理解了通用AI助手在实践中如何工作,包括对安全和伦理的影响。
基于Gemini 2.0构建的最新版本改进包括:
- 更好的对话:Project Astra现在能够进行多语言和混合语言对话,并能更好地理解口音和不常见词汇。
- 新的工具使用:借助Gemini 2.0,Project Astra可以使用搜索、Lens和地图,使其在日常生活中的助手角色更加有用。
- 更好的记忆:改进了Project Astra的记忆能力,同时让用户保持控制。它现在拥有长达10分钟的会话内记忆,并能记住更多过去与它的对话,从而更好地为您个性化。
- 改进的延迟:凭借新的流式传输能力和原生音频理解,该智能体理解语言的速度大约接近人类对话的延迟。
正在努力将这类能力引入到像AI助手这样的产品中,以及其他形态的设备,例如眼镜。并且正在开始将受信任的测试者计划扩展到更多人,包括一个即将开始在原型眼镜上测试Project Astra的小组。
Project Mariner:可帮助您完成复杂任务的智能体
Project Mariner是一个基于Gemini 2.0构建的早期研究原型,旨在探索人机交互的未来,从浏览器开始。作为一个研究原型,它能够理解并推理浏览器屏幕上的信息,包括像素和文本、代码、图像、表单等网页元素,然后通过一个实验性的Chrome扩展程序,利用这些信息为您完成任务。
在WebVoyager基准测试(测试智能体在端到端真实世界网页任务上的性能)中评估时,Project Mariner以单一智能体设置取得了83.5%的先进结果。
虽然仍处于早期阶段,但Project Mariner表明,在浏览器中导航在技术上正成为可能,尽管目前并非总是准确且完成任务较慢,但这将随着时间的推移迅速改善。
为了安全、负责任地构建此项目,正在进行新型风险和缓解措施的积极研究,同时保持人在回路中。例如,Project Mariner只能在浏览器活动标签页中键入、滚动或点击,并且在执行某些敏感操作(如购买物品)之前,会请求用户最终确认。
受信任的测试者现已开始通过实验性Chrome扩展程序测试Project Mariner,同时也开始与更广泛的网络生态系统进行对话。
Jules:面向开发者的智能体
有关此进行中实验的更多信息,可在开发者博客文章中找到。
游戏及其他领域的智能体
Google DeepMind拥有利用游戏帮助AI模型在遵循规则、规划和逻辑方面变得更好的悠久历史。例如,就在上周,推出了Genie 2,这是一个可以从单张图像创建无尽多样可玩3D世界的AI模型。
秉承这一传统,我们已利用Gemini 2.0构建了能够帮助您导航视频游戏虚拟世界的智能体。它可以仅根据屏幕上的动作来推理游戏,并在实时对话中提供下一步行动建议。
正在与领先的游戏开发商(如Supercell)合作,探索这些智能体的工作方式,测试它们在从“部落冲突”等策略游戏到“卡通农场”等农场模拟游戏的多样化游戏规则和挑战中的解释能力。
除了充当虚拟游戏伙伴外,这些智能体甚至可以接入搜索,将您与网络上丰富的游戏知识连接起来。
除了在虚拟世界中探索智能体能力外,我们还在试验可以帮助物理世界的智能体,方法是将Gemini 2.0的空间推理能力应用于机器人技术。虽然仍处于早期阶段,但对能够在物理环境中提供协助的智能体潜力感到兴奋。
您可以在某中心实验室了解更多关于这些研究原型和实验的信息。
在智能体时代负责任的构建
Gemini 2.0 Flash和我们的研究原型使我们能够测试和迭代AI研究前沿的新能力,这些能力最终将使产品更有帮助。
在开发这些新技术的同时,我们认识到随之而来的责任,以及AI智能体对安全和保障提出的诸多问题。这就是为什么采取探索性和渐进式开发方法的原因,包括对多个原型进行研究、迭代实施安全训练、与受信任的测试者和外部专家合作,并进行广泛的风险评估以及安全和保障评估。
例如:
- 作为安全流程的一部分,已与长期存在的内部评审小组(责任与安全委员会,RSC)合作,以识别和理解潜在风险。
- Gemini 2.0的推理能力实现了AI辅助红队方法的重大进步,包括能够超越单纯的风险检测,现在可以自动生成评估和训练数据以缓解风险。这意味着可以更有效地大规模优化模型的安全性。
- 随着Gemini 2.0的多模态增加了潜在输出的复杂性,将继续评估和训练模型在图像和音频输入输出方面的表现,以帮助提高安全性。
- 对于Project Astra,正在探索防止用户无意中向智能体共享敏感信息的潜在缓解措施,并且已经内置了隐私控制,使用户可以轻松删除会话。同时,继续研究确保AI智能体作为可靠信息来源且不会代表您采取意外行动的方法。
- 对于Project Mariner,正在努力确保模型学会优先考虑用户指令而非第三方提示注入尝试,使其能够识别来自外部来源的潜在恶意指令并防止滥用。这可以防止用户通过隐藏在电子邮件、文档或网站中的恶意指令而遭受欺诈和网络钓鱼攻击。
坚信,构建AI的唯一方法是从一开始就负责任,并将继续优先考虑将安全和责任作为模型开发过程的关键要素,同时推进模型和智能体的发展。
Gemini 2.0、AI智能体及未来
今天的发布标志着Gemini模型的新篇章。随着Gemini 2.0 Flash的发布,以及探索智能体可能性的一系列研究原型,已经达到了Gemini时代一个令人兴奋的里程碑。我们期待着在向AGI迈进的过程中,继续安全地探索所有触手可及的新可能性。