
归纳一下 2024年的 Google I/O 10大亮点:
- Gemini 1.5 的更新:
多模态模型:可理解并处理文本、图像、视频、音频和代码。 长上下文:支持100万个token的上下文窗口(Gemini 1.5 Pro),未来将扩展至200万个token。 Gemini 1.5 Flash:轻量级版本,更快速且经济高效,专门用于低延迟和高效率的任务。
- 人工智能代理:
能够推理、计划和记忆。 能够跨越不同软件和系统,为你完成任务。 正在开发用于购物、旅行、搬家等生活场景的代理功能。
- Google 搜索的升级:
AI 概述:提供搜索问题的简洁摘要,并链接到更深入的信息。 多步骤推理:能理解复杂的问题并提供完整答案。 规划功能:帮助你制定旅行、膳食计划等。 视频搜索:可以理解视频内容并回答相关问题。
- Google Workspace 升级:
Gemini 侧面板:提供“帮助我写作”、“帮助我可视化”和“帮助我组织”等功能。 智能回复:根据邮件线程提供定制化的回复建议。 自动化功能:自动整理收据,生成电子表格和数据分析。 虚拟队友:由Gemini驱动的AI助手,能够参与团队合作,提供信息和帮助。
- Gemini 应用程序:
支持文本、语音和手机摄像头输入。 “Live”功能:更自然流畅的语音对话。 Project Astra 功能:通过相机理解周围环境并做出反应。 “宝石”功能:根据你的需求定制的工具,例如写作教练、瑜伽伙伴等。 旅行规划功能:根据个人需求和喜好,生成个性化的旅行计划。
- 生成式媒体工具:
Imagen 3:更强大的图像生成模型,图像更加逼真,细节更丰富。 Music AI Sandbox:专业音乐 AI 工具集,可以创作新的乐器部分、传递风格等。 Veo:新的生成视频模型,可以根据文本、图像和视频提示创建高质量的视频。
- 人工智能基础设施:
第六代TPU:Trillium,性能提升了4.7倍。 Axion 芯片:定制基础CPU,拥有行业领先的性能和能效。 AI 超级计算机:整合了硬件、软件和消费模式,提供更灵活和高效的AI服务。
- LearnLM:
专为学习优化的新模型,帮助学习者更深入地理解知识。 学习教练:提供逐步的学习指导,以及一些实用的练习和记忆技巧。 YouTube上的互动功能:帮助学习者更好地理解视频内容。
- 开源模型Gemma:
基于Gemini技术,性能强大,提供轻量级版本和预训练变体。 PaliGemma:首个视觉语言模型,适用于图像字幕生成、视觉问答等。 Gemma 2:拥有270亿参数的新模型,性能强大,可在Nvidia GPU上高效运行。
- 负责任的人工智能:
“红队”测试:通过不断测试和破坏模型,发现漏洞和潜在危险。 人工智能辅助红队:利用AI代理相互竞争,改进和扩展红队的测试能力。 对抗性提示和限制:防止模型被滥用。 SynthID 水印技术:在人工智能生成的图像、音频和视频中加入难以察觉的水印,帮助识别真伪。