2024年Google为AI烧这么多钱，都烧出了些啥归纳一下 2024年的 Google I/O 10大亮点： Gemi

归纳一下 2024年的 Google I/O 10大亮点：

多模态模型：可理解并处理文本、图像、视频、音频和代码。长上下文：支持100万个token的上下文窗口（Gemini 1.5 Pro），未来将扩展至200万个token。 Gemini 1.5 Flash：轻量级版本，更快速且经济高效，专门用于低延迟和高效率的任务。

能够推理、计划和记忆。能够跨越不同软件和系统，为你完成任务。正在开发用于购物、旅行、搬家等生活场景的代理功能。

AI 概述：提供搜索问题的简洁摘要，并链接到更深入的信息。多步骤推理：能理解复杂的问题并提供完整答案。规划功能：帮助你制定旅行、膳食计划等。视频搜索：可以理解视频内容并回答相关问题。

Gemini 侧面板：提供“帮助我写作”、“帮助我可视化”和“帮助我组织”等功能。智能回复：根据邮件线程提供定制化的回复建议。自动化功能：自动整理收据，生成电子表格和数据分析。虚拟队友：由Gemini驱动的AI助手，能够参与团队合作，提供信息和帮助。

支持文本、语音和手机摄像头输入。 “Live”功能：更自然流畅的语音对话。 Project Astra 功能：通过相机理解周围环境并做出反应。 “宝石”功能：根据你的需求定制的工具，例如写作教练、瑜伽伙伴等。旅行规划功能：根据个人需求和喜好，生成个性化的旅行计划。

Imagen 3：更强大的图像生成模型，图像更加逼真，细节更丰富。 Music AI Sandbox：专业音乐 AI 工具集，可以创作新的乐器部分、传递风格等。 Veo：新的生成视频模型，可以根据文本、图像和视频提示创建高质量的视频。

第六代TPU：Trillium，性能提升了4.7倍。 Axion 芯片：定制基础CPU，拥有行业领先的性能和能效。 AI 超级计算机：整合了硬件、软件和消费模式，提供更灵活和高效的AI服务。

专为学习优化的新模型，帮助学习者更深入地理解知识。学习教练：提供逐步的学习指导，以及一些实用的练习和记忆技巧。 YouTube上的互动功能：帮助学习者更好地理解视频内容。

基于Gemini技术，性能强大，提供轻量级版本和预训练变体。 PaliGemma：首个视觉语言模型，适用于图像字幕生成、视觉问答等。 Gemma 2：拥有270亿参数的新模型，性能强大，可在Nvidia GPU上高效运行。

“红队”测试：通过不断测试和破坏模型，发现漏洞和潜在危险。人工智能辅助红队：利用AI代理相互竞争，改进和扩展红队的测试能力。对抗性提示和限制：防止模型被滥用。 SynthID 水印技术：在人工智能生成的图像、音频和视频中加入难以察觉的水印，帮助识别真伪。