谷歌推出最新大模型 Gemini 2.0,开放 Deep Research 新功能,有哪些能力提升?

29 阅读2分钟

谷歌最新大模型 Gemini 2.0 的能力提升

谷歌在2024年12月11日发布了其最新的人工智能大模型 Gemini 2.0,这一版本相较于之前的模型有了显著的能力提升。以下是 Gemini 2.0 的几个主要能力提升点:

多模态输入输出能力

Gemini 2.0 的核心特点是其强大的多模态能力,它支持原生图像和多语言音频输出,以及原生工具使用。这意味着该模型能够理解和处理包括文本、图像、视频和音频在内的多种输入类型,并提供相应的输出结果。

更高的性能和速度

据官方数据对比,Gemini 2.0 在编程、数学、推理、图像、视频等领域的处理能力均超越了 Gemini 1.5 Pro。新版本不仅保持了快速响应能力,而且功能更加强大,运行速度上甚至比前代 Flash 模型快了一倍。

Agent 人工智能功能

Gemini 2.0 最大的亮点是其“代理人工智能”(Agentic AI)功能。这种 AI 系统不再仅仅是被动地回答问题,而是能够理解复杂的上下文,提前规划多个步骤,并在用户授权下采取行动。谷歌推出了三个基于 Gemini 2.0 架构的 AI 智能体原型,分别是 Project Astra、Project Mariner 和 Jules,每一个都针对特定应用场景进行了优化。

Deep Research 新功能

谷歌还推出了 Deep Research 的新功能,它运用高级推理和长上下文处理能力,承担研究助手的角色,帮助用户探索复杂的主题并撰写报告。该功能对 Gemini Advanced 用户开放。

更广泛的整合和应用

谷歌表示会先将 Gemini 2.0 开放给开发者以及受信任的测试人员,并将其整合到产品中。Gemini 2.0 将被整合到更多产品中,尤其是在搜索和 Gemini 平台方面。

Gemini 2.0 的硬件基础

Gemini 2.0 基于谷歌定制的硬件第六代 TPU Trillium 构建而成,TPU 为 Gemini 2.0 的训练和推理提供了 100% 算力支持。

综上所述,谷歌的 Gemini 2.0 在多模态处理、性能速度、Agent 人工智能功能、Deep Research 新功能以及产品整合等多个方面都实现了显著的能力提升。这些提升使得 Gemini 2.0 成为谷歌迄今为止最强大的人工智能模型,标志着谷歌在 AI 领域的又一重要进步。