Google 的 Gemma 3 支持单 GPU 部署 | AI日报0313

111 阅读6分钟

Google 的 Gemma 3 支持单 GPU 部署

2025年03月13日 | AI日报

banner4.jpg

欢迎各位人工智能爱好者。

随着 Google 最新开源模型的发布,尖端 AI 对大规模计算需求的时代可能即将结束。Gemma 3 的高性能、多模态能力以及仅需单个 GPU 的设备端操作,正在迅速打破 AI 效率的壁垒。

在今天的人工智能概述中:

  • Google 的 Gemma 3 支持单 GPU 部署
  • Gemini Flash 新增图像生成功能
  • 创建你的 AI 驱动的 Telegram 助手
  • Sakana 的 AI 撰写的同行评审论文

阅读时间: 5分钟

LATEST DEVELOPMENTS

🧠 Google 的 Gemma 3 支持单 GPU 部署

概述: Google 刚刚发布了 Gemma 3,这是一个基于 Gemini 2.0 技术的轻量级 AI 模型家族,能够在仅使用单个 GPU 或 TPU 的情况下,提供与更大模型相媲美的性能。

详细信息:

  • 该模型家族有四种尺寸(1B、4B、12B 和 27B 参数),针对从手机到笔记本电脑的不同硬件配置进行了优化。
  • 27B 模型在 LMArena 排行榜上的人类偏好评估中,表现优于 Llama-405B、DeepSeek-V3 和 o3-mini 等更大的竞争对手。
  • 其他新功能包括 128K token 的上下文窗口、支持 140 种语言,以及分析图像、文本和短视频的多模态能力。
  • Google 还发布了 ShieldGemma 2,这是一个 4B 参数的图像安全检查器,可以过滤显式内容,并轻松集成到视觉应用中。

为什么重要: Gemma 3 的表现令人惊叹,击败了在规模和计算能力上都远超它的顶级系统。这些模型仅需单个 GPU 即可运行,达到了开源、强大、快速、多模态且足够小以部署在各种设备上的理想状态,这是一项巨大的成就。

📸 Gemini Flash 新增图像生成功能

转存失败,建议直接上传图片文件

概述: Google 为其 Gemini 2.0 Flash 模型发布了新的实验性图像生成功能,允许用户直接从语言模型上传、创建和编辑图像,而无需单独的图像生成系统。

详细信息:

  • 2.0-flash-exp 模型可通过 API 和 Google AI Studio 使用,支持图像和文本输出,并通过文本对话进行编辑。
  • Gemini 使用推理和多模态基础来保持角色一致性,并在整个对话中理解现实世界的概念。
  • 例如,你可以提示它生成一个带图片的故事,然后通过自然对话引导它达到完美版本。
  • Google 表示,与竞争对手相比,Flash 2.0 在文本渲染方面表现出色,能够生成广告、社交媒体帖子和其他文本密集型设计。

为什么重要: 这一升级是 AI 生成视觉内容方式转变的重要一步,从专用图像模型转向能够原生理解文本和视觉的语言模型。正如自然语言提示在其他领域占据主导地位一样,图像编辑似乎也将成为下一个目标。

🤖 使用无代码 AI 代理处理大规模客户互动

转存失败,建议直接上传图片文件

概述: Jotform AI 代理让组织能够提供 24/7 的跨平台对话式客户服务,无需编写代码。

使用 Jotform AI 代理,你可以:

  • 轻松开始使用 7,000 多个现成的 AI 代理模板
  • 自动化工作流并实时触发自定义操作
  • 无缝处理语音、文本和聊天查询
  • 自定义代理的外观以符合品牌形象

🔬 Sakana 的 AI 撰写的同行评审论文

转存失败,建议直接上传图片文件

概述: 日本 AI 初创公司 Sakana 宣布,其 AI 系统成功生成了一篇通过同行评审的科学论文,该公司称这是第一篇完全由 AI 撰写的论文。

详细信息:

  • AI Scientist-v2 生成了三篇论文,创建了假设、实验代码、数据分析、可视化和文本,无需人工修改。
  • 其中一篇提交被 ICLR 2025 研讨会接受,平均评审得分为 6.33,高于许多人类撰写的论文。
  • Sakana 还指出了一些注意事项,包括 AI 在引用方面出现错误,以及研讨会的接受率高于典型的会议轨道。
  • 公司总结称,这篇论文未达到其内部对 ICLR 会议论文的标准,但显示了“早期进展的迹象”。

为什么重要: 尽管这一里程碑伴随着显著的局限性,但它也标志着 AI 在学术研究过程中不断推进的重要早期标志。随着 Sakana 和 Google 的 AI 共同科学家等模型的推出,科学界正在迎来一场巨大的变革。

快速浏览

  • ⚙️ Responses API and Agents SDK - OpenAI 的自定义代理 DIY 工具
  • ⚡️ Reka Flash 3 - 开源的 21B 参数推理 AI,支持设备端部署
  • 👨🏻‍⚖️ Harvey - 为律师事务所、服务提供商和财富 500 强公司提供的 AI
  • 🗣️ Wispr Flow for Windows - 使用语音在每款应用中加快 3 倍写作速度
  • 新的法律文件 显示,Google 拥有 Anthropic 14% 的股份,其投资总额超过 30 亿美元。
  • 阿里巴巴研究人员 开源 了 R1-Omni,这是一个新的多模态推理模型,可以通过视觉和音频上下文“读取”情绪。
  • Google DeepMind 推出 了 Gemini Robotics 和 Gemini Robotics-ER,这两个基于 Gemini 2.0 的模型可以帮助机器人完成现实世界的任务,而无需训练。
  • Perplexity 发布 了其 Sonar 模型的新 Model Context Protocol (MCP) 服务器,允许 Claude 访问实时网络搜索功能。
  • Snap 推出 了其首个 AI 视频镜头,由内部生成模型驱动,为高级订阅者提供三种 AR 动画,并计划每周推出新选项。
  • Moonvalley 发布 了 Marey,这是一个 AI 视频模型,声称仅使用授权内容进行训练,用于电影制作,能够创建 30 秒长的 HD 片段。
  • Captions 推出 了 Mirage,这是一个专门为广告活动生成 UGC 风格内容的基础模型。