Google发布Imagen 4 Fast:超强文字渲染 降价2/3

16 阅读2分钟

8月15日,Google在海外社交媒体X上(原Twitter)宣布,正式升级文生图大模型Imagen 4,并推出新版本:Imagen 4 Fast。

与今年5月Google I/O上发布的Imagen 4/4 Ultra相比,新模型更快、更强、更便宜:

  • 生图速度从1~5秒,稳定到1~3秒;
  • 保留极强的现实风格细节之外,实现了超强的英文字体生成,支持多种艺术字体;
  • 从0.06美金/单图的平均价格,下降到0.02美金。

不过让人失望的是,新服务仍然没能直接在Gemini APP内上线,想要体验需要使用Google AI Studio、Vertex AI以及Gemini API。

与OpenAI、xAI竞品相比,Imagen 4 Fast最大的优势就是,生成图片细节极强,现实物理世界规律对齐层面做到了最优,做到了以假乱真。

Imagen 4基准数据表格

基准测试Imagen 4 (标准版)Imagen 4 Ultra (高级版)说明
GenAI-Bench (人类评估得分)85-90%92-95%高现实主义和提示一致性生成时间快10x于Imagen 3。
FID Score (COCO 数据集)7.27<7.0 (推测)与真实图像相似度高SOTA水平。
Image Arena (ELO 排名)#3 (~1200)#1 (~1300)用户投票评估视觉质量与GPT-Image-1并列。
CLIP Score (提示一致性)0.35-0.400.42语义匹配度高复杂场景优异。
生成速度 (秒/图像)2-5秒1-3秒标准硬件测试适合实时应用。
分辨率支持Up to 2KUp to 4K (实验)专业设计首选人类偏好率高于Midjourney v6。
幻觉率 (复杂场景)<5%2-3%减少不一致企业风险低。

 

与GPT-5和Grok 4 Imagine对比表格

GPT-5图像生成基于集成GPT-Image-1,专注多模态;Grok 4 Imagine强调创意和速度。

 

基准测试Imagen 4 UltraGPT-5 (Image Gen)Grok 4 Imagine差异分析
GenAI-Bench (人类评估得分)92-95%90-93%85-88%Imagen 4现实主义最高;GPT-5创意多样;Grok 4速度快但细节逊色。
FID Score (COCO 数据集)<7.06.5-7.58.0-9.0GPT-5最真实;Grok 4适合抽象艺术;Imagen 4平衡。
Image Arena (ELO 排名)#1 (~1300)#1 (~1300,并列)#4-5 (~1150)Imagen 4和GPT-5视觉质量顶尖;Grok 4创意强但排名低。
CLIP Score (提示一致性)0.420.400.38Imagen 4最一致;GPT-5复杂提示强;Grok 4幽默风格优。
生成速度(秒/图像)1-3秒3-5秒2-4秒Grok 4最快;Imagen 4质量与速度兼顾;GPT-5稍慢。
分辨率支持Up to 4KUp to 2KUp to 2KImagen 4最高,专业首选;其他注重多样性。
幻觉率 (复杂场景)2-3%1.6-4.8%5-7%GPT-5最低;Grok 4较高但创意无界。

文章由​ ​midjourney1.cn/​ 原创发布,转载请标明出处。