8月15日,Google在海外社交媒体X上(原Twitter)宣布,正式升级文生图大模型Imagen 4,并推出新版本:Imagen 4 Fast。
与今年5月Google I/O上发布的Imagen 4/4 Ultra相比,新模型更快、更强、更便宜:
- 生图速度从1~5秒,稳定到1~3秒;
- 保留极强的现实风格细节之外,实现了超强的英文字体生成,支持多种艺术字体;
- 从0.06美金/单图的平均价格,下降到0.02美金。
不过让人失望的是,新服务仍然没能直接在Gemini APP内上线,想要体验需要使用Google AI Studio、Vertex AI以及Gemini API。
与OpenAI、xAI竞品相比,Imagen 4 Fast最大的优势就是,生成图片细节极强,现实物理世界规律对齐层面做到了最优,做到了以假乱真。
Imagen 4基准数据表格
基准测试 | Imagen 4 (标准版) | Imagen 4 Ultra (高级版) | 说明 |
---|---|---|---|
GenAI-Bench (人类评估得分) | 85-90% | 92-95% | 高现实主义和提示一致性生成时间快10x于Imagen 3。 |
FID Score (COCO 数据集) | 7.27 | <7.0 (推测) | 与真实图像相似度高SOTA水平。 |
Image Arena (ELO 排名) | #3 (~1200) | #1 (~1300) | 用户投票评估视觉质量与GPT-Image-1并列。 |
CLIP Score (提示一致性) | 0.35-0.40 | 0.42 | 语义匹配度高复杂场景优异。 |
生成速度 (秒/图像) | 2-5秒 | 1-3秒 | 标准硬件测试适合实时应用。 |
分辨率支持 | Up to 2K | Up to 4K (实验) | 专业设计首选人类偏好率高于Midjourney v6。 |
幻觉率 (复杂场景) | <5% | 2-3% | 减少不一致企业风险低。 |
与GPT-5和Grok 4 Imagine对比表格
GPT-5图像生成基于集成GPT-Image-1,专注多模态;Grok 4 Imagine强调创意和速度。
基准测试 | Imagen 4 Ultra | GPT-5 (Image Gen) | Grok 4 Imagine | 差异分析 |
---|---|---|---|---|
GenAI-Bench (人类评估得分) | 92-95% | 90-93% | 85-88% | Imagen 4现实主义最高;GPT-5创意多样;Grok 4速度快但细节逊色。 |
FID Score (COCO 数据集) | <7.0 | 6.5-7.5 | 8.0-9.0 | GPT-5最真实;Grok 4适合抽象艺术;Imagen 4平衡。 |
Image Arena (ELO 排名) | #1 (~1300) | #1 (~1300,并列) | #4-5 (~1150) | Imagen 4和GPT-5视觉质量顶尖;Grok 4创意强但排名低。 |
CLIP Score (提示一致性) | 0.42 | 0.40 | 0.38 | Imagen 4最一致;GPT-5复杂提示强;Grok 4幽默风格优。 |
生成速度(秒/图像) | 1-3秒 | 3-5秒 | 2-4秒 | Grok 4最快;Imagen 4质量与速度兼顾;GPT-5稍慢。 |
分辨率支持 | Up to 4K | Up to 2K | Up to 2K | Imagen 4最高,专业首选;其他注重多样性。 |
幻觉率 (复杂场景) | 2-3% | 1.6-4.8% | 5-7% | GPT-5最低;Grok 4较高但创意无界。 |
文章由 midjourney1.cn/ 原创发布,转载请标明出处。