Nano Banana 是 Gemini 原生图片生成功能的名称。 Gemini 可以通过文本、图片或两者结合的方式以对话方式生成并处理图片。这样一来,您即可以前所未有的精准度创建、修改和迭代视觉内容。
Nano Banana 是指 Gemini API 中提供的三种不同的模型:
**Nano Banana 2:**Gemini 3.1 Flash Image 预览版模型 (gemini-3.1-flash-image-preview)。此模型是 Gemini 3 Pro Image 的高效版本,针对速度和高用量开发者使用情形进行了优化。
**Nano Banana Pro:**Gemini 3 Pro Image 预览版模型 (gemini-3-pro-image-preview)。此模型专为专业资产制作而设计,利用高级推理(“思考”)功能来遵循复杂的指令并呈现高保真文本。
**Nano Banana:**Gemini 2.5 Flash Image 模型 (gemini-2.5-flash-image)。此模型专为速度和效率而设计,经过优化,可处理海量低延迟任务。
生成的所有图片都包含 SynthID 水印。
Nano Banana参考图数量
Gemini 3 提供先进的图片生成和编辑模型。Gemini 3.1 Flash Image 针对速度和大规模应用场景进行了优化,而 Gemini 3 Pro Image 针对专业素材制作进行了优化。它们旨在通过高级推理来应对最具挑战性的工作流程,擅长处理复杂的多轮创建和修改任务。
- 高分辨率输出:内置生成 1K、2K 和 4K 视觉内容的能力。
- Gemini 3.1 Flash Image 新增了较小的 512 像素 (0.5K) 分辨率。
- 高级文本呈现:能够为信息图表、菜单、图表和营销素材资源生成清晰易读的风格化文本。
- 使用 Google 搜索建立依据:模型可以使用 Google 搜索作为工具来验证事实,并根据实时数据(例如当前天气地图、股票图表、近期活动)生成图像。
- Gemini 3.1 Flash Image 新增了与 Google 图片搜索和网页搜索的 Grounding 功能集成。
- 思考模式:模型会利用“思考”过程来推理复杂的提示。它会生成临时“构思图片”(在后端可见,但不收费),以在生成最终的高质量输出之前优化构图。
- 最多 14 张参考图片:您现在最多可以混合使用 14 张参考图片来生成最终图片。
- 新增宽高比:Gemini 3.1 Flash Image 预览版新增了 1:4、4:1、1:8 和 8:1 的宽高比。
使用最多 14 张参考图片
借助 Gemini 3 图片模型,您最多可混合使用 14 张参考图片。这 14 张图片可以包含以下内容:
Gemini 3.1 Flash 图片预览版
Gemini 3 Pro Image 预览版
最多 10 张与最终图片高度一致的对象图片
最多 6 张高保真对象图片,用于包含在最终图片中
最多 4 张角色图片,以保持角色一致性
最多 5 张角色图片,以保持角色一致性
Nano Banana限制
- 为获得最佳性能,请使用以下语言:英语、ar-EG、de-DE、es-MX、fr-FR、hi-IN、id-ID、it-IT、ja-JP、ko-KR、pt-BR、ru-RU、ua-UA、vi-VN、zh-CN。
- 图片生成不支持音频或视频输入。
- 模型不一定会生成用户明确要求的确切数量的图片输出。
gemini-2.5-flash-image最多可接受 3 张图片作为输入,而gemini-3-pro-image-preview支持 5 张高保真图片,总共最多可接受 14 张图片。gemini-3.1-flash-image-preview支持在单一工作流中保持多达 4 个角色的相似度,并保持多达 10 个物体的细节保真度。- 在为图片生成文本时,如果先生成文本,再要求生成包含该文本的图片,Gemini 的效果会最佳。
gemini-3.1-flash-image-preview基于 Google 搜索进行接地目前不支持使用来自网络搜索的真实人物图片。- 生成的所有图片都包含 SynthID 水印。
Nano Banana宽高比和图片大小
默认情况下,模型会使输出图片的大小与输入图片的大小相匹配,否则会生成 1:1 的正方形图片。您可以使用响应请求中 image_config 下的 aspect_ratio 字段来控制输出图片的宽高比,如下所示:
3.1 Flash 映像预览
宽高比
512 分辨率
500 个 token
1K 分辨率
1,000 个词元
2K 分辨率
2,000 个 token
4K 分辨率
4,000 个 token
1:1
512x512
747
1024x1024
1120
2048 x 2048
1680
4096x4096
2520
1:4
256x1024
747
512x2048
1120
1024x4096
1680
2048x8192
2520
1:8
192x1536
747
384x3072
1120
768x6144
1680
1536x12288
2520
2:3
424x632
747
848x1264
1120
1696x2528
1680
3392x5056
2520
3:2
632x424
747
1264x848
1120
2528x1696
1680
5056x3392
2520
3:4
448x600
747
896x1200
1120
1792x2400
1680
3584x4800
2520
4:1
1024x256
747
2048x512
1120
4096x1024
1680
8192x2048
2520
4:3
600x448
747
1200x896
1120
2400x1792
1680
4800x3584
2520
4:5
464x576
747
928x1152
1120
1856x2304
1680
3712x4608
2520
5:4
576x464
747
1152x928
1120
2304x1856
1680
4608x3712
2520
8:1
1536x192
747
3072x384
1120
6144x768
1680
12288x1536
2520
9:16
384x688
747
768x1376
1120
1536x2752
1680
3072x5504
2520
16:9
688x384
747
1376x768
1120
2752x1536
1680
5504x3072
2520
21:9
792x168
747
1584x672
1120
3168x1344
1680
6336x2688
2520
3 Pro Image 预览版
宽高比
1K 分辨率
1,000 个词元
2K 分辨率
2,000 个 token
4K 分辨率
4,000 个 token
1:1
1024x1024
1120
2048 x 2048
1120
4096x4096
2000
2:3
848x1264
1120
1696x2528
1120
3392x5056
2000
3:2
1264x848
1120
2528x1696
1120
5056x3392
2000
3:4
896x1200
1120
1792x2400
1120
3584x4800
2000
4:3
1200x896
1120
2400x1792
1120
4800x3584
2000
4:5
928x1152
1120
1856x2304
1120
3712x4608
2000
5:4
1152x928
1120
2304x1856
1120
4608x3712
2000
9:16
768x1376
1120
1536x2752
1120
3072x5504
2000
16:9
1376x768
1120
2752x1536
1120
5504x3072
2000
21:9
1584x672
1120
3168x1344
1120
6336x2688
2000
Gemini 2.5 Flash 图片
宽高比
分辨率
令牌
1:1
1024x1024
1290
2:3
832x1248
1290
3:2
1248x832
1290
3:4
864x1184
1290
4:3
1184x864
1290
4:5
896x1152
1290
5:4
1152x896
1290
9:16
768x1344
1290
16:9
1344x768
1290
21:9
1536x672
1290
Nano Banana模型选择与使用
选择最适合您的特定使用场景的模型。
- **Gemini 3.1 Flash Image 预览版(Nano Banana 2 预览版)**应该是您的首选图片生成模型,因为它在性能和智能方面表现出色,并且在成本和延迟方面实现了平衡。如需了解详情,请参阅模型价格和功能页面。
- **Gemini 3 Pro Image 预览版(Nano Banana Pro 预览版)**专为专业资源制作和复杂指令而设计。该模型具有以下特点:使用 Google 搜索进行现实世界接地、默认的“思考”流程(在生成之前优化构图),并且可以生成分辨率高达 4K 的图片。如需了解详情,请参阅模型价格和功能页面。
- Gemini 2.5 Flash Image (Nano Banana) 旨在实现速度和效率。此模型经过优化,可处理大批量、低延迟的任务,并生成 1024 像素分辨率的图片。如需了解详情,请查看模型价格和功能页面。
如果你想快速体验 Nano Banana Pro 的专业级 AI 绘图能力,最简单的方式有两种:
-
网页端可视化操作(零代码)
-
Python API 接入(适合自动化、批量生成、项目集成)
可视化调用教程:Nano Banner 画图(零代码)
如果你不想写代码,最推荐直接用神马中转API网页端可视化界面。
其中本教程重点就是:Nano Banner 画图。
第 1 步:进入「Nano Banner 画图」
第 2 步:选择模式(文生图 / 图生图)
第 3 步:切换到 Nano Banana Pro 模型
在 Nano Banner 画图 页面中:
-
点击右上角 齿轮设置
-
找到模型选择项
-
选择 Nano Banana Pro
对应关系是:
-
Nano Banana 2 → gemini-3.1-flash-image-preview
-
Nano Banana Pro → gemini-3-pro-image-preview
-
Nano Banana → gemini-2.5-flash-image
也就是说,如果你追求更强的图像质量、更复杂的指令理解和更好的文字排版能力,优先选择 Nano Banana Pro。
第 54 步:点击生成并及时下载
点击 「生成」 后等待任务完成。
生成完成后第一时间下载图片,不要刷新页面。
这是一个非常关键的注意事项,很多新手会忽略。
如果你刷新页面,可能会导致当前生成结果丢失或不方便再次取回。
Python API调用教程
接下来是重点:
如何用 Python 通过 API 调用 Nano Banana Pro。
完整 Python 示例(文生图)
import requests
import json
# 1. 替换成你自己的 Key
API_KEY = "sk-xxxxxxxxxxxxxxxx"
# 2. Base URL(推荐先用这个)
BASE_URL = "https://api.whatai.cc"
# 3. 图片生成接口
url = f"{BASE_URL}/v1/images/generations"
# 4. 请求头
headers = {
"Authorization": f"Bearer {API_KEY}",
"Content-Type": "application/json"
}
# 5. 请求体
payload = {
# Nano Banana Pro 对应模型
"model": "gemini-3-pro-image-preview",
# 提示词
"prompt": "设计一张高级感科技风海报,主题为AI赋能未来办公,蓝紫色霓虹光效,未来城市背景,全息UI界面,商业宣传风格,构图高级,细节丰富,适合海报封面",
# 生成数量(一般先 1 张)
"n": 1,
# 尺寸(如接口支持,常见兼容写法)
"size": "1024x1024"
}
# 6. 发起请求
response = requests.post(url, headers=headers, json=payload, timeout=120)
# 7. 打印原始结果,方便调试
print("状态码:", response.status_code)
print("响应内容:")
print(response.text)
# 8. 如果返回 JSON,可进一步解析
try:
result = response.json()
print("\n解析后的 JSON:")
print(json.dumps(result, ensure_ascii=False, indent=2))
except Exception as e:
print("返回内容不是标准 JSON:", e)
推荐的提示词模板(Nano Banana Pro 更容易出好图)
因为 Nano Banana Pro 更擅长复杂指令,所以建议提示词按下面结构写:
用于生成图片的提示
以下策略将帮助您创建有效的提示,以生成您想要的图片。
1. 逼真场景
对于逼真的图片,请使用摄影术语。提及拍摄角度、镜头类型、光线和细节,引导模型生成逼真的效果。
A photorealistic [shot type] of [subject], [action or expression], set in
[environment]. The scene is illuminated by [lighting description], creating
a [mood] atmosphere. Captured with a [camera/lens details], emphasizing
[key textures and details]. The image should be in a [aspect ratio] format.
2. 风格化插图和贴纸
如需创建贴纸、图标或素材资源,请明确说明样式并要求使用透明背景。
A [style] sticker of a [subject], featuring [key characteristics] and a
[color palette]. The design should have [line style] and [shading style].
The background must be transparent.
3. 图片中的文字准确无误
Gemini 在呈现文本方面表现出色。清楚说明文字、字体样式(描述性)和整体设计。使用 Gemini 3 Pro 图片预览版制作专业资源。
Create a [image type] for [brand/concept] with the text "[text to render]"
in a [font style]. The design should be [style description], with a
[color scheme].
4. 产品模型和商业摄影
非常适合为电子商务、广告或品牌宣传拍摄清晰专业的商品照片。
A high-resolution, studio-lit product photograph of a [product description]
on a [background surface/description]. The lighting is a [lighting setup,e.g., three-point softbox setup] to [lighting purpose]. The camera angle is
a [angle type] to showcase [specific feature]. Ultra-realistic, with sharp
focus on [key detail]. [Aspect ratio].
5. 极简风格和负空间设计
非常适合用于创建网站、演示文稿或营销材料的背景,以便在其中叠加文字。
A minimalist composition featuring a single [subject] positioned in the
[bottom-right/top-left/etc.] of the frame. The background is a vast, empty
[color] canvas, creating significant negative space. Soft, subtle lighting.
[Aspect ratio].
6. 连续艺术(漫画分格 / 故事板)
以角色一致性和场景描述为基础,为视觉故事讲述创建分格。为了确保文本准确性和叙事能力,这些提示最适合搭配 Gemini 3 Pro 和 Gemini 3.1 Flash Image 预览版使用。
Make a 3 panel comic in a [style]. Put the character in a [type of scene].
7. 使用 Google 搜索建立依据
使用 Google 搜索根据最新信息或实时信息生成图片。 这对于新闻、天气和其他时效性强的主题非常有用。
Make a simple but stylish graphic of last night's Arsenal game in the Champion's League
用于修改图片的提示
以下示例展示了如何提供图片以及文本提示,以进行编辑、构图和风格迁移。
1. 添加和移除元素
提供图片并描述您的更改。模型将与原始图片的风格、光照和透视效果保持一致。
Using the provided image of [subject], please [add/remove/modify] [element]
to/from the scene. Ensure the change is [description of how the change shouldintegrate].
2. 局部重绘(语义遮盖)
通过对话定义“蒙版”,修改图片的特定部分,同时保持其余部分不变。
Using the provided image, change only the [specific element] to [new
element/description]. Keep everything else in the image exactly the same,
preserving the original style, lighting, and composition.
3. 风格迁移
提供一张图片,要求模型以不同的艺术风格重现其内容。
Transform the provided photograph of [subject] into the artistic style of [artist/art style]. Preserve the original composition but render it with [description of stylistic elements].
4. 高级合成:组合多张图片
提供多张图片作为上下文,以创建新的合成场景。此功能非常适合制作产品视觉稿或创意拼图。
Create a new image by combining the elements from the provided images. Take
the [element from image 1] and place it with/on the [element from image 2].
The final image should be a [description of the final scene].
5. 高保真细节保留
为确保在编辑过程中保留关键细节(例如面部或徽标),请在编辑请求中详细描述这些细节。
Using the provided images, place [element from image 2] onto [element fromimage 1]. Ensure that the features of [element from image 1] remain
completely unchanged. The added element should [description of how theelement should integrate].
6. 让事物焕发活力
上传草图或简笔画,然后让模型将其细化为成品图片。
Turn this rough [medium] sketch of a [subject] into a [style description]
photo. Keep the [specific features] from the sketch but add [new details/materials].
7. 角色一致性:360 度全景
您可以迭代提示不同的角度,从而生成角色的 360 度视图。为获得最佳效果,请在后续提示中添加之前生成的图片,以保持一致性。对于复杂的姿势,请添加所需姿势的参考图片。
A studio portrait of [person] against [background], [looking forward/in profile looking right/etc.]
最佳做法
如需将效果从“好”提升到“出色”,请将以下专业策略融入您的工作流程。
- 内容要非常具体:您提供的信息越详细,对输出结果的掌控程度就越高。与其使用“奇幻盔甲”,不如具体描述为“华丽的精灵板甲,蚀刻着银叶图案,带有高领和猎鹰翅膀形状的肩甲”。
- 提供上下文和意图:说明图片的用途。模型对上下文的理解会影响最终输出。例如,“为高端极简护肤品牌设计徽标”的效果要好于“设计徽标”。
- 迭代和优化:不要指望第一次尝试就能生成完美的图片。利用模型的对话特性进行小幅更改。然后,您可以继续发出提示,例如“效果不错,但能让光线更暖一些吗?”或“保持所有内容不变,但让角色的表情更严肃一些。”
- 使用分步指令:对于包含许多元素的复杂场景,请将提示拆分为多个步骤。“首先,创建一个宁静、薄雾弥漫的黎明森林的背景。然后,在前景中添加一个长满苔藓的古老石制祭坛。最后,将一把发光的剑放在祭坛顶部。”
- 使用“语义负面提示”:不要说“没有汽车”,而是通过说“一条没有交通迹象的空旷、荒凉的街道”来正面描述所需的场景。
- 控制镜头:使用摄影和电影语言来控制构图。例如
wide-angle shot、macro shot、low-angle perspective等字词。