Gemini 图片生成
Gemini API 提供强大的原生图像生成能力,采用对话式方法。您可以使用文本提示、图像或两者结合来生成、修改和迭代视觉内容,实现前所未有的控制。核心功能
- 文本生成图像: 从文本描述生成高质量图像
- 图像+文本编辑: 使用文本提示修改现有图像
- 多图合成: 组合多个图像的元素或转换风格
- 迭代优化: 通过对话式交互逐步改进图像
- 高保真文本渲染: 在图像中生成清晰可读的文本
提示: nano-banana-pro 的参数基本与 nano-banana 一致,可以参考本文档的使用方法和示例。
nano-banana-pro 特性
nano-banana-pro 是一款先进的图片生成和编辑模型,针对专业资源制作进行了优化:- 高分辨率输出:内置 1K、2K 和 4K 视觉效果生成功能
- 高级文字渲染:能够为信息图表、菜单、图表和营销素材资源生成清晰易读的风格化文字
- 使用 Google 搜索进行接地:模型可以使用 Google 搜索作为工具来验证事实,并根据实时数据(例如当前天气地图、股票图表、近期活动)生成图像
- 思考模式:模型会利用”思考”过程来推理复杂的提示,生成临时”思维图像”以在生成最终的高质量输出之前优化构图
- 最多 14 张参考图片:您现在最多可以混合使用 14 张参考图片来生成最终图片
基础用法
文本生成图像

图像编辑(图像+文本)
您也可以提供现有图像和文本提示来编辑图像:配置选项
仅返回图像
默认情况下,Gemini 会返回图像和文本响应。要仅获取图像:Python
控制宽高比
指定输出图像的宽高比:Python
可用的宽高比
1:1、16:9、9:16、3:2、2:3、4:3、3:4、5:4、4:5、21:9
分辨率对照表
nano-banana
| 宽高比 | 分辨率 | 令牌 |
|---|---|---|
| 1:1 | 1024x1024 | 1290 |
| 2:3 | 832x1248 | 1290 |
| 3:2 | 1248x832 | 1290 |
| 3:4 | 864x1184 | 1290 |
| 4:3 | 1184x864 | 1290 |
| 4:5 | 896x1152 | 1290 |
| 5:4 | 1152x896 | 1290 |
| 9:16 | 768x1344 | 1290 |
| 16:9 | 1344x768 | 1290 |
| 21:9 | 1536x672 | 1290 |
nano-banana-pro
| 宽高比 | 1K 分辨率 | 1K 令牌 | 2K 分辨率 | 2K 令牌 | 4K 分辨率 | 4K 令牌 |
|---|---|---|---|---|---|---|
| 1:1 | 1024x1024 | 1120 | 2048x2048 | 1120 | 4096x4096 | 2000 |
| 2:3 | 848x1264 | 1120 | 1696x2528 | 1120 | 3392x5056 | 2000 |
| 3:2 | 1264x848 | 1120 | 2528x1696 | 1120 | 5056x3392 | 2000 |
| 3:4 | 896x1200 | 1120 | 1792x2400 | 1120 | 3584x4800 | 2000 |
| 4:3 | 1200x896 | 1120 | 2400x1792 | 1120 | 4800x3584 | 2000 |
| 4:5 | 928x1152 | 1120 | 1856x2304 | 1120 | 3712x4608 | 2000 |
| 5:4 | 1152x928 | 1120 | 2304x1856 | 1120 | 4608x3712 | 2000 |
| 9:16 | 768x1376 | 1120 | 1536x2752 | 1120 | 3072x5504 | 2000 |
| 16:9 | 1376x768 | 1120 | 2752x1536 | 1120 | 5504x3072 | 2000 |
| 21:9 | 1584x672 | 1120 | 3168x1344 | 1120 | 6336x2688 | 2000 |
分辨率控制
指定输出图像的分辨率,可选值:1K、2K、4K
Python
多轮图片修改
Gemini 的对话式特性允许您通过多轮交互逐步完善图像。以下示例展示了一个完整的多轮对话流程:先生成初始图像,然后基于该图像进行修改。Python
多图合成
您可以提供多个图像作为输入(建议最多 3 张):Python

