智算多多
官方邮箱:service@zsdodo.com

公司地址:北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部


京公网安备11010602202532号 5月29日,一位开发者照常打开Gemini API控制台,准备测试图像生成模型的预览接口。他发现,Nano Banana Pro和Nano Banana 2名字后面那个挂了几个月的"Preview"标签消失了,取而代之的是正式的生产环境调用权限。他在社区里发帖:"预览阶段终于结束了,可以直接上线了。"
谷歌在同一天通过官方渠道确认了这一变化:两款模型结束预览,进入一般提供阶段,所有开发者可以通过Gemini API直接调用。Google AI Developers的社交账号用一条简短推文宣布:"Nano Banana Pro与Nano Banana 2现已GA,通过Gemini API可用于生产环境,欢迎查看社区案例,感受两款模型的实际能力。"
这个代号最早出现在2025年8月。当时谷歌发布了"Gemini 2.5 Flash Image"图像生成模型,并给出了更容易传播的昵称"Nano Banana"。这一版本走轻快路线,生成速度占优,在早期用户中积累了不错的口碑。仅仅三个月后,2025年11月,Pro版本登场,底层升级为Gemini 3 Pro,能力定位明显上了一个台阶。
Pro版本的核心差异体现在信息可视化和图文结合的稳定性上。它更擅长理解提示词里的语义氛围,输出的图像在风格一致性上更贴近用户想要的"那种感觉"。另一大亮点是,在生成包含文字内容的图像时——比如产品海报、教学用的信息图表——该模型大幅减少了文字变形与排列错乱的问题。
即便面对排版要求严苛的日文文本,破绽率也比前代改善明显。这实际上把原来主要面向创意美学的图像生成,拉向了一个更具工具属性的方向——能干活的信息设计工具。
时间快进到2026年2月,Nano Banana 2带着"更快更准"的标签加入产品矩阵。这一代的模型代号是Gemini 3.1 Flash Image,定位非常清晰:在保持Pro级图像质量的前提下,大幅压缩生成延迟,让实时交互成为可能。
当时上线的预览版已经展现出对复杂构图和细节要求的响应能力,用户可以在几乎无等待感的前提下迭代调整画面元素。这种速度上的跃迁,为后来走向正式商用铺平了道路。
如今,两款模型同步结束预览,开发者在API调用时,相当于直接拿到了两把不同用途的工具刀。Pro版侧重复杂推理和精细控制,Nano Banana 2则负责高吞吐和快速响应场景。这种双线并行的策略,在谷歌的模型发布史上并不常见,也侧面反映出图像生成应用已经离散化到需要按场景匹配能力的程度。
随着GA到来,谷歌一并放出了新的功能清单及配套API样例代码。最引发社区讨论的是多参考图像融合生成能力:用户最多可以向模型提供14张参考图,模型会综合这些素材的视觉特征进行融合创作。放至实际场景,这就不是简单的风格迁移,而是可以给出同一产品不同角度的实物照片,让模型生成统一的营销视觉。
或者在给角色设计提供多版概念原画后,直接产出具备协调性的一组插画。参考图数量的提升,直接把创意控制粒度往前推了一大步。
几乎同等重要的是Google搜索实时信息接入。开发者在调用API时,可以让模型结合当前网络上的真实数据生成图像。比如生成一张"过去24小时某城市天气数据的信息图",模型会去取实际的温湿度、降水概率,然后直接合成规范的可视化图表。这项功能有一条明确的安全限制:通过网页搜索获取的真人照片素材,不能用于生成真人写实图像,这是从数据源头切断肖像伪造风险的一道闸门。
另一个让社区兴奋的点是视频到图像的生成。用户可以上传一段视频文件作为提示词的一部分,模型会分析视频里的视觉上下文,识别特定物体与人物动作序列,然后生成与视频内容相关的静态图像。比如给它一段街头滑板片段,就能产出适合做封面图的动态定格画面,或者把关键动作做成带标注的信息图。这相当于把视频素材变成了图像创作的前端输入,省去了手动截图和二次设计的流程。
分辨率方面,两款模型都支持最高4K图像生成。这对商业落地非常友好。很多电商设计、线下物料印刷的需求卡在分辨率门槛上,以往2K上下的AI生成图只能用于屏幕显示,要进印前流程还得走超分等后处理。
直接出4K文件,意味着从生成到交付的环节可以压缩,尤其对于需要快速迭代的中小团队,时间成本上的收益感知非常直接。
这两款模型的另一层技术身份也值得留意:它们都是思考模型。在处理复杂提示词时,模型会进行推理过程的可视化,最多可以生成两个中间图像。
