热门资讯> 正文
2025-09-09 18:10
01
火爆全网的“纳米香蕉”
这段时间,一种能将世间万物变成手办的AI模型火遍全网。这个神秘的模型也在最近露出了庐山真面目,它就是来自谷歌DeepMind的文生图模型Gemini-2.5-flash-image-preview。
当然它还有一个更响的名号——Nano Banana。
在大模型盲测平台LMArena上,Nano Banana以巨大的优势超越了上半年引爆“吉卜力风潮”的gpt-image-1,登顶了文生图大模型排行榜。目前,谷歌已经开放了在Gemini Studio中体验Nano Banana的权限,同时也支持API调用服务,诸如美图秀秀、Lovart等图像软件都已经可以体验Nano Banana了。
当前,AI文生图赛道明明已经十分成熟,那为何Nano Banana能够从零宣发起步,仅仅依靠用户口口相传就迅速破圈?它到底与其他大模型有何不同?谷歌采取了什么样的技术路径?事件本身对于垂直图像编辑行业是否是一轮真正的冲击?
这篇文章我们会对上述问题一一解答。
02
Nano Banana 厉害在什么地方?
与gpt-image-1、字节Seedream等顶尖文生图大模型相比,Nano Banana最大的领先主要集中在这三点:超强的一致性、复杂任务的推理能力以及多轮交互。
首先Nano Banana 惊为天人的图像一致性是每一位使用过这款模型的用户都公认的。
在第一个对比测试中,我们要求模型增加、替换模特穿戴的衣服和配饰。与gpt-image-1和Seedream3相比,Nano Banana在人物五官、光影细节的一致性表现尤为突出。而在要素还原上,也只有它正确画出了Apple Airpods Max,其它两个都画错了。
在第二个测试中,我们要求模型根据马斯克的这张写真,生成他身着奔驰F1赛车服、右手持盔、左手比大拇指的照片。结果只有Nano Banana做出了正确的动作,gpt和豆包搞反了左右手的动作。在人物五官样貌的一致性上,Nano Banana表现得最好,豆包seedream也不错,但gpt则是莫名地给马老师来了一次“整容”。
为了进一步比对三款模型人物一致性的稳定程度,我们让它们用同一张原图,生成不同表情、姿势的图片。
能够很明显观察到,当提示词复杂度上升的时候,gpt便开始随意发挥,对模特面部进行了“整容”,而seedream3.0则开始出现幻觉。唯有Nano Banana的人物一致性,始终稳定在很高的水平。
当前,C端用户对于图生图(如:P图、魔改、风格化)的需求,是远高于纯文本生图的。
首先面对一个对话框,用户单纯凭想象、文字描述完成AI作画是很难的。但有一张参考图的话就简单得多,因为参考图本身包含大量信息,相当于给用户提供了一种创作思路。
另一方面,参考图通常本身自带很强的社交价值(自拍、家庭合照、宠物等),用户会更愿意去传播这类与自身关联度很高的AI图片。之前gpt的“吉卜力风”之所以爆火就是这个原因,Nano Banana“万物手办”风潮也是如此,它们本质上和早期INS、抖音上面的套模板、套滤镜的玩法是一样的:看似是AI作图,实质上是通过二次创作,来延伸原图的社交获得感,AI如今扮演的同样也只是一种工具。
在看透这一层需求之后,我们也不难理解为什么用户对AI图像的一致性要求极度严苛了。因为如果AI“风格化”后的自拍和本人长得完全不一样,社交获得感就会大打折扣,在朋友圈po这张图片就毫无意义了。
这一次Nano Banana超强的一致性,恰恰解决了用户这样的一个痛点,这里也不得不佩服谷歌高超的市场敏锐度。
Nano Banana的第二个领先的地方就是处理复杂任务的推理能力。
下面这个案例中,我们仅仅只提供了谷歌地图上的一处地点(黄浦江畔),随后要求Nano Banana生成一张站在该位置、朝向箭头方向的真实视角照片。Nano Banana很快就给出了一个正确的输出结果,看不出明显的问题。
令我们惊讶的是,GPT同样完成的很好,这说明它的推理能力同样很强。而豆包显然表现的有点拉胯,虽然我们同样看到了东方明珠,但这个红色箭头直接穿帮。
第二个案例我们选取了选取了日本的某处街景,可以看到这里的广告牌琳琅满目。我们要求Nano Banana在该处生成一张俯瞰照片。
结果同样十分惊艳。并且如果仔细对比的话就能发现,街上的树木、左右两边所有的广告牌、地面上的标线、路桩这些关键要素保持了很强的一致性。除了部分日文存在乱码之外,几乎没有任何穿帮镜头。
相比较而言,gpt和豆包生成的结果则问题百出。
最大的问题是场景不够还原。gpt输出的广告牌上文字出现了大量“鬼画符”,街道被改成了四股道,原本在道路两旁的松树出现在了中间。豆包的结果则完全脱离了参考图,与原图毫无关联。
基于推理能力,Nano Banana还支持多图融合的玩法。Nano Banana 能够根据简笔画改变模特姿势,能准确调整模特的造型、穿搭。在我们的这些实测案例中,用户根本无需输入复杂提示词就获得很好的输出结果。
谷歌Nano Banana团队在访谈表示,Nano Banana是一款原生的“端到端”多模态模型,所以它具备强大的图像理解能力。团队在训练过程中,将Nano Banana的图像理解、生成放在同一框架下训练,实现了多种模态能力的正向迁移。他们认为就像人类会画思维导图来辅助理解一样,模型生成图像的过程同时也能强化自身对图像的理解能力。
Nano Banana 的第三个优势是支持用简单的自然语言进行多轮修改。
在下面这个案例中,我们共进行了五轮修改,可以看到Nano Banana保持了相当强的稳定性。在改图过程中,我们的提示词并不复杂。然而Nano Banana却能在无指令的前提下,主动根据环境调整光影、镜头距离,使得整体照片具有很强的真实感。
在多轮对话中,除一致性外,Nano Banana还有一个巨大的特点,那就是响应速度很快。本文所有案例的出图的耗时都在30s以内,大多数情况下Nano Banana都可以在10s内输出结果。值得一提的是,豆包修图的速度同样比较快,但在我们测试案例中,豆包在多轮对话后出图的画质存在明显下降。相比较而言,gpt-image耗时大概在2分钟以上,完全不在一个量级。
03
可能抢占谁的市场?
在Nano Banana问世之后,摩根士丹利发了一篇报告,其中的这张图说明了从GPT-4o吉卜力风潮到如今的Nano Banana风潮这几个月内,美图公司股价在各时点受到短期冲击的事实。
大摩传达的意思很明显,Nano Banana等图像AI技术革命的普及,首先“压力山大”的一定是垂类图像编辑公司。
在判断未来到底Nano Banana或者其他AI生图模型,是否会吞噬垂直市场之前,我们首先需要理解传统图像编辑软件的产品护城河到底是什么?
从过往的历史上来看,像Adobe这类公司的产品在技术上的短期落后并不可怕,因为这完全可以通过时间去弥补。真正构成企业护城河的,是它们对用户场景的深刻认知、闭塞的生态和成熟的商业模式。
在传统的设计工作流中,所有设计师都需要对作品进行多轮修改,而 Photoshop的产品设计则完美适配这种专业化工作流,因此这才是PS的真正护城河。
此前图像大模型的一个误区,是企图将文生图做成了一锤子买卖。而目前的情况却是,AI出的图可能99%都令人满意,但要想要修改那1%无法接受的瑕疵,简直比登天还难,但凡体验过AI生图的读者们都深有体会。
如果AI生图产品无法攻克“反复修图高一致性”的难题,那么它们就无法真正动摇图像类SaaS厂商的根基。
但这次,Nano Banana开发团队显然抓住了这个主要矛盾。
在Nano Banana爆火后,开发团队接受了一次视频专访。其中,产品经理 Nicole 特别提到了像素级编辑的重要性。她表示Nano Banana立项的出发点,就是为了解决AI多轮对话修改图像的困难。让用户可以逐步调整图像,在高度一致性的情况下实现多轮快速改图。
这也是为什么Nano Banana重点优化了模型的一致性、响应速度高、低成本的原因,因为这三个要素对于真实工作流意义重大:一致性和响应速度保证了工作流的高效率,低成本则是尽可能保证企业、用户能用合理的价格支付多轮对话的开销,真正将它转化为一个闭环的商业模式。
04
尾声
回到本文开头的问题,Nano Banana是否构成对传统图像SaaS公司护城河的颠覆呢?
我们的观点是:Nano Banana的方向是对的,但目前的程度尚不足以用“颠覆”来形容。举个例子来说就是,Nano Banana虽然一致性很高但也并非100%。
并且,当AI生图技术进化的同时,传统图像公司并没有选择坐以待毙。像今年Adobe、美图都已经在自家软件中深度引入了AI功能。例如美图秀秀的AI写真、AI证件照、AI美颜等功能。在Nano Banana“手办风”爆火之后,美图秀秀也火速在海外版中接入了Nano Banana的功能。其他图像大模型也在不断进化,例如近日字节更新了Seedream4.0,据测试效果直逼Nano Banana。
我们目前能够肯定,Nano Banana仅仅只是谷歌在图像多模态领域内的一道前菜。就像谷歌基于Veo3打造了一款Flow的平台化产品一样,同为基座模型的Nano Banana在未来很可能被整合到一款成熟的平台化产品之中,并代表谷歌正式参与市场竞争。