声明:本文源自微信公众号窄播,作者李威,经站长之家授权转载发布。这是《窄播Weekly》第66期,本期聚焦的商业动态是:Google最新AI图像生成模型Nano Banana或将引爆AI图像领域应用革命。
去年此时,若想将照片中人物手中的玩具火车换成玩具飞机,需手动标注火车位置,寻找匹配的飞机图片,再指导AI完成替换。我尝试一小时,结果飞机变形严重,人物手指消失,最终效果仅勉强可用。本周,我交给Nano Banana同样的任务,仅指令”将手中玩具火车换成飞机”,无需准备飞机图片,20秒后便获得完美替换的新照片。火车被精准替换,其他元素无任何干扰,人物手指保持完整。这种体验让我联想到初次使用DeepSeek时的震撼——AI不仅能聊天,还能如此智能。同样,我虽习惯用AI生成图片,却从未见过如此精准的图像编辑能力。DeepSeek凭借深度思考能力展现AI应用前景,Nano Banana则以其确定性图像创作能力,将推动大众更广泛地使用AI处理图像任务。
目前社交媒体涌现大量用Nano Banana制作的手办模型、OOTD换装图,甚至有人将其与视频生成大模型结合创作内容。这并非简单的”吉卜力风格”滤镜流行,而是高效通用图像创作能力的普及,将支撑更多产品创新。未来Gemini及众多产品中或会出现Nano Banana的身影。但这要求模型厂商像Nano Banana一样,从多模态视角综合提升图像创作能力。

AI时代的美图秀秀式体验,让人通过一句话实现图像精准调整。这与早期从Photoshop切换到美图秀秀的感受相似:Photoshop需要记忆复杂操作步骤,而美图秀秀只需点击拖拽,无基础用户也能快速上手。Nano Banana让普通用户通过简单指令完成图像精准修改,这是图像创作领域的又一次革命。不同之处在于,Photoshop到美图秀秀是产品思路转变(固定操作变一键完成),而Nano Banana带来的是AI理解图像、编辑图像的能力。
Nano Banana团队介绍,其核心能力源于两个关键点:原生多模态架构与交错生成。多模态架构使Nano Banana能同时处理文本、图像等上下文,获取像素级信息,实现像素级精确编辑。交错生成则将复杂提示拆解为多步骤,逐步完成修改。这类似DeepSeek通过深度思考拆解提示语分步执行,实现高度一致的结果。Nano Banana通过精确理解和细致拆分,达成高度一致的图像编辑,同时保持低成本、高速度。Google介绍其定价30美元/百万token,生成一张图片约1290个token,成本约0.039美元,耗时十几秒至几十秒。快速生成与精确调整的完美结合,支持用户迭代创作,不断接近理想效果。
出色能力催生广泛应用。我的体验显示,Nano Banana能轻松为哪吒换豆豆鞋,生成路飞与艾斯的打斗场面。虽偶有瑕疵(如路飞体型比例问题、调整时无变化),但已证明其作为AI图像应用基础能力的潜力。第一类应用是虚拟试衣,用户可实时预览穿搭效果。第二类应用是内容创作,提高故事板、漫画、儿童读物制作效率,降低商品宣传物料成本,实现一键生成多场景海报。第三类应用是室内设计,用户可随时调整装修效果。第四类应用是图生视频,创作者可精准调整首尾帧,生成更符合预期的视频,或用于换脸等特效制作。这些应用探索的核心是将Nano Banana基础能力与领域隐性知识结合,降低特定图像需求的使用门槛。

虽然Google将Nano Banana集成到Gemini中,但通用助手并非万能。摩根士丹利分析认为,美图价值在于提供AI无法企及的”最后一公里”解决方案。未来这种解决方案将更细分,更专注具体任务。这将激发大量创新,使图像AI应用更专业、更广泛。美图或转型为不同类型图像工具集合,向用户出售隐性知识,而非依赖免费功能吸引用户。
做好Nano Banana是更综合的竞争。Nano Banana团队并非简单开发图像生成模型,而是将多模态能力应用于图像创作。与专注图像生成的Imagen不同,Gemini融合多模态实现AGI目标。面向未来,Nano Banana团队期待模型更具智能感和事实性。智能感指在指令模糊时,模型能生成与现实一致的正确结果;事实性指不仅能创作图像,还能生成准确图标、信息图、示意图甚至PPT页面。这需要依托Gemini世界知识理解多模态上下文,如识别玩具飞机、理解精神小伙穿搭风格等。对Google而言,Nano Banana成功在于搭建起理解与生成协同机制。Gemini图像理解能力帮助大模型从图像、视频中学习世界知识,辅助其更准确理解指令。这意味着不同模型能力融汇贯通,在正确机制下可能实现大模型能力跃升。这不仅是模型集群的胜利,更是企业组织与创新机制的胜利。
