声明:本文源自微信公众号窄播,作者李威,经站长之家授权转载发布。这是《窄播Weekly》第66期,本期聚焦的商业动态是:Google最新AI图像生成模型Nano Banana或将引爆AI图像领域应用革命。

去年此时,若想将照片中人物手中的玩具火车换成玩具飞机,需手动标注火车位置,寻找匹配的飞机图片,再指导AI完成替换。我尝试一小时,结果飞机变形严重,人物手指消失,最终效果仅勉强可用。本周,我交给Nano Banana同样的任务,仅指令”将手中玩具火车换成飞机”,无需准备飞机图片,20秒后便获得完美替换的新照片。火车被精准替换,其他元素无任何干扰,人物手指保持完整。这种体验让我联想到初次使用DeepSeek时的震撼——AI不仅能聊天,还能如此智能。同样,我虽习惯用AI生成图片,却从未见过如此精准的图像编辑能力。DeepSeek凭借深度思考能力展现AI应用前景,Nano Banana则以其确定性图像创作能力,将推动大众更广泛地使用AI处理图像任务。

目前社交媒体涌现大量用Nano Banana制作的手办模型、OOTD换装图,甚至有人将其与视频生成大模型结合创作内容。这并非简单的”吉卜力风格”滤镜流行,而是高效通用图像创作能力的普及,将支撑更多产品创新。未来Gemini及众多产品中或会出现Nano Banana的身影。但这要求模型厂商像Nano Banana一样,从多模态视角综合提升图像创作能力。

谷歌Nano Banana革新AI图像处理技术插图

AI时代的美图秀秀式体验,让人通过一句话实现图像精准调整。这与早期从Photoshop切换到美图秀秀的感受相似:Photoshop需要记忆复杂操作步骤,而美图秀秀只需点击拖拽,无基础用户也能快速上手。Nano Banana让普通用户通过简单指令完成图像精准修改,这是图像创作领域的又一次革命。不同之处在于,Photoshop到美图秀秀是产品思路转变(固定操作变一键完成),而Nano Banana带来的是AI理解图像、编辑图像的能力。

Nano Banana团队介绍,其核心能力源于两个关键点:原生多模态架构与交错生成。多模态架构使Nano Banana能同时处理文本、图像等上下文,获取像素级信息,实现像素级精确编辑。交错生成则将复杂提示拆解为多步骤,逐步完成修改。这类似DeepSeek通过深度思考拆解提示语分步执行,实现高度一致的结果。Nano Banana通过精确理解和细致拆分,达成高度一致的图像编辑,同时保持低成本、高速度。Google介绍其定价30美元/百万token,生成一张图片约1290个token,成本约0.039美元,耗时十几秒至几十秒。快速生成与精确调整的完美结合,支持用户迭代创作,不断接近理想效果。

出色能力催生广泛应用。我的体验显示,Nano Banana能轻松为哪吒换豆豆鞋,生成路飞与艾斯的打斗场面。虽偶有瑕疵(如路飞体型比例问题、调整时无变化),但已证明其作为AI图像应用基础能力的潜力。第一类应用是虚拟试衣,用户可实时预览穿搭效果。第二类应用是内容创作,提高故事板、漫画、儿童读物制作效率,降低商品宣传物料成本,实现一键生成多场景海报。第三类应用是室内设计,用户可随时调整装修效果。第四类应用是图生视频,创作者可精准调整首尾帧,生成更符合预期的视频,或用于换脸等特效制作。这些应用探索的核心是将Nano Banana基础能力与领域隐性知识结合,降低特定图像需求的使用门槛。

谷歌Nano Banana革新AI图像处理技术插图1

虽然Google将Nano Banana集成到Gemini中,但通用助手并非万能。摩根士丹利分析认为,美图价值在于提供AI无法企及的”最后一公里”解决方案。未来这种解决方案将更细分,更专注具体任务。这将激发大量创新,使图像AI应用更专业、更广泛。美图或转型为不同类型图像工具集合,向用户出售隐性知识,而非依赖免费功能吸引用户。

做好Nano Banana是更综合的竞争。Nano Banana团队并非简单开发图像生成模型,而是将多模态能力应用于图像创作。与专注图像生成的Imagen不同,Gemini融合多模态实现AGI目标。面向未来,Nano Banana团队期待模型更具智能感和事实性。智能感指在指令模糊时,模型能生成与现实一致的正确结果;事实性指不仅能创作图像,还能生成准确图标、信息图、示意图甚至PPT页面。这需要依托Gemini世界知识理解多模态上下文,如识别玩具飞机、理解精神小伙穿搭风格等。对Google而言,Nano Banana成功在于搭建起理解与生成协同机制。Gemini图像理解能力帮助大模型从图像、视频中学习世界知识,辅助其更准确理解指令。这意味着不同模型能力融汇贯通,在正确机制下可能实现大模型能力跃升。这不仅是模型集群的胜利,更是企业组织与创新机制的胜利。

最新快讯

2025年11月17日

10:36
截至11月12日,债券ETF数量达53只,较年初增加32只,规模从2024年底的1799.87亿元升至7054.23亿元。同期,百亿级债券ETF由5只增至30只,呈现爆发式增长。新品种频出为投资者提供了更多资产配置选择。业内人士认为,债券ETF产品创新加速,未来将有更多新品推出。
10:36
SK集团会长崔泰元在首尔官民联席会议上宣布,旗下SK海力士将投资约600万亿韩元(约合2.9万亿元人民币)建设龙仁半导体集群。该项目位于京畿道龙仁市,规划建设四座大型晶圆厂,其中首座工厂已于今年2月启动建设,预计2027年5月投产。据韩联社报道,由于HBM产品对先进工艺产能需求激增,该项目投资规模远超预期。单座龙仁晶圆厂的产能相当于清州M15X工厂的六倍规...
10:36
吉利汽车今日正式公布其高端MPV系列命名为"吉利银河V系列",首款车型将于11月21日在广州迎来全球首秀。据悉,吉利银河产品线已形成包括M、E、L、A系列及星舰、星耀等多款车型的完整布局。值得注意的是,当前在售的翼真L380 MPV虽同为MPV车型,但采用独立车标设计,并具备四排八座布局与800公里以上纯电续航能力。此次全新V系列的推出,标志着吉利银河在高...
10:36
市场监管总局近日批准发布《智能家用电器的智能化技术要求和评价 第1部分:通用要求》和《智能家用电器应用场景 第1部分:通用要求》两项国家标准,将于2026年5月1日起正式施行。标准从“智能能力”与“场景效果”两个维度界定智能家电,明确产品需具备数据管理、人机交互、智能控制等核心功能,并建立L1至L5五级智能等级评价体系,提升消费者选购透明度。同时,标准规范...
10:36
阿里巴巴今日正式上线千问App公测版,这款基于全球领先开源模型通义千问Qwen打造的智能助手,标志着阿里在人工智能应用领域迈出重要一步。该应用不仅能实现智能对话,更具备办事功能,未来将逐步覆盖办公、地图、健康、购物等多元生活场景。据悉,千问App采用阿里最强大的闭源Qwen模型,展现出卓越的对话问答、智能写作和全能相机三大核心能力。其结构化答案呈现和视觉推...
10:36
零跑汽车官方宣布,旗下全新智能精品长续航SUV——全球车型A10将于2025年广州车展首发亮相。随着预告图释出,新车流畅的车身线条与跨界设计风格引发关注,前后灯组分别呈现“微笑”与“咧嘴笑”的点亮形态,辨识度十足。此前,零跑CEO朱江明在媒体沟通会上透露,2026年将密集推出新产品,包括D系列2-3款及A系列2款车型。明年作为零跑产品大年,品牌还将向百万辆...
10:36
明澈科技近日完成数千万人民币A轮融资,由南创投、元禾控股、创谷资本共同投资。公司专注于眼部微型创新器械研发,聚焦青光眼等眼科疾病的微创治疗与实时监测,已搭建MIGS、微针给药、传感器及磁控手术机器人等核心技术平台。其核心产品为自主研发的微创青光眼引流管,致力于打造first in class疗法。本轮融资将主要用于推进该产品在国内的NMPA和欧洲CE认证,...
10:36
2025年11月17日,重庆渝中区联合顺丰推出“徒手旅行”行李存包寄递服务。该服务在轨道交通小什字站多个出口设置绿色丰巢存包柜,提供24小时自助存取寄服务。柜体分小、中、大三种规格,最大可存28寸行李箱。市民游客扫码即可存取或一键邮寄行李,实现解放双手无负担出行。此举由渝中区交通运输委与渝中文旅共同推动,旨在提升旅游便利性。
10:36
2023年11月21日,苏州爱得科技发展股份有限公司申请上会,拟于北交所上市。公司计划公开发行股票不少于100万股,最多达2,953.0762万股(不含超额配售),若全额行使超额配售权则不超过3,396.0376万股,募集资金约1.97亿元,将用于骨科耗材扩产、研发中心及营销网络建设。德邦证券为保荐机构。爱得科技专注于骨科耗材研发生产,产品覆盖脊柱、创伤、...
10:36
微新创想11月17日消息,今日,苹果宣布,北京荟聚Apple Store将于12月6日上午10:00开业。新店位于北京市大兴区欣宁街15号北京荟聚一层,是苹果在北京的第6家、中国大陆第49家零售店。按惯例,苹果每逢新店开业都会向到店顾客免费发放特色纪念品,通常与当地文化相关。目前,北京已开业的5家Apple Store分别位于西...
10:36
11月17日,阿里巴巴正式宣布“千问”项目,全力进军AI to C市场。当天,千问APP公测版上线,基于全球性能第一的开源模型Qwen3,凭借免费,以及与各类生活场景生态的结合,与ChatGPT展开全面竞争。阿里核心管理层将“千问”项目视为“AI时代的未来之战”。目前,千问APP公测版已在各大应用商店上架,并同步提供网页和PC版。面向全球市场的千问APP国际...
10:36
谷歌宣布NotebookLM新增图像数据源,用户上传黑板板书、教科书扫描页或街拍表格后,系统自动完成OCR与语义解析,并可用自然语言直接检索图中内容。该功能面向全平台免费推出,谷歌表示未来数周内将追加本地处理选项,以减少敏感资料上传云端。新版NotebookLM底层采用多模态模型,可分辨手写与印刷区域、提取表格结构,并与既有文本、音频、视频笔记自动关联。谷歌...