
微新创想:在AI生图的世界里,不同模型呈现出截然不同的视觉风格,仿佛来自不同的摄影流派。我们最近在测试多种AI生图模型时发现,同样的提示词,传给不同模型,生成的图片风格差异巨大。有些模型呈现的是真实世界的细节,有些则偏向艺术化表达,这种差异不仅体现在图像质量上,更反映在它们对“什么值得被看”所持有的商业假设。

Image-2生成的图片给人一种真实生活的感觉,像是你昨天随手拍下的场景。它不追求任何摄影技巧,只还原人眼所见的真实。从商业角度来看,这种风格意味着最低的视觉加工成本。例如,下雨天的公交站不需要电影级打光,只需表现出淅淅沥沥、萧瑟的氛围。吃了一半的外卖不需要精修,油腻和不美观就是它的真实成本结构。深夜的便利店黑漆漆一片,只有711亮着灯的诡异感。垃圾桶周围的沙尘和柏油马路的岁月痕迹,都让画面显得更加真实。城中村那种无序的拥挤感,也因为缺乏修饰而显得格外真实。
这些“不完美”其实是成本最低的表达方式,因为它们本身就是现实的体现。阳台的晾衣杆虽然有些穿帮,但那种低气压感的表达却非常到位。现实中的瑕疵和不规则感,其他模型可能视为缺陷,而Image-2却能精准把握,展现出一种自然的视觉风格。它不会给你打光、调色或精心构图,它就是你的眼睛,你看到什么,它就生成什么。这种风格让Image-2的输出看起来像是你昨天见过的,而不是AI生成的。它成功地把自己隐藏在了日常生活中,成为最隐形的摄像机。

对于需要大量真实素材的产品,比如Adobe的设计工具,这种“不被认出来”的特性反而是最大的价值。用户不需要进行二次加工,可以直接使用。这种风格不仅节省了后期成本,也让图像更贴近真实世界。
Nano Banana2则完全不同,它像是一个艺术总监,把现实变成一个被精心摆拍的世界。同样是垃圾堆,Image-2给你的是真实的脏乱,而Nano Banana2给你的是一个艺术布景。一杯水在Image-2里只是普通的水,但在Nano Banana2里,它被塑造成一个轻松闲适氛围的广告道具。半个西红柿不是随意切的,而是经过精心挑选、打光、喷水、固定位置,只为营造最佳视觉效果。一个刚起床的卧室,没有睡了一夜的杂乱感,而是像一个卧室家居用品的广告拍摄现场。那些塑料拖鞋、生锈的铁钉、洗手台上的肥皂,都带着一种精心的摆拍感。

这种风格并非无用功,而是Nano Banana2的核心商业假设。它认为,如果要大规模生成内容,不如直接生成“已经被设计过的现实”。对于像Google的Cosmic这样的web端产品来说,这意味着素材可以直接使用,无需二次打磨。售楼处的宣传图就该这样——精致、无暇、充满“生活在这里很舒服”的心理暗示。这是一种更直接的商业转化逻辑。
Nano Banana2的世界观很清晰:本该自然无序的一切,都被调教得更适合被观看、被欣赏、被购买。它创造了一个过度设计的乌托邦,也是互联网产品想要呈现给用户的那个理想世界。

字节系的豆包和即梦则在另一个维度上展现出独特优势。它们在人物情绪和面部特征上的表现非常精准,能够准确传达出舒适、惬意、可怜、无助等复杂情感。望着窗外的女孩那张,情绪表达得非常到位。流浪猫那张,把那种既害怕又带点攻击性的感觉刻画得淋漓尽致。这种对人物细微情绪的洞察力在竞品中很难复现,对于需要“打动人”的内容场景,比如短视频封面、社交媒体素材,这种能力是真正的稀缺资源。
但短板也很明显。色调浓重,暖调和冷调之间存在明显失衡。光影处理上,要么极度强烈,要么几乎没有光影。影子一多了,豆包就会干脆只生成有光线的部分。在生成智能手机、旧书店角落、黑咖啡等图片时,这种成本分配的不均衡表现得尤为突出。桌面橘子这张图片的背景处理问题更严重,纵深感表达不佳,给人一种背景要翻上来的感觉。最极端的是智能手机那一张,背景直接变成大白板,这样手机这种狭窄的光影才能更省算力地生成。

还有一个有趣的现象是,豆包过于注重渲染“氛围”,有时会按照自己对“氛围”的理解去改写你的需求,而不是真正听从你的指示。这其实反映了一个更大的问题:当模型在某个维度投入过多资源,就会被迫在其他维度做出妥协。字节的选择是用“情感打动”来弥补“场景还原”的不足,这种策略在内容创意场景中可能有效,但在需要全方位精致度的场景中就会显得力不从心。
可灵则像是一个追求帧帧充满故事感的好莱坞导演。它遵循的是完全不同的商业逻辑——每一帧都必须在讲故事。所有的图都被放置在一个已有的世界观或语境中,每一个画面都在暗示接下来会发生什么。这种“预叙事”能力体现在细节中,比如正在系鞋带的男人,一看就感觉他发现了你在看他。走廊尽头的画面,透视感极强,仿佛是高档酒店的短剧现场,你能想象有人会从那头走出来。地下停车场给人一种安静的诡异感,下一秒灯就会从远处一个个快速熄灭。

这种故事感来源于对摄影技巧的精准运用。掉在地上的雨伞用侧逆光和死角虚化处理,像极了案发现场的证物。后视镜里的眼睛,构图压迫感极强,直接聚焦在后视镜。空荡的地铁车厢调色真实到电影级别,有一种《黑客帝国》的感觉。可灵的成本结构是:用光影、构图、虚化、调色等所有摄影语言服务于叙事,把静止画面转化成正在展开的故事。
这种风格对于短视频、游戏角色、广告创意等需要视觉冲击的场景非常理想。但如果你只是想要一张干净的产品图,可灵会强行给你加上故事性,这种“过度设计”在某些场景反而成了负担。

随着使用量的增加,我们会发现今天各个模型都有了自己的一套视觉“方言”,而这些视觉语言都是审美的直接反映。模型逐渐在审美品味上区分开来。除了数据和训练方法带来的审美差异,选择不同模型时,还有不同的成本考量。
需要真实或电影级素材的场景,使用Image-2——它还原真实,省去了后期精修的成本。需要3A游戏场景或房屋中介宣传图的场景,使用Nano Banana2——那种真实华丽但又一眼看出不是现实的感觉,正好适配售楼处“理想化呈现”的成本结构。需要表达人物情绪和面部特征的场景,使用豆包或即梦——这两个模型在“情感转化”上的成本最低。需要游戏人物或短视频素材的场景,使用可灵——叙事感和视觉冲击力的ROI最高。
这种视觉倾向和偏好在使用中会不断被加强,形成一个个风格的闭环。最终,最多用户使用的几个主要模型,很可能会一起改变人们对于审美的最根本理解。
