
微新创想12月22日重磅消息,阿里巴巴开源全新图像生成模型Qwen-Image-Layered,这一突破性技术首次在模型内部实现了PS级的图层理解与图像生成能力。千问新模型采用自研创新架构,能够将图片精准拆解为多个独立图层,其工作原理如同专业设计师使用Photoshop进行分层作图与修图,实现了几乎零漂移的AI图像精准编辑。这一创新彻底解决了AI生图领域长期存在的一致性难题,为大模型在专业设计领域的实际应用加速赋能。
Qwen-Image-Layered打破了主流视觉大模型传统的扁平式思维,通过分层与补全机制建立起对现实世界更准确的物理式理解。该模型让AI从平面的”看图说话”迈向真实的三维空间重构,为视觉大模型的发展开辟了全新路径。在当前的视觉大模型领域,图像一致性编辑始终是一个核心挑战。传统AI生图虽然富有创意,但难以编辑,主要原因在于大模型对图片的理解停留在扁平的像素点层面,无法像人类一样感知图中物体的远近、遮挡等物理关系。
因此,让大模型生图和编辑就像抽卡开盲盒:例如当用户希望将画中的猫向左移动10厘米时,AI完全无法预知猫移动后空出来的背景会产生什么变化,只能重新生成整个图像,导致猫和背景都发生质变。这种”牵一发而动全身”的随机性,使得AI绘图在追求极致精准的商业广告设计、UI界面设计、影视后期处理等专业领域始终只能作为参考,而无法真正取代专业工具。

Qwen-Image-Layered的出现标志着视觉大模型从像素预测转向结构重组。千问团队自研了一种全新的RGBA-VAE编码技术,在传统的RGB图像中引入代表透明度图层的Alpha通道,赋予模型图层的概念。同时新模型采用了创新的VLD-MMDiT架构,配合独特的图层级3D位置编码,让AI能够自动补全被遮挡部分的背景纹理,实现对图层和空间的更深入理解和生成。据了解,为训练这种能力,千问团队从海量的专业Photoshop(PSD)文件中提取真实图层逻辑,让AI从”出生”起就具备专业设计师的分层思维。
业内人士指出,千问新模型将为创意产业带来实质性变革。AI生图不再是死板一块,而成为一个活生生的、可无限调整的素材库。图片编辑也不再需要复杂精细的人工抠图,而是AI原生地实现了内在可编辑性。设计师、动画师和影视制作人员可以在保持背景或主体完全不变的前提下,对特定图层的构件进行位移、缩放或重绘,显著提升数字内容创作的生产效率。
据了解,Qwen-Image-Layered已在魔搭社区和HuggingFace开源,开发者和企业可免费下载商用。截至目前,阿里已开源近400个千问模型,全球下载量突破7亿次,衍生模型数超18万个,是全球第一的开源模型。通义大模型已服务超100万家客户,在中国企业级大模型调用市场中通义位居第一,是中国企业选择最多的大模型。
