昆仑万维集团在备受瞩目的SkyWork AI技术发布周第三天,正式向全球开发者与研究者开源其最新研发的「Skywork UniPic2.0」统一多模态模型。这一具有里程碑意义的发布,不仅标志着多模态人工智能领域迈入新纪元,更代表着该技术生态的又一次重大突破。Skywork UniPic2.0作为一个面向统一多模态建模的高效训练与推理框架,通过创新性地整合生成与编辑模块的轻量化设计,以及多模态理解模型的联合训练机制,成功构建了集理解、生图、编辑于一体的核心能力体系。该模型致力于实现“高效、高质、统一”的多模态生成目标,为人工智能应用开辟了更广阔的可能性。
Skywork UniPic2.0模型架构由三大核心模块协同构成:生图编辑模块、统一模型能力模块以及生图编辑后训练模块。这一设计基于先进的SD3.5-Medium架构,将原本仅支持文本输入的传统模型升级为同时兼容文本与图像输入的双重输入模型,显著扩展了生图能力至生图与编辑的双重功能。通过冻结生图编辑模块,并引入多模态模型Qwen2.5-VL-7B与Pre-Train连接器,成功构建出理解生成编辑一体化能力框架。在此基础上,通过连接器与生图编辑模块的联合微调,最终实现了真正意义上的一体化理解、生图、编辑模型,为多模态AI应用提供了前所未有的技术支持。
此次Skywork UniPic2.0的开源举措,不仅向全球开发者与研究者提供了全面的技术平台,涵盖模型权重、推理代码、强化策略等全部技术资源,更在技术指标上实现了超越性突破。其生成模块基于2B参数的SD3.5-Medium架构进行深度训练,在生图和编辑指标上超越了众多具有更大参数量的同类模型。此外,该模型创新性地引入了强化学习机制,基于Flow-GRPO首创的渐进式双任务强化策略,有效提升了模型对复杂指令的理解能力,并显著增强了图像生成与编辑的一致性,为多模态AI应用带来了质的飞跃。
项目主页:https://unipic-v2.github.io/
技术报告:https://github.com/SkyworkAI/UniPic/blob/main/UniPic-2/assets/pdf/UNIPIC2.pdf
GitHub地址:https://github.com/SkyworkAI/UniPic/tree/main/UniPic-2
HuggingFace Gradio:https://huggingface.co/spaces/Skywork/UniPic2-Metaquery
HuggingFace Model:https://huggingface.co/Skywork/UniPic2-SD3.5M-Kontext-2B; https://huggingface.co/Skywork/UniPic2-Metaquery-9B