7月30日,昆仑万维重磅发布并正式开源了其自主研发的多模态统一预训练模型——Skywork UniPic。这款创新模型采用自回归技术路线,在单一架构内巧妙融合了图像理解、文本到图像生成以及图像编辑三大核心功能,基于海量高质量数据进行端到端预训练,展现出卓越的通用性和强大的可迁移性。
Skywork UniPic采用MAR编码器与SigLIP2主干网络设计,成功突破了传统多模态模型因依赖VQ或VAE编码器而导致的语义信息保留不足的瓶颈,实现了跨任务的深度协同。用户只需输入提示词,即可轻松完成图像理解、生成及风格转绘等复杂操作,例如快速生成特定场景的图片或对图像进行创意风格化编辑。
在性能表现上,Skywork UniPic以1.5B参数规模实现了接近大型统一模型的效能水平。在指令遵循、复杂指令生图及图像编辑等权威基准测试中,该模型均取得了行业领先成果,尤其值得称赞的是,它能在消费级显卡上流畅运行,大幅降低了AI技术应用门槛,让更多用户得以轻松体验前沿技术。
模型的成功研发离不开三个关键因素:精炼的数据构建体系、专用的Reward Model优化以及渐进式多任务训练策略。通过构建高效能语料库与分层分辨率训练机制,Skywork UniPic在兼顾模型性能与训练效率的同时,有效避免了传统方法中能力权衡的技术瓶颈。
此次开源是昆仑万维持续推动AI技术普惠化的重要里程碑。此前,公司已陆续开源多个领域的大模型,而Skywork UniPic的加入将进一步完善其AI生态体系,助力AI技术真正成为触手可及的创意工具。用户可通过以下链接获取模型权重、技术报告及代码仓库等核心资源:
模型权重:https://huggingface.co/Skywork/Skywork-UniPic-1.5B
技术报告:https://github.com/SkyworkAI/UniPic/blob/main/UNIPIC.pdf
代码仓库:https://github.com/SkyworkAI/UniPic