大模型技术正迎来新一轮的迭代浪潮。近期,OpenAI发布GPT-5的同时,国内昆仑万维、商汤、百川智能、智谱等企业也纷纷推出新一代模型。其中,昆仑万维更是以惊人的速度连续5天发布新模型,8月13日推出的UniPic2.0成为本周焦点。这款多模态统一模型的核心优势在于深度融合图像理解、文本到图像生成、图像编辑三大能力,精准把握了当前多模态技术发展的关键方向——理解、生成、编辑一体化。
传统AI生图工具往往存在生成后难以修改的痛点,二次编辑指令理解不足时容易导致画面失控。但UniPic2.0的修改能力令人惊喜。以近期流行的穿搭梗为例,当用户要求将下身换成同色系夸张穿搭时,模型能精准将裤子转化为红色蓬蓬裙。这款模型自7月30日开源以来,2.0版本延续了1.0版本的”又快又好”优势,图片生成仅需几秒,单句编辑就能完成复杂操作。
在性能表现上,UniPic2.0展现出惊人效率。当其他大模型仍需数十秒生成图片时,它能在数秒内创作出复杂的”玻璃猫”作品。更令人惊叹的是,这款2B参数规模的模型在速度上超越了动辄百亿参数的开源模型。尽管参数规模较小,但在图片生成、理解和编辑三项核心指标上,UniPic2.0的表现依然出色,编辑部分甚至击败了多个10B以上规模的模型。
在生成能力测试中,UniPic2.0的统一架构版本在GenEval测试中取得0.90分,超过包括GPT-4o在内的众多模型。与Bagel的对比测试中,UniPic2.0生成的”梵高风格树”完美契合主题,而Bagel的作品还带有圣诞树元素。在图像编辑方面,UniPic2-SD3.5M-Kontext在GEdit-EN和Imgedit测试中分别获得6.59和4.00分,UniPic2-Metaquery系列表现更优,相关指标超越OmiGen2、Bagel等开源模型,接近GPT-4o水平。
多组测试充分展示了UniPic2.0的编辑能力:相机视角旋转40度时,模型不仅调整了画面构图,连阳光在墙上的影子都自然补全;人物背景切换测试中,5秒内就能将人物从杂乱背景中抠出并更换为纯蓝色背景;在主体一致性测试中,模型能精准消除照片中的狗,同时保留原背景的树林和深色区域;风格转换方面,从赛博朋克到吉卜力风的切换都游刃有余。
轻量化模型架构的突破在于,2B参数规模的UniPic2.0理论上可在手机和电脑上运行。在RTX4090显卡上即可流畅运行,为模型落地应用扫清了硬件障碍。这种一体化架构通过协同训练实现三大任务深度融合,避免了传统模块化策略中各模块”各自为政”导致的性能瓶颈。
昆仑万维采用统一架构和渐进式双任务强化学习模式,先强化编辑任务再优化文生图能力,确保两种任务协同提升。2B参数规模的SD3.5-Medium架构既保证了性能,又大幅降低了计算资源需求,实现秒级响应的生成和编辑体验。这种轻量化设计既控制了研发成本,也为用户提供了高性价比选择。
在开源策略方面,昆仑万维早在2022年底就意识到开源的重要性。从Skywork-13B系列到各类多模态模型,公司始终坚守开源理念。这一战略不仅汇聚了行业智慧,还通过模型吸引开发者和用户,在国际知名开源社区HuggingFace榜单中占据重要位置。开源与SOTA追求并行不悖,使昆仑万维在资源竞争中找到独特生态位。
大模型竞赛中,昆仑万维展现出清晰的战略布局:专注多模态领域深耕,对通用大模型采用外采策略。持续5天的技术周展示了公司在该领域的研发实力,SkyReels-A3音频驱动人像视频生成模型和Matrix-3D世界模型等成果,都印证了其聚焦前沿不忘落地的战略考量。在竞争激烈的中国AI生态中,昆仑万维通过技术创新和生态建设,实现了以小博大的突破。