大模型技术正迎来新一轮的迭代浪潮。近期,OpenAI发布GPT-5的同时,国内昆仑万维、商汤、百川智能、智谱等企业也纷纷推出新一代模型。其中,昆仑万维更是以惊人的速度连续5天发布新模型,8月13日推出的UniPic2.0成为本周焦点。这款多模态统一模型的核心优势在于深度融合图像理解、文本到图像生成、图像编辑三大能力,精准把握了当前多模态技术发展的关键方向——理解、生成、编辑一体化。

传统AI生图工具往往存在生成后难以修改的痛点,二次编辑指令理解不足时容易导致画面失控。但UniPic2.0的修改能力令人惊喜。以近期流行的穿搭梗为例,当用户要求将下身换成同色系夸张穿搭时,模型能精准将裤子转化为红色蓬蓬裙。这款模型自7月30日开源以来,2.0版本延续了1.0版本的”又快又好”优势,图片生成仅需几秒,单句编辑就能完成复杂操作。

昆仑万维UniPic 2.0小钢炮模型:2B参数搞定理解生成编辑一体化插图

在性能表现上,UniPic2.0展现出惊人效率。当其他大模型仍需数十秒生成图片时,它能在数秒内创作出复杂的”玻璃猫”作品。更令人惊叹的是,这款2B参数规模的模型在速度上超越了动辄百亿参数的开源模型。尽管参数规模较小,但在图片生成、理解和编辑三项核心指标上,UniPic2.0的表现依然出色,编辑部分甚至击败了多个10B以上规模的模型。

在生成能力测试中,UniPic2.0的统一架构版本在GenEval测试中取得0.90分,超过包括GPT-4o在内的众多模型。与Bagel的对比测试中,UniPic2.0生成的”梵高风格树”完美契合主题,而Bagel的作品还带有圣诞树元素。在图像编辑方面,UniPic2-SD3.5M-Kontext在GEdit-EN和Imgedit测试中分别获得6.59和4.00分,UniPic2-Metaquery系列表现更优,相关指标超越OmiGen2、Bagel等开源模型,接近GPT-4o水平。

昆仑万维UniPic 2.0小钢炮模型:2B参数搞定理解生成编辑一体化插图1

多组测试充分展示了UniPic2.0的编辑能力:相机视角旋转40度时,模型不仅调整了画面构图,连阳光在墙上的影子都自然补全;人物背景切换测试中,5秒内就能将人物从杂乱背景中抠出并更换为纯蓝色背景;在主体一致性测试中,模型能精准消除照片中的狗,同时保留原背景的树林和深色区域;风格转换方面,从赛博朋克到吉卜力风的切换都游刃有余。

轻量化模型架构的突破在于,2B参数规模的UniPic2.0理论上可在手机和电脑上运行。在RTX4090显卡上即可流畅运行,为模型落地应用扫清了硬件障碍。这种一体化架构通过协同训练实现三大任务深度融合,避免了传统模块化策略中各模块”各自为政”导致的性能瓶颈。

昆仑万维UniPic 2.0小钢炮模型:2B参数搞定理解生成编辑一体化插图2

昆仑万维采用统一架构和渐进式双任务强化学习模式,先强化编辑任务再优化文生图能力,确保两种任务协同提升。2B参数规模的SD3.5-Medium架构既保证了性能,又大幅降低了计算资源需求,实现秒级响应的生成和编辑体验。这种轻量化设计既控制了研发成本,也为用户提供了高性价比选择。

在开源策略方面,昆仑万维早在2022年底就意识到开源的重要性。从Skywork-13B系列到各类多模态模型,公司始终坚守开源理念。这一战略不仅汇聚了行业智慧,还通过模型吸引开发者和用户,在国际知名开源社区HuggingFace榜单中占据重要位置。开源与SOTA追求并行不悖,使昆仑万维在资源竞争中找到独特生态位。

昆仑万维UniPic 2.0小钢炮模型:2B参数搞定理解生成编辑一体化插图3

大模型竞赛中,昆仑万维展现出清晰的战略布局:专注多模态领域深耕,对通用大模型采用外采策略。持续5天的技术周展示了公司在该领域的研发实力,SkyReels-A3音频驱动人像视频生成模型和Matrix-3D世界模型等成果,都印证了其聚焦前沿不忘落地的战略考量。在竞争激烈的中国AI生态中,昆仑万维通过技术创新和生态建设,实现了以小博大的突破。

最新快讯

2025年11月18日

11:01
声明:本文来自于微信公众号 白鲸出海,作者:李爽,授权站长之家转载发布。在 AI 语言学习的领域,我们曾关注到一些另辟蹊径的产品,比如用 AI 帮移民纠正口音的「BoldVoice」,曾在不到两年的时间内做到单月流水接近百万美元。最近,又有一款名为「Voice Image」的产品引起了我们的注意,它关注到了声音和沟通技巧对人们表...
11:01
声明:本文源自微信公众号数字生命卡兹克,作者数字生命卡兹克,授权站长之家转载发布。继千问之后,今日全新AI助手灵光正式加入战场。这款来自蚂蚁集团——也就是支付宝背后的公司——的AI产品,似乎预示着阿里系即将掀起一场大AI入口之战。但经过亲身体验,我必须承认,蚂蚁的灵光确实值得大力推荐。它不仅设计精致优雅,更凭借独特的闪应用理念与支付宝生态的结合,展现出巨大的...
11:01
阿里Qwen模型逆袭GPT的策略,准备再次对打OpenAI 2018年,OpenAI推出GPT1模型占据技术先机,但随后走向封闭。几乎同时,阿里开始研发大模型技术,到2023年推出通义千问时,却选择了完全不同的道路——直接开源模型,允许开发者免费使用、改进和集成。这一策略让Qwen逐步积累规模,如今全球已有17万个衍生模型基于Qwen发布,总下载量超过6亿,...
10:56
哈曼国际12日重磅宣布,旗下Ready Display车用显示屏成功斩获业内首张HDR10+ Automotive权威认证,这一里程碑事件标志着汽车显示技术迈入全新纪元。该认证由哈曼、三星、松下三大行业巨头联合制定,旨在建立车规级HDR显示技术新标杆,确保在汽车座舱多变的复杂照明环境中,依然能够精准还原HDR内容的震撼画质。 认证显示屏凭借其卓越性能,在不同...
10:56
恒坤新材今日正式在上海证券交易所科创板鸣锣开市,证券代码688727,标志着这家专注于先端材料资源开发与整合的系统解决方案提供商正式迈入资本市场。公司发行价定为14.99元/股,对应市盈率高达71.42倍,显示出市场对其未来发展潜力的高度认可。 作为行业领先的先端材料解决方案提供商,恒坤新材致力于为全球客户提供从资源开发到产品化的全流程集成服务。其业务范围广...
10:56
北矿检测今日正式登陆北京证券交易所,证券代码920160,发行价格定为6.7元/股,对应市盈率14.99倍。作为业内领先的有色金属检测服务商,公司业务范围广泛,涵盖矿石与矿产品检测、冶炼及再生资源分析、环境样品检测、先进材料性能测试、选冶药剂分析等多个专业领域。此外,公司还积极开展资源评价、物理检测及测试技术研发与标准化工作,致力于推动行业技术进步与标准完善...
10:56
2025年11月18日,闲鱼循环商店在武汉后湖大道新荣天街盛大开业,正式宣告其华中区域中心店落成。这一重要里程碑不仅标志着闲鱼线下布局的加速推进,更彰显了其深耕区域市场的决心与实力。作为闲鱼继华东、华南区域中心店之后的又一力作,武汉新荣天街店将成为华中地区二手商品流通与循环经济的重要枢纽。 今年以来,闲鱼线下拓展步伐显著加快。下半年以来,其先后在深圳、苏州、...
10:56
2024年将见证小米在家电领域国际化战略的全新篇章。小米集团合伙人兼总裁卢伟冰于11月18日正式宣布,这一年将成为小米大家电产品出海的启航之年。这一重要布局的信号已经通过实际行动释放,此前小米西班牙市场便率先行动。10月30日,米家智能冰箱率先登陆西班牙市场,紧接着11月17日米家洗烘一体机也紧随其后推出。卢伟冰在社交媒体上转发相关产品信息时兴奋地表示,目前...
10:56
Qt Group于11月17日正式发布了备受期待的Axivion 7.11工具集最新版本,此次更新引入了一项突破性的自动检测功能,能够精准验证采用英伟达加速计算的程序是否严格遵循CUDA编码安全规则。这一创新举措为安全关键行业的开发者提供了强大的技术支持,通过先进的静态代码分析与架构验证技术,有效辅助开发人员构建具备顶尖图形处理与人工智能功能的高性能应用程序...
10:56
11月18日,《科创板日报》独家获悉,日本松下与国内知名电子元器件制造商汇创达成功中标华为Mate80系列手机侧键防水开关的量产供应项目。此外,汇创达还一举获得该系列手机屏幕罩的订单。这一系列合作不仅彰显了华为在高端手机核心部件供应上的多元化布局,更凸显了其通过深化国内外供应链合作,持续提升产品防护性能与用户使用体验的战略决心。 作为华为Mate80系列的关...
10:56
2025年6G发展大会隆重召开,GSMA大中华区总裁斯寒在会上发表重要演讲,为全球6G发展描绘了清晰的蓝图。她透露,随着全球技术迭代加速,6G部署有望在2030年率先在部分领先国家和地区启动,这意味着6G标准将在这一时间节点完成最终确立,为后续的商业化进程扫清障碍。据权威预测,到2040年,全球6G连接规模将突破50亿大关,届时将占据移动连接总量的半壁江山,...
10:56
11月18日清晨,A股市场再度掀起AI应用概念的浪潮,榕基软件强势斩获两连板,展现出强劲的上涨势头。石基信息更是以涨停板报收,成为板块中的亮点。值得买、宣亚国际等个股也表现不俗,涨幅均超过10%。思创医惠、创业慧康、汉仪股份、久其软件等企业纷纷紧随其后,股价呈现普涨态势。这一轮行情的爆发,主要得益于11月17日阿里巴巴发布的千问APP公测版消息,该应用基于开...