
在人工智能图像编辑与生成领域,一项革命性的技术突破正引发全球瞩目。字节跳动携手香港中文大学、香港科技大学及香港大学联合研发的 DreamOmni2 系统,现已正式开源,这一里程碑事件标志着图像编辑生成技术的全新飞跃。DreamOmni2 的问世,旨在大幅提升人工智能在图像处理中的指令遵循能力,实现了真正意义上的多模态指令理解。该系统能够同时解析文本指令与参考图像,显著突破传统模型在处理抽象概念(如风格、材质、光照)时的瓶颈,让用户与 AI 之间的交互如对话般自然流畅,仿佛拥有一个洞悉你意图的智能伙伴。

为了赋予 AI 理解复杂文本和图像指令的能力,研发团队匠心独运地设计了一套创新的三阶段训练流程。首先,通过精密训练的提取模型,AI 能够精准捕捉图像中的关键元素或抽象属性。随后,利用提取模型生成多模态指令编辑数据,构建包含源图像、指令、参考图像和目标图像的完整训练样本集。最后,通过深度提取与智能组合生成更多参考图像,最终形成丰富多元的多模态指令生成数据集,为系统的高质量训练奠定坚不可摧的基石。
在模型架构设计上,DreamOmni2 创新性地提出了索引编码和位置编码偏移方案,确保模型能够精准识别多张输入图像。同时,引入先进的视觉语言模型(VLM),有效弥合用户指令与模型理解之间的认知鸿沟。这种突破性的设计显著提升了系统处理指令的准确性,使其能够更深刻地洞察用户的真实意图。经过严格测试,DreamOmni2 在多模态指令编辑任务上的表现已超越所有参与比较的开源模型,其性能甚至接近顶尖商业模型。相较于传统商业模型,DreamOmni2 在处理复杂指令时展现出更高的准确性和一致性,有效避免不必要的变更和图像瑕疵,为用户带来卓越的创作体验。

DreamOmni2 的开源发布,不仅为 AI 创作领域开辟了无限可能,更为相关领域的研究者提供了统一的评判标准,推动整个行业迈向更高水平。这一技术的问世,预示着 AI 图像编辑与生成领域即将迎来一场深刻的革命。业内专家普遍认为,DreamOmni2 的成功将极大加速 AI 技术的普及化进程,为其在更多领域的应用奠定坚实基础,开启智能创作的新纪元。
