近日,一项备受瞩目的研究成果——CoMPaSS-FLUX.1模型正式问世,为图像生成领域带来了革命性的突破。该模型作为基于FLUX.1文本到图像扩散模型的LoRA适配器,专注于提升生成图像中物体空间关系的理解能力,在处理复杂空间关系方面取得了令人惊叹的进展,为AI艺术创作开辟了全新的维度。
CoMPaSS-FLUX.1模型以FLUX.1-dev作为基础架构,采用16级LoRA配置,文件体积约50MB,完美兼容Diffusers框架。其核心功能在于能够生成具有精准空间关系的图像,特别擅长构建需要严格空间排列的构图作品,同时在不牺牲其他生成能力的前提下,大幅增强了空间感知能力。
在性能表现上,CoMPaSS-FLUX.1创造了行业新纪录。根据权威VISOR基准测试显示,该模型的相对提升高达98%;在T2I-CompBench空间测试中,提升幅度达到67%;而在GenEval位置评估中更是实现了131%的惊人改善。更令人惊喜的是,CoMPaSS-FLUX.1在图像保真度方面同样表现出色,FID和CMMD分数均优于基础模型,充分证明其生成质量得到了显著提升。
使用CoMPaSS-FLUX.1时,用户可以参考其优化后的提示系统。该模型在处理空间关系描述时表现尤为出色,特别擅长理解包含明确空间指示词(如”左边”、”右边”、”上面”、”下面”)的提示,或者能够准确解析两个不同物体间明确空间关系的描述(例如”照片中A在B的右边”)。这种精准的空间理解能力,使得模型能够根据文本指令生成构图严谨、空间关系明确的图像作品。
在模型训练阶段,CoMPaSS-FLUX.1采用了严格的数据筛选标准。训练数据来自SCOP(空间约束导向配对)数据引擎,包含约28,000个经过精心挑选的物体对。这些数据在视觉重要性、语义区分度、空间清晰度、物体关系复杂性和视觉平衡性等方面均符合严苛标准。训练过程持续24,000步,采用批量大小为4的配置,学习率设定为1e-4,并运用AdamW优化器配合1e-2权重衰减策略,确保了模型训练的高效性和精准性。
huggingface:https://huggingface.co/blurgy/CoMPaSS-FLUX.1
划重点:
🌟 CoMPaSS-FLUX.1模型通过突破性技术显著提升了文本到图像生成时的空间理解能力,尤其在处理复杂物体间关系方面展现出卓越表现
📊 多项权威基准测试结果证明,该模型在空间关系理解方面实现了革命性提升,同时保持高品质图像生成效果
📚 模型训练基于严格筛选的高标准数据集,确保生成图像在空间关系表达和视觉清晰度上达到专业水准