腾讯近期推出了一项突破性的技术革新,旨在显著提升AI生成图像的真实感与美学评分。据官方介绍,这项先进的微调技术仅需使用32块H20显卡进行10分钟的训练,就能实现令人瞩目的收敛效果,其人工评估得分更是在此基础上实现了300%以上的惊人飞跃。这一成果的取得,为当前AI图像生成领域带来了前所未有的突破。
当前主流的扩散模型虽然能够通过奖励机制优化图像质量,但仍然面临着两大核心挑战。首先,模型优化步骤有限,容易导致”奖励作弊”现象的出现,即模型为获取高分而生成质量平平的图像。其次,离线调整奖励模型的过程缺乏灵活性,严重制约了实时优化的能力。针对这些问题,腾讯AI团队提出了两项创新性解决方案。
首项创新技术名为”Direct-Align”,其核心原理是通过预先注入噪声,使模型能够从任何时间点恢复原始图像。这一设计巧妙地减少了早期反向传播中的梯度爆炸现象,确保模型在整个扩散过程中都能得到充分优化,而不再局限于最后几个步骤。这种全流程优化的思路,为模型性能提升开辟了全新路径。
第二项创新技术是”语义相对偏好优化”(SRPO)。该技术将原本的奖励信号转化为可受文本控制的信号,通过添加正面和负面提示词,让模型能够灵活调整生成图像的风格。用户只需在提示词前加上简单的控制短语,即可轻松实现亮度调整、风格转换等高级功能,而无需依赖额外数据。这种创新设计极大地提升了用户体验,让AI图像生成变得更加智能化和人性化。
实验数据显示,经过SRPO训练的FLUX.1-dev模型在真实感和美学质量上均取得了长足进步。在一项包含3200个提示词的专项测试中,该模型在真实感维度上的优秀率从8.2%大幅提升至38.9%,美学质量的优秀率也从9.8%跃升至40.5%。尤为值得关注的是,相较于其他方法,SRPO不仅保持了高美学质量,还能生成纹理更加自然的图像。这一技术的成功应用,不仅彰显了腾讯在AI绘画领域的持续探索和创新精神,更为未来AI图像生成技术的发展指明了前进方向。相关技术论文已发布至arxiv,供业界参考学习:https://arxiv.org/pdf/2509.06942