

腾讯混元团队近日在官方公众号重磅发布了其最新研究成果——SRPO(语义相对偏好优化)技术,旨在显著提升AI生成图像的真实感,特别针对开源文生图模型Flux在人物皮肤质感上存在的“过油”问题提出创新解决方案。这一突破性技术的推出,有望为整个生图领域带来革命性变革。在数字艺术创作日益普及的今天,AI生成图像的质量已成为衡量创作价值的重要标准。Flux模型作为开源文生图社区的核心基础模型,虽广受青睐,但其生成人物皮肤时过于光滑、缺乏自然质感的缺陷,一直备受诟病。为解决这一难题,腾讯混元团队联合香港中文大学(深圳)及清华大学共同攻关,成功研发了SRPO方案。该方案通过在线调整奖励偏好、优化生成轨迹等多元手段,全方位提升生成图像的真实感表现。SRPO技术的核心创新在于引入“语义偏好”概念,通过添加“真实感”等特定控制提示词,精准调整奖励模型的优化目标。实验数据有力证明,这种方法能够显著增强生成图像的真实度表现。然而,研究团队也敏锐地意识到,单一语义引导可能引发奖励破解问题。为此,他们创新性地提出“语义相对偏好优化”策略,采用正向与负向词汇协同作用作为引导信号,有效中和奖励模型的潜在偏差。值得注意的是,传统生成优化方法往往聚焦于生成过程的后半段,这种局限性容易导致在高频信息上出现过拟合现象。腾讯混元团队通过独创的Direct-Align策略,向输入图像注入可控噪声,并将其作为参考锚点进行图像重建,大幅降低重建误差,实现更精准的奖励信号传导。这一创新方法突破性地支持对生成轨迹的前半段进行优化,从根本上解决了过拟合难题。在技术性能方面,SRPO展现出惊人的训练效率,仅需10分钟即可超越现有的DanceGRPO方法。研究结果显示,SRPO在真实度和美学评分上提升超过三倍,而训练时间相较于传统方法降低了高达75倍。随着这项技术的广泛应用,未来AI生成图像的真实感将得到质的飞跃,必将为数字艺术创作开辟全新的可能性空间。项目地址:https://tencent.github.io/srpo-project-page/


