近日,腾讯混元基础模型团队在图像生成领域再创佳绩,正式发布了革命性的新框架——MixGRPO。这一突破性方案不仅在训练效率上实现了惊人飞跃,将时间缩短了近50%,更在性能表现上达到了新的高度。令人瞩目的是,团队还推出了名为MixGRPO-Flash的优化版本,将训练时间进一步压缩了71%。这一系列成就的取得,源于他们将随机微分方程(SDE)与常微分方程(ODE)相结合的创新采样策略。
在当前的图像生成技术中,效率与质量往往难以两全。MixGRPO通过引入混合采样方法,巧妙地优化了马尔可夫决策过程(MDP),实现了训练效率的显著提升。具体而言,该框架通过科学限制智能体的随机探索范围,大幅减少了优化过程中的计算开销,同时极大简化了模型的训练流程。与之前的DanceGRPO模型相比,MixGRPO在多个维度上均展现出卓越的改进。
实验证明,MixGRPO只需对特定的去噪步骤进行针对性优化,就能在保持性能的同时实现更高效的训练。研究团队还发现,虽然MixGRPO在缩短训练时间的同时有效降低了计算成本,但需要引入高阶求解器来加速旧策略模型的采样过程。此外,MixGRPO创新性地采用了滑动窗口策略,使模型能够在去噪过程中逐步聚焦于更关键的时间步,从而实现更精准高效的优化。这一突破性设计显著提升了模型在图像生成多样性和质量上的表现。
MixGRPO不仅为图像生成技术的未来发展开辟了全新路径,更为后续研究提供了宝贵的实践经验和理论参考。其开源代码已完整发布,我们热切期待更多开发者加入这一激动人心的技术探索行列,共同推动图像生成领域的创新进步。项目地址:https://tulvgengenr.github.io/MixGRPO-Project-Page/