
在大语言模型(LLM)技术飞速发展的今天,阿里通义 Qwen 团队近日发布了一项突破性的强化学习创新——Soft Adaptive Policy Optimization(SAPO)。这一方法的核心使命在于攻克当前大语言模型在强化学习过程中普遍存在的策略优化不稳定性难题。与传统的强化学习方法如 GRPO 和 GSPO 不同,后者依赖硬剪切技术来约束重要性比率的范围以保障更新过程的稳定性,SAPO 提供了一种更为智能和高效的解决方案。
传统的硬剪切技术虽然能够确保稳定性,但其固有的局限性不容忽视。首先,过于严苛的剪切标准往往会导致有效学习信号的严重流失,特别是在 GSPO 算法中,一旦某个 token 表现不佳,整个序列的梯度信息就可能被完全舍弃。其次,剪切范围的调整极具挑战性:若范围过小,大量样本将无法贡献梯度;若范围过大,则可能引入不必要的噪声,反而削弱学习的稳定性。这些问题在规模庞大的混合专家模型(MoE)中尤为突出。

面对这些挑战,Qwen 团队精心设计了 SAPO 算法,这是一种全新的强化学习范式,致力于提升大语言模型的学习稳定性和整体性能。SAPO 的创新之处在于采用平滑的温度控制门控函数替代传统的硬剪切机制,这一设计既保证了稳定性,又最大限度地保留了有效梯度。其独特优势体现在以下三个方面:一是连续信任域机制,有效避免了硬剪切带来的不连续性问题;二是序列级一致性原则,确保不因单个 token 的表现而牺牲整个序列的信息;三是 token 级自适应策略,显著减弱异常 token 对整体学习进程的负面影响。此外,SAPO 在处理正负 token 时运用非对称的温度设计,实现了对不同类型 token 的精细化差异化处理,进一步优化了学习效果。
实验结果有力地证明了 SAPO 的卓越性能。在多种规模的 dense 和 MoE 模型上,SAPO 均展现出显著的提升。为了全面验证这一新方法的有效性,Qwen 团队进行了严谨的评估,并在数学推理、代码生成、逻辑推理和多模态数学推理等多个关键任务上进行了测试。实验结果表明,SAPO 的表现明显优于传统的 GRPO 和 GSPO 方法。这一突破不仅彰显了阿里通义在大语言模型领域的技术领先地位,更为未来的 AI 研究开辟了新的探索方向。论文详情请参阅:https://arxiv.org/abs/2511.20347
