快手Klear-Reasoner模型数学推理破90%成8B模型领头羊

2025-08-20 14:09:29 AI动态 61 次阅读

在大语言模型的激烈竞争中，数学推理能力已成为衡量模型优劣的关键指标。近日，快手科技推出了一款名为 Klear-Reasoner 的创新模型，该模型基于 Qwen3-8B-Base 架构打造，在多项权威基准测试中表现卓越，其数学推理准确率更是高达90%以上，一跃成为同规模模型中的佼佼者。这一突破性成果的背后，是 Klear-Reasoner 采用的 GPPO（Gradient-Preserving Clipping Policy Optimization）算法的巧妙设计。

GPPO 算法在确保训练过程稳定性的同时，显著增强了模型的探索能力。传统的裁剪策略虽然能有效控制模型更新幅度，防止训练过程中的剧烈波动，但往往会导致模型因”丢弃重要信息”而变得过于保守。GPPO 则以创新的方式，让所有梯度参与反向传播过程，既保留了模型探索新知识的机会，又大幅提升了模型对错误的修正效率。这种”温和”而高效的优化策略，为 Klear-Reasoner 的卓越表现奠定了坚实基础。

在各类基准测试中，Klear-Reasoner 均展现出超越同规模开源模型的强劲实力。特别是在 AIME2024 测试中，该模型以90.5%的优异成绩领跑全场；在 AIME2025 测试中同样表现不俗，取得了83.2%的卓越成绩。这些亮眼表现充分证明了 Klear-Reasoner 在数学推理领域的领先地位。

Klear 团队还详细分享了模型的训练秘诀，包括对数据质量的严格把控、在高难样本中保留错误策略的创新应用、以及使用软奖励机制提升学习效率等关键环节。其中，团队特别强调优质数据源的质量远比数量更重要。在监督微调(SFT)阶段，通过精准过滤错误数据并集中训练高质量样本，可以显著提升模型的训练效率。此外，团队发现软奖励策略在强化学习阶段比硬奖励机制更为有效，能够有效增强模型的学习稳定性。