快手Klear-Reasoner模型数学推理破90%成8B模型领头羊

在大语言模型的激烈竞争中,数学推理能力已成为衡量模型优劣的关键指标。近日,快手科技推出了一款名为 Klear-Reasoner 的创新模型,该模型基于 Qwen3-8B-Base 架构打造,在多项权威基准测试中表现卓越,其数学推理准确率更是高达90%以上,一跃成为同规模模型中的佼佼者。这一突破性成果的背后,是 Klear-Reasoner 采用的 GPPO(Gradient-Preserving Clipping Policy Optimization)算法的巧妙设计。

GPPO 算法在确保训练过程稳定性的同时,显著增强了模型的探索能力。传统的裁剪策略虽然能有效控制模型更新幅度,防止训练过程中的剧烈波动,但往往会导致模型因”丢弃重要信息”而变得过于保守。GPPO 则以创新的方式,让所有梯度参与反向传播过程,既保留了模型探索新知识的机会,又大幅提升了模型对错误的修正效率。这种”温和”而高效的优化策略,为 Klear-Reasoner 的卓越表现奠定了坚实基础。

在各类基准测试中,Klear-Reasoner 均展现出超越同规模开源模型的强劲实力。特别是在 AIME2024 测试中,该模型以90.5%的优异成绩领跑全场;在 AIME2025 测试中同样表现不俗,取得了83.2%的卓越成绩。这些亮眼表现充分证明了 Klear-Reasoner 在数学推理领域的领先地位。

Klear 团队还详细分享了模型的训练秘诀,包括对数据质量的严格把控、在高难样本中保留错误策略的创新应用、以及使用软奖励机制提升学习效率等关键环节。其中,团队特别强调优质数据源的质量远比数量更重要。在监督微调(SFT)阶段,通过精准过滤错误数据并集中训练高质量样本,可以显著提升模型的训练效率。此外,团队发现软奖励策略在强化学习阶段比硬奖励机制更为有效,能够有效增强模型的学习稳定性。

快手Klear-Reasoner模型数学推理破90%成8B模型领头羊插图1

Klear-Reasoner 的成功发布不仅彰显了快手科技在人工智能领域的深厚技术积累,更为推理模型的训练提供了一条可复现的优化路径。这一突破性成果为未来相关领域的研究和开发提供了宝贵的经验和启示,必将推动大语言模型在数学推理能力上迈上新台阶。

Klear-Reasoner 模型已在 Hugging Face 平台上线,用户可通过以下链接获取
https://huggingface.co/Suu/Klear-Reasoner-8B

完整代码及项目文档也已托管在 GitHub
https://github.com/suu990901/KlearReasoner/tree/main

🌟 Klear-Reasoner 模型在数学推理准确率上突破90%,成为8B模型中的领军者
🧠 GPPO 算法提升了模型的探索能力,解决了传统裁剪策略的隐性问题
📈 关注数据质量和训练策略,Klear 团队的研究为推理模型提供了有效的训练方法

最新快讯

2025年08月20日

23:11
2025年8月20日,多家上市公司纷纷披露其在机器人、液冷等前沿领域的最新动态,展现出科技创新与产业升级的蓬勃态势。在机器人领域,信测标准机器人公司虽然尚未实现营收,但已展现出强劲的发展潜力;高测股份则传来捷报,成功获得人形机器人灵巧手订单,标志着其产品研发取得重要突破;红旗连锁的机器人项目也在紧锣密鼓的研发中,预示着智能化服务将加速落地。聚焦液冷技术,华塑...
23:11
2025年8月20日22时,北京市水务局与市气象局紧急联合发布积水内涝蓝色预警。根据最新气象数据分析,预计朝阳区、丰台区、石景山区、通州区及大兴区将面临局部区域积水内涝风险。此次预警主要针对强降雨可能引发的低洼路段、地下通道及地铁站周边等易涝区域。 相关部门特别提醒广大市民密切关注实时天气变化,尽量避免前往预警区域内的低洼地带出行。建议市民提前规划路线,优先...
23:11
2025年8月20日,科技巨头英特尔公司正积极与多家大型投资者就一项折价股权注入计划展开深入洽谈。这一重大举措的核心目标在于显著增强公司的资本实力,同时为其正处于关键期的战略转型注入强劲动力。尽管关于谈判的具体细节目前尚未对外公开,但据权威财经媒体CNBC率先披露的消息显示,此次潜在的投资合作可能涉及英特尔以一定折扣出售部分股权,从而引入外部资金支持其未来发...
23:11
2025年8月20日,北京时间清晨,美国股市开盘后呈现显著的行业分化态势。半导体板块表现疲软,相关ETF重挫1.5%,而全球航空业ETF更是遭遇超过1%的深度回调。这一市场格局反映出当前整体震荡的行情特征,投资者情绪普遍偏向谨慎,避险情绪升温。 市场分析人士指出,近期全球经济数据波动与政策预期变化共同加剧了市场的不确定性。半导体ETF的下跌或与行业产能过...
23:11
2025年8月,全球知名金融机构花旗集团正式委托一家资深律师事务所,对旗下财富业务负责人Andy Sieg的相关人力资源投诉展开全面调查。此次调查的核心目标在于,通过严谨的程序核实投诉内容的真实性与合理性,并确保整个处理过程严格遵守相关法律法规及公司内部规定。值得注意的是,截至目前,外界仍无法获知该投诉的具体细节,包括投诉方的身份、投诉事由以及所涉及的具体行...
23:10
2025年上半年,智利化工矿业巨头SQM交出亮眼业绩,实现营收20.8亿美元,EBITDA高达6.581亿美元。这一卓越表现主要得益于两大核心因素:一是其主导产品市场需求保持稳定增长,二是公司销售策略的精准高效执行。作为全球锂资源与钾肥产业的领军企业,SQM凭借卓越的产能布局和持续的技术创新,在全球市场始终保持着强大的竞争力。其锂产品供应着全球新能源汽车和储...
23:10
2025年8月20日,国务院总理李强深入百济神州(北京)生物科技有限公司开展专题调研,实地考察新药研发最新进展,并细致察看了药物化学实验室的运作情况。在调研过程中,李强总理对当前我国健康产业发展现状给予了高度评价,他指出我国健康产业市场潜力巨大,创新药领域前景广阔,具有巨大的发展空间和战略意义。 李强总理强调,要高度重视高临床价值和转化潜力项目的发现与服务工...
23:10
2025年8月20日,北京时间,全球资本市场迎来震荡时刻。纳斯达克指数单日跌幅扩大至1%,成交量显著放大,显示出市场情绪的急剧转变。这一波动并非孤立事件,而是当前宏观经济环境与市场预期相互交织的复杂反映。 市场分析人士普遍指出,科技股的普遍回调是导致纳斯达克指数下行的核心因素。近期,多家科技巨头财报不及预期,叠加行业竞争加剧,使得投资者对科技板块的估值逻辑产...
23:10
2025年8月20日,山西省地质灾害监测预警系统发出紧急警报。鉴于近期地质活动频繁,全省地质灾害风险等级持续攀升,省重大地质灾害应急指挥部办公室经过紧急会商研判,决定对太原、朔州、忻州、吕梁、晋中、阳泉6市启动省级地质灾害四级应急响应。这是山西省今年首次启动区域性地质灾害应急响应,充分体现了当前地质灾害形势的严峻性与紧迫性。 此次应急响应的启动,是基于科学严...
23:10
2025年8月20日,二手车电商巨头Carvana股价开盘即遭遇重挫,跌幅达4.8%,而另一家行业领军企业CarMax的股价也未能幸免,跌幅超过1%。这一市场波动直接源于赫兹租车(Hertz租车)意外宣布将在亚马逊平台上销售二手车辆,这一举措被业界视为对现有二手车电商模式的重大冲击。消息一出,市场立刻掀起波澜,投资者普遍担忧亚马逊凭借其庞大的用户基础和物流优...
23:10
2025年8月20日,思摩尔国际正式发布其2025年半年财务报告,数据显示公司在报告期内实现了60.1亿元人民币的营收,同比增长18.3%,展现出稳健的增长态势。然而,利润方面却出现了明显下滑,同比下降30.8%,降至5.01亿元。这一业绩变化背后,主要受到市场竞争日益激烈以及生产成本持续上升的双重压力。随着行业竞争格局的不断演变,思摩尔国际在保持营收增长的...
22:10
2025年8月20日,国家电网有限公司传来振奋人心的消息,宣布宁夏—湖南±800千伏特高压直流输电工程正式投产送电。这一重大工程横跨宁夏与湖南两地,全长超过2000公里,是我国能源基础设施建设史上的又一里程碑。作为提升跨区域电力输送能力的关键项目,该工程不仅实现了电力资源的高效调配,更在技术层面推动了中国特高压输电技术的创新与发展。 此次投产送电的成功,标志...