快手Klear-Reasoner模型数学推理破90%成8B模型领头羊

在大语言模型的激烈竞争中,数学推理能力已成为衡量模型优劣的关键指标。近日,快手科技推出了一款名为 Klear-Reasoner 的创新模型,该模型基于 Qwen3-8B-Base 架构打造,在多项权威基准测试中表现卓越,其数学推理准确率更是高达90%以上,一跃成为同规模模型中的佼佼者。这一突破性成果的背后,是 Klear-Reasoner 采用的 GPPO(Gradient-Preserving Clipping Policy Optimization)算法的巧妙设计。

GPPO 算法在确保训练过程稳定性的同时,显著增强了模型的探索能力。传统的裁剪策略虽然能有效控制模型更新幅度,防止训练过程中的剧烈波动,但往往会导致模型因”丢弃重要信息”而变得过于保守。GPPO 则以创新的方式,让所有梯度参与反向传播过程,既保留了模型探索新知识的机会,又大幅提升了模型对错误的修正效率。这种”温和”而高效的优化策略,为 Klear-Reasoner 的卓越表现奠定了坚实基础。

在各类基准测试中,Klear-Reasoner 均展现出超越同规模开源模型的强劲实力。特别是在 AIME2024 测试中,该模型以90.5%的优异成绩领跑全场;在 AIME2025 测试中同样表现不俗,取得了83.2%的卓越成绩。这些亮眼表现充分证明了 Klear-Reasoner 在数学推理领域的领先地位。

Klear 团队还详细分享了模型的训练秘诀,包括对数据质量的严格把控、在高难样本中保留错误策略的创新应用、以及使用软奖励机制提升学习效率等关键环节。其中,团队特别强调优质数据源的质量远比数量更重要。在监督微调(SFT)阶段,通过精准过滤错误数据并集中训练高质量样本,可以显著提升模型的训练效率。此外,团队发现软奖励策略在强化学习阶段比硬奖励机制更为有效,能够有效增强模型的学习稳定性。

快手Klear-Reasoner模型数学推理破90%成8B模型领头羊插图1

Klear-Reasoner 的成功发布不仅彰显了快手科技在人工智能领域的深厚技术积累,更为推理模型的训练提供了一条可复现的优化路径。这一突破性成果为未来相关领域的研究和开发提供了宝贵的经验和启示,必将推动大语言模型在数学推理能力上迈上新台阶。

Klear-Reasoner 模型已在 Hugging Face 平台上线,用户可通过以下链接获取
https://huggingface.co/Suu/Klear-Reasoner-8B

完整代码及项目文档也已托管在 GitHub
https://github.com/suu990901/KlearReasoner/tree/main

🌟 Klear-Reasoner 模型在数学推理准确率上突破90%,成为8B模型中的领军者
🧠 GPPO 算法提升了模型的探索能力,解决了传统裁剪策略的隐性问题
📈 关注数据质量和训练策略,Klear 团队的研究为推理模型提供了有效的训练方法

最新快讯

2025年08月20日

18:43
微新创想8月20日讯 OpenAI首席执行官萨姆奥尔特曼近日在一场深度访谈中,首次公开分享了下一代大型语言模型GPT-6的突破性进展。这位人工智能领域的领军人物透露,GPT-6的研发工作正按计划稳步推进,其推出周期将比GPT-4到GPT-5的升级速度更快,预计将大幅缩短技术迭代时间。 奥尔特曼特别强调GPT-6将实现根本性转变——不再局限于传统的问答模式,而...
18:43
百度近日发布了2025年第二季度的财务报告,数据显示公司总营收达到327亿元人民币,其中百度核心业务营收为263亿元。这一成绩令人瞩目,更值得关注的是,百度AI新业务收入首次突破百亿元大关,同比增长高达34%,成为推动公司业绩增长的关键动力。这一显著增长充分展现了百度在人工智能领域的深厚积累和持续创新能力,AI技术已全面赋能公司核心业务,为用户带来更优质的体...
18:43
在最新一次备受瞩目的专访中,OpenAI 首席执行官萨姆・奥尔特曼(Sam Altman)向外界透露了关于下一代人工智能模型 GPT-6 的重大进展。这位科技界领军人物透露,GPT-6 的研发工作正以惊人的速度推进,其发布周期预计将比前一代的 GPT-5 更加迅速。这一显著加速的开发进程,不仅彰显了 OpenAI 在人工智能领域的雄心壮志,更体现了其致力于满...
18:43
百度公司近日发布的2025年第二季度财报,再次印证了其在激烈市场竞争中的卓越表现。财报显示,百度总营收高达327亿元人民币,其中核心业务收入稳定在263亿元,这一亮眼数据充分展现了百度在动态变化的市场环境中依然保持着稳健的增长态势。 尤为引人注目的是百度AI新业务的迅猛发展,本季度收入首次突破100亿元大关,较去年同期实现34%的显著增长。这一成绩不仅彰显了...
18:43
近年来,视频生成技术发展迅猛,尤其在短视频创作领域取得了突破性进展。然而,如何制作出超过一分钟且风格统一的高质量超长视频,始终是一个亟待解决的难题。针对这一挑战,上海人工智能实验室联合南京大学、复旦大学、南洋理工大学 S-Lab 以及英伟达等顶尖机构,共同研发了 LongVie 框架,为超长视频生成领域带来了革命性突破。LongVie 的核心目标在于提升超长...
18:43
2025年8月20日,资本市场资金流向呈现明显分化态势。数据显示,主力资金今日积极涌入食品饮料、光学光电子及半导体板块,展现出较强的配置意愿。与此同时,计算机、医药、非银金融板块则遭遇资金净流出,其中计算机板块压力尤为突出,净流出规模超过130亿元,反映出市场对该板块短期走势的担忧情绪。 从个股层面来看,资金博弈激烈程度显著。浪潮信息凭借强劲上涨动能强势涨停...
18:43
今日12时,上海中心气象台正式将高温黄色预警升级为橙色预警,标志着本市已进入严峻的高温时段。据最新气象数据预测,闵行、中心城区、嘉定、宝山、浦东、松江、青浦等主要区域最高气温将突破37℃,局部地区甚至可能达到38℃以上,持续的高温天气给市民生活带来严峻挑战。 此次极端高温天气不仅对城市运行造成压力,更可能对工农业生产及居民健康产生显著不利影响。农作物生长可能...
18:43
2025年,领益智造成功跻身AMD核心供应商行列,并持续深化在液冷散热与机器人领域的战略布局。作为散热模组领域的领军企业,公司已具备空冷及液冷散热模组的规模化生产能力,其推出的革命性散热模组BigMAC凭借卓越性能,已广泛应用于AI服务器等前沿领域,成为行业标杆产品。 在机器人领域,领益智造与智元机器人达成深度合作,通过ODM模式共同打造人形机器人整机组...
18:43
2025年8月,世运电路在一场重要的机构调研中重磅宣布,公司已成功斩获欧洲AI超算客户项目定点订单,并顺利实现批量交付。这一里程碑事件不仅彰显了世运电路在AI服务器用线路板领域的卓越技术实力,更凸显了其在全球市场中的领先地位。据悉,公司已具备28层AI服务器用线路板的量产能力,能够全面覆盖当前主流AI服务器PCB工艺需求,为全球AI算力发展提供坚实支撑。 值...
18:43
财联社8月19日快讯,纳斯达克上市公司SharpLink Gaming近日公布重要动态,该公司上周积极增持以太坊,成交数量高达14.36万枚,平均购买成本为4648美元。截至8月17日收盘,SharpLink Gaming的以太坊总持仓量已成功突破74万枚,达到74.08万枚的里程碑水平。 自2025年6月2日正式推出以太坊财库战略以来,SharpLink ...
18:43
2025年8月20日,备受瞩目的新藏铁路勘察设计可行性研究评审工作正按计划稳步推进。此次评审的核心目标在于通过科学论证,合理控制工程投资规模,同时确保设计方案能够充分满足高原高寒地区铁路建设的特殊技术要求。作为我国海拔最高、气候条件最为严酷的铁路项目之一,新藏铁路的建设不仅需要攻克冻土施工、高寒环境适应性等一系列世界级难题,更对投资控制提出了极高要求。专家表...
18:43
8月20日午盘时段,A股市场涨停板行情再度上演,全天共有53只个股强势涨停,其中连板股达到11只,展现出市场资金对部分板块的持续追捧。然而,并非所有涨停股都能成功封板,有21股在涨停板上遭遇抛压,最终未能封住,封板率仅为72%,反映出市场情绪的波动性。 在涨停股中,消费电子板块表现尤为亮眼,科森科技强势实现4连板,成为板块内最耀眼的明星。与此同时,园林股份也...