近日,字节跳动Seed团队与香港大学、复旦大学强强联手,共同研发出突破性的强化学习训练方法——POLARIS。这一创新技术通过精心设计的Scaling RL策略,成功将小模型的数学推理能力提升至与超大模型相媲美的水平,为人工智能领域的小模型优化开辟了全新路径。实验数据有力证明,采用POLARIS训练的40亿参数开源模型Qwen3-4B,在AIME25和AIME24数学测试中分别取得了79.4%和81.2%的卓越准确率,其性能甚至超越了部分更大规模的闭源模型。更为引人注目的是,POLARIS-4B模型凭借其轻量化设计,能够在消费级显卡上轻松部署,极大地降低了人工智能应用的技术门槛。

POLARIS的核心创新在于其独特的训练策略。研究团队通过深入探索发现,通过围绕待训练模型定制训练数据和超参数设置,可以显著提升小模型的数学推理能力。在具体实践中,团队动态调整了训练数据的难度分布,构建了轻微偏向难题的数据集,有效避免了样本难度过于集中的问题。同时,引入了数据动态更新策略,根据模型在训练过程中的表现实时剔除过易样本,确保训练的高效性。在采样控制方面,POLARIS通过精细调控采样温度,实现了模型性能与生成路径多样性的完美平衡。研究发现,采样温度对模型性能和路径多样性具有显著影响,过高或过低的温度均不利于模型训练。因此,团队提出了控制探索区的温度初始化方法,并在训练过程中动态调整采样温度,以保持生成内容的多样性。

针对长上下文训练的挑战,POLARIS引入了创新性的长度外推技术。通过位置编码RoPE的调整,使模型能够处理超出训练时所见的更长序列。这一策略有效补偿了长文本训练中的不足,显著提升了模型在长文本生成任务上的性能。此外,POLARIS还采用了多阶段RL训练方法,早期使用较短的上下文窗口进行训练,待模型表现收敛后再逐渐增加上下文窗口长度。这一策略有助于模型逐步适应更复杂的推理任务,提升了训练的稳定性和效果。

字节跳动开源POLARIS强化学习配方 4B模型数学推理达235B级表现插图

目前,POLARIS的详细训练方法、训练数据、训练代码和实验模型已全部开源,为人工智能研究社区提供了宝贵的资源。研究团队在多个主流推理评测集上验证了POLARIS的有效性,结果显示,不同规模的模型以及不同的模型家族在应用POLARIS训练方法后,模型效果均有显著提升。这一开源举措不仅促进了人工智能技术的交流与合作,也为更多研究者提供了探索小模型优化的新思路。

GitHub 主页: https://github.com/ChenxinAn-fdu/POLARIS
Hugging Face 主页: https://huggingface.co/POLARIS-Project

最新快讯

2026年01月13日

14:22
2026年1月12日,教育部正式发布《关于拟同意设置本科高等学校的公示》,宣布拟同意设立包括黑龙江农业工程职业技术大学在内的14所本科高等学校。这一重要决策经过教育部党组会议审议通过,现面向社会公示,公示期为5天,具体时间从2026年1月12日至1月16日。此次公示旨在广泛征求社会各界意见,确保新设高校的办学方向与国家高等教育发展战略高度契合。 设立新校是教...
14:22
2026年1月13日,四川省正式发布《“十五五”基础测绘规划(征求意见稿)》,这一规划旨在通过一系列创新举措,全面提升四川省的测绘地理信息服务能力。规划的核心内容聚焦于北斗卫星导航定位基准站的优化升级,计划通过加密布设和科学布局,显著增强定位精度与服务覆盖范围,为各类应用场景提供更精准、更可靠的空间信息支持。 在基础设施层面,规划明确提出要推动北斗四川分中心...
14:22
2026年1月9日,深圳职业技术大学与优必选公司正式签署合作协议,共同打造全国首个以"具身智能"命名的职业本科产业学院。这一创新举措标志着中国职业教育领域在智能制造与人工智能方向上迈出了重要一步,为培养具备前沿科技素养的高素质技术技能人才开辟了新路径。 该产业学院将重点建设四大核心平台:智能机器人技术研发平台、产教融合实训平台、科技成果转化平台以及产业人才培...
14:22
2025年,一项由来自中国、美国和欧洲的50余位顶尖科学家共同参与的研究成果震撼发布,揭示全球海洋吸热量已突破历史最高值,连续第八年创下新纪录。这项权威研究明确指出,海洋作为地球气候系统的关键调节器,默默吸收了人类活动产生的超过90%多余热量。数据显示,仅2025年一年,海洋额外吸收的热量就高达23泽塔焦耳,这一数值远超2024年的16泽塔焦耳,增幅显著。为...
14:22
2026年1月,金顺坤精工成功斩获2000万元天使轮融资,这一里程碑事件标志着这家高新技术企业正式迈入资本加速发展的新纪元。本轮融资所获资金将全面赋能企业战略布局,重点投向新能源产品线产能的规模化扩张、智能化生产体系的深度升级以及海外市场的开拓与渗透。作为一家深耕精密钣金制造与系统集成服务的高新技术企业,金顺坤精工凭借卓越的技术实力和创新能力,已构建起完善的...
14:22
2025年底,中国科学院合肥物质科学研究院赵邦传团队在钠离子电池正极材料研究领域取得突破性进展。该团队通过创新性地采用"键结构调控+界面修饰"的复合改性策略,成功提升了磷酸钒锰钠(NMVP)材料的综合性能。这一研究成果为下一代高性能钠离子电池的开发奠定了坚实基础。 研究团队重点优化了材料的晶体结构,通过Mo6+掺杂技术显著增强了Mn-O键的稳定性,有效改善了...
14:22
2026年1月12日,备受瞩目的CES 2026展会正式拉开帷幕,全球领先的金属3D打印技术企业MetalPrinting公司在此期间重磅发布了其最新力作——桌面级金属3D打印机Gauss MT90。这款创新设备凭借其独特的"浆料金属挤压(PME)"技术,彻底颠覆了传统金属打印的局限性,为用户带来前所未有的打印体验。 Gauss MT90采用突破性的浆料金属...
14:21
1月13日,A股市场迎来AI应用板块的强劲表现,其中生成式引擎优化(GEO)概念股再度掀起涨停热潮。随着市场对该领域的关注度持续升温,多只相关股票上演涨停盛宴,其中天龙集团强势涨停,易点天下和中文在线涨幅均超过10%。浙文互联、引力传媒、利欧股份等公司也纷纷涨停,展现出GEO概念股的蓬勃生机。 GEO作为一套针对生成式AI内容分发和推荐机制进行优化的营销策略...
14:21
在2025年DoNews年度评选中,魅族科技凭借其在智能硬件领域的卓越创新,荣获两项“灵锋奖·优秀产品奖”,分别是旗舰手机魅族22和全新智能穿戴设备StarV Snap AI拍摄眼镜。这两款产品均代表了魅族在科技领域的领先地位,尤其是StarV Snap AI拍摄眼镜,作为魅族在AI+可穿戴赛道的力作,凭借其全天候可用性、轻量化设计和深度语音交互体验,成为行...
13:54
近年来,曾经被视为“古早”声音媒介的播客,在年轻群体中掀起了一股强劲的浪潮,迅速圈粉上亿,成为他们成长道路上不可或缺的“精神伙伴”。从时事政治到生活日常,从知识分享到情绪倾诉,播客以声音为桥梁,巧妙地串联起青年群体的多重需求。播客的爆火,本质上反映了现代人内心深处对“慢生活”的渴望。在短视频占据碎片时间、算法主导内容推送的当下,人与人之间的真实交流逐渐被削弱...
13:54
在《哈利·波特》系列电影中,哈利·波特那只拥有雪白羽毛的信使“海德薇”给无数观众留下了难以磨灭的印象。这只优雅的信鸽的原型,正是生活在地球极地的雪鸮。雪鸮作为大型猫头鹰的一种,以其独特的魅力征服了人们。成年雪鸮的羽毛以雪白色为主,但性别之间存在明显差异。雄性雪鸮的羽毛更为纯白,如同冰雪一般耀眼,而雌性则常见暗色横斑,增添了几分神秘感。它们金黄色的虹膜在黑暗中...
12:21
微新创想1月13日讯 根据权威媒体报道,国际金价在过去两年间经历了史诗级飙升。从2024年初的每盎司2004美元起步,金价一路高歌猛进,至2025年12月更是创下4584美元的历史天价,累计涨幅惊人。然而,在这波金价狂潮中,普通消费者却可能面临一场精心策划的骗局。 去年11月,杨女士带着一枚某知名品牌的黄金手镯走进一家黄金回收店询价。店主接过手镯后,以检验...