近日,字节跳动Seed团队与香港大学、复旦大学强强联手,共同研发出突破性的强化学习训练方法——POLARIS。这一创新技术通过精心设计的Scaling RL策略,成功将小模型的数学推理能力提升至与超大模型相媲美的水平,为人工智能领域的小模型优化开辟了全新路径。实验数据有力证明,采用POLARIS训练的40亿参数开源模型Qwen3-4B,在AIME25和AIME24数学测试中分别取得了79.4%和81.2%的卓越准确率,其性能甚至超越了部分更大规模的闭源模型。更为引人注目的是,POLARIS-4B模型凭借其轻量化设计,能够在消费级显卡上轻松部署,极大地降低了人工智能应用的技术门槛。

POLARIS的核心创新在于其独特的训练策略。研究团队通过深入探索发现,通过围绕待训练模型定制训练数据和超参数设置,可以显著提升小模型的数学推理能力。在具体实践中,团队动态调整了训练数据的难度分布,构建了轻微偏向难题的数据集,有效避免了样本难度过于集中的问题。同时,引入了数据动态更新策略,根据模型在训练过程中的表现实时剔除过易样本,确保训练的高效性。在采样控制方面,POLARIS通过精细调控采样温度,实现了模型性能与生成路径多样性的完美平衡。研究发现,采样温度对模型性能和路径多样性具有显著影响,过高或过低的温度均不利于模型训练。因此,团队提出了控制探索区的温度初始化方法,并在训练过程中动态调整采样温度,以保持生成内容的多样性。

针对长上下文训练的挑战,POLARIS引入了创新性的长度外推技术。通过位置编码RoPE的调整,使模型能够处理超出训练时所见的更长序列。这一策略有效补偿了长文本训练中的不足,显著提升了模型在长文本生成任务上的性能。此外,POLARIS还采用了多阶段RL训练方法,早期使用较短的上下文窗口进行训练,待模型表现收敛后再逐渐增加上下文窗口长度。这一策略有助于模型逐步适应更复杂的推理任务,提升了训练的稳定性和效果。

字节跳动开源POLARIS强化学习配方 4B模型数学推理达235B级表现插图

目前,POLARIS的详细训练方法、训练数据、训练代码和实验模型已全部开源,为人工智能研究社区提供了宝贵的资源。研究团队在多个主流推理评测集上验证了POLARIS的有效性,结果显示,不同规模的模型以及不同的模型家族在应用POLARIS训练方法后,模型效果均有显著提升。这一开源举措不仅促进了人工智能技术的交流与合作,也为更多研究者提供了探索小模型优化的新思路。

GitHub 主页: https://github.com/ChenxinAn-fdu/POLARIS
Hugging Face 主页: https://huggingface.co/POLARIS-Project

最新快讯

2025年08月03日

08:48
2025年8月3日,中央气象台紧急发布暴雨蓝色预警,提醒公众密切关注天气变化。根据最新气象预报,预计从今日08时至明日08时,福建、广西、广东沿海地区将迎来大暴雨袭击。此次降雨过程强度较大,局部地区雨势尤为猛烈,需高度警惕。 具体来看,福建东南部、广西东部以及广东中部和东南部沿海地区将成为降雨重灾区。预计这些区域的降雨量将达到100至180毫米,部分站点可能...
08:47
近日,AMD董事长苏姿丰在一段公开发布的视频中,深入剖析了企业在全球半导体市场的竞争策略与未来布局。她以清晰的逻辑和前瞻性的视角,阐述了AMD在激烈行业竞争中取得成功的关键要素。苏姿丰强调,在资源有限的商业环境中,精准选择战略战场并集中优势资源,是决定企业能否实现可持续发展的核心命题。 苏姿丰特别指出,AMD之所以能在高性能计算领域占据行业领先地位,关键在于...
08:47
8月3日,广西防城港市官方发布通报,披露一起因女司机亮证逼迫让路引发的交通事件。事件发生于7月31日,当时一段视频在网络上迅速传播,画面显示一辆奔驰车在会车时突然亮出执法证件,要求对方车辆主动避让。这一行为立即引发社会广泛关注和热议。 经调查核实,涉事女司机侯某某今年28岁,目前就职于某民营企业,并非公职人员。调查结果显示,侯某某亮证的行为纯粹是为了恐吓对方...
08:47
2025年7月30日,德福科技(301511)迎来了一周内规模最大的机构调研热潮,共有144家机构参与,显示出市场对该公司的浓厚兴趣。这家企业正计划以1.74亿欧元的价格收购卢森堡铜箔100%股权,后者作为全球领先的非日系高端IT铜箔生产商,其技术实力和市场地位将为德福科技带来显著提升。通过此次战略收购,德福科技的电解铜箔产能将实现跨越式增长,稳居世界第一的...
08:47
8月3日,扬杰科技在官方互动平台发布重要消息,宣布其最新研发的产品具备广泛的应用潜力,特别是在AR眼镜等前沿科技产品领域展现出卓越的适配性。该产品凭借其紧凑的物理尺寸和高效的性能表现,完美契合了当前紧凑型数码产品的市场需求,为用户带来更轻便、更智能的使用体验。据悉,扬杰科技已前瞻性地在多个相关应用场景启动了产品的研发与市场布局工作,旨在抢占新兴科技市场的先机...
08:15
2025年8月3日,OpenAI首席执行官Sam Altman向全球宣布了一项令人瞩目的计划,即在接下来的几个月内推出一系列具有革命性意义的新产品与模型。据透露,这些新模型可能涵盖开源模型和备受期待的GPT-5,而新产品则可能包括Sora 2的升级版以及GPT-4o的图像更新。这一系列创新举措的推出,旨在进一步拓展AI技术的应用边界,为各行各业带来更多可能性...
08:15
8月3日,猫眼专业版最新数据显示,动画电影《浪浪山小妖怪》自上映以来表现亮眼,仅用两天时间便斩获8000万元票房佳绩。这部由知名团队打造的奇幻喜剧作品,凭借其精良的制作水准和别具一格的故事情节,迅速成为暑期档备受瞩目的新宠。影片以小妖怪的视角展开,通过幽默诙谐的叙事手法,巧妙融合了东方奇幻元素与轻松喜剧风格,为观众带来耳目一新的观影体验。业内人士指出,《浪浪...
08:15
今日,我国自主研发的吨级以上电动垂直起降航空器“凯瑞鸥”在低空物流领域再创佳绩,成功完成了从深圳陆地起降点到150公里外海上油气平台的物资运输任务,整个飞行过程历时58分钟。这一壮举不仅彰显了我国航空技术的卓越实力,更标志着我国在海陆低空物流应用领域取得了关键性突破。 此次飞行任务由国内企业自主研发并执行,运送的物资包括新鲜水果和紧急药品,充分展现了我国在应...
08:15
8月3日,猫眼专业版最新数据显示,电影《南京照相馆》上映仅10天便创下总票房突破13亿元的成绩,成为暑期档的一大惊喜。这部以南京为故事背景的影片,通过讲述一家照相馆在时代变迁中的兴衰历程,触动了观众内心深处的情感共鸣。影片凭借其精良的制作水准和真挚的情感表达,成功吸引了大量观众走进影院,最终逆袭成为暑期档的票房黑马。
07:35
8月1日,香港高等法院作出一项备受关注的裁决,裁定冻结宗庆后家族信托相关账户资产,并要求宗馥莉方面披露相关账户信息。这一决定虽然引发了广泛关注,但法律界普遍认为其仅为协助杭州法院诉讼程序的一部分,并未触及案件实体问题。多位资深法律人士指出,现阶段讨论"输赢"还为时过早,真正的胜负取决于杭州法院的最终判决。 据悉,宗庆后生前曾计划为三个子女分别设立三个离岸信托...
05:11
8月3日凌晨1时58分,墨西哥中部地区突发5.8级地震,震中位于北纬17.45度、西经96.05度,震源深度达70公里。根据最新地质监测数据,此次地震属于中等强度震级,虽然威力不容小觑,但幸运的是目前尚未发布海啸预警,这为灾后救援和民众安全提供了宝贵时间窗口。此次地震发生在墨西哥地震活动频繁的区域,地质构造复杂,但具体影响范围及伤亡情况仍需进一步核实。相关部...
02:33
2025年8月3日,伯克希尔哈撒韦公司正式发布其第二季度财务报告,数据显示公司运营利润较去年同期下降3.8%,降至111.6亿美元。这一业绩表现不仅反映出市场环境的微妙变化,更令人关注的是,公司现金储备已锐减至3440亿美元,创下三年来的首次下滑,凸显出当前资本市场的波动性挑战。 在投资组合方面,伯克希尔同时披露了对卡夫亨氏股份的减值处理,计提38亿美元...