近日,字节跳动Seed团队与香港大学、复旦大学强强联手,共同研发出突破性的强化学习训练方法——POLARIS。这一创新技术通过精心设计的Scaling RL策略,成功将小模型的数学推理能力提升至与超大模型相媲美的水平,为人工智能领域的小模型优化开辟了全新路径。实验数据有力证明,采用POLARIS训练的40亿参数开源模型Qwen3-4B,在AIME25和AIME24数学测试中分别取得了79.4%和81.2%的卓越准确率,其性能甚至超越了部分更大规模的闭源模型。更为引人注目的是,POLARIS-4B模型凭借其轻量化设计,能够在消费级显卡上轻松部署,极大地降低了人工智能应用的技术门槛。

POLARIS的核心创新在于其独特的训练策略。研究团队通过深入探索发现,通过围绕待训练模型定制训练数据和超参数设置,可以显著提升小模型的数学推理能力。在具体实践中,团队动态调整了训练数据的难度分布,构建了轻微偏向难题的数据集,有效避免了样本难度过于集中的问题。同时,引入了数据动态更新策略,根据模型在训练过程中的表现实时剔除过易样本,确保训练的高效性。在采样控制方面,POLARIS通过精细调控采样温度,实现了模型性能与生成路径多样性的完美平衡。研究发现,采样温度对模型性能和路径多样性具有显著影响,过高或过低的温度均不利于模型训练。因此,团队提出了控制探索区的温度初始化方法,并在训练过程中动态调整采样温度,以保持生成内容的多样性。

针对长上下文训练的挑战,POLARIS引入了创新性的长度外推技术。通过位置编码RoPE的调整,使模型能够处理超出训练时所见的更长序列。这一策略有效补偿了长文本训练中的不足,显著提升了模型在长文本生成任务上的性能。此外,POLARIS还采用了多阶段RL训练方法,早期使用较短的上下文窗口进行训练,待模型表现收敛后再逐渐增加上下文窗口长度。这一策略有助于模型逐步适应更复杂的推理任务,提升了训练的稳定性和效果。

字节跳动开源POLARIS强化学习配方 4B模型数学推理达235B级表现插图

目前,POLARIS的详细训练方法、训练数据、训练代码和实验模型已全部开源,为人工智能研究社区提供了宝贵的资源。研究团队在多个主流推理评测集上验证了POLARIS的有效性,结果显示,不同规模的模型以及不同的模型家族在应用POLARIS训练方法后,模型效果均有显著提升。这一开源举措不仅促进了人工智能技术的交流与合作,也为更多研究者提供了探索小模型优化的新思路。

GitHub 主页: https://github.com/ChenxinAn-fdu/POLARIS
Hugging Face 主页: https://huggingface.co/POLARIS-Project

最新快讯

2025年08月03日

22:00
2025年8月3日,最新网络平台数据显示,2025年暑期档电影总票房(含预售)已强势突破70亿大关。这一亮眼成绩不仅彰显了暑期档电影市场的蓬勃生机,更揭示了观众在假期期间的观影热情持续高涨。随着多部备受期待的影片陆续上映,暑期档电影市场展现出惊人的吸金能力,为整个电影行业注入了强劲动力。
22:00
2025年8月3日,中信建投证券发布了一份深度行业研究报告,对当前新能源领域的多个关键板块进行了全面分析。报告指出,光伏行业正经历产能整合的关键阶段,多晶硅价格在成本支撑下呈现稳定态势,而企业后续盈利能力将高度依赖于控产政策的执行效果。 在风电领域,市场对风机价格改善带来的盈利弹性存在明显低估。报告特别强调,主机环节和海风产业链的盈利空间正在逐步释放,建议投...
22:00
2025年8月1日,铭普光磁正式宣布一项具有战略意义的投资计划,拟以约1.18亿元人民币的现金收购深圳ABB电动交通科技有限公司60%的股权。深圳ABB作为ABB集团的全资子公司,在电动汽车充电桩的研发与生产领域拥有卓越的技术实力和市场声誉。此次交易不仅将显著增强铭普光磁在新能源充电设备领域的竞争力,还将为其开拓海外市场提供强有力的支持。 据悉,深圳ABB不...
22:00
近日,科技界传来振奋人心的消息,马斯克公开表示,他领导的团队有望在3到6个月内实现实时AI视频渲染技术的突破性进展。这一技术的成熟将彻底改变AI在视频处理领域的应用格局,为电影制作、直播、虚拟现实等领域带来革命性变革,有望大幅提升内容创作效率与用户体验。 与此同时,吴声对黑猫投诉平台创新性地运用AI助手完成投诉初审给予了高度评价,称赞其为维护消费者权益、...
22:00
7月以来美元强势反弹,令新兴市场投资者的乐观情绪受到明显冲击,纷纷开始重新评估投资策略。在这一背景下,各大国际金融机构展现出不同的市场判断。普信集团近期发布报告,明确表示更倾向于配置美元计价的新兴市场债券,认为其避险属性凸显。与此同时,巴克莱银行则向客户发出警示,建议谨慎对待做空美元兑亚洲主要货币的交易,指出当前市场环境存在较大不确定性。富达国际也通过分析指...
22:00
2025年8月3日,科技界传来重磅消息,据内部知情人士独家爆料,苹果公司近期秘密组建了一支名为“Answers, Knowledge and Information”(简称AKI)的尖端研发团队,正全力打造一款简化版的ChatGPT竞争产品。这支备受瞩目的团队由前苹果Siri业务负责人罗比·沃克亲自挂帅,肩负着打造新一代“答案引擎”的使命,旨在为用户提供基于...
22:00
2025年8月3日,知名建材企业东方雨虹在一场重要的机构调研活动中,向市场传递了积极的经营信号。公司方面透露,今年上半年其市场份额呈现持续攀升态势,核心产品防水卷材与砂粉等均实现了同比销量增长,展现出强劲的市场需求与良好的发展势头 在产品价格策略方面,东方雨虹透露已与两大重要客户——中国建筑与国民建筑集团达成价格调整协议。双方已陆续发布调价函,并正式从7月份...
22:00
8月3日,Bilibili正式宣布推出自主研发的“AI原声翻译功能”,这一创新举措旨在显著提升海外用户在观看游戏、科技、二次元等核心内容的体验。通过先进的AI技术,该功能能够实时将视频中的语音内容转化为流畅的中文翻译,让中外用户在欣赏视频时获得无缝的本地化感受。这一功能的推出不仅填补了B站国际化内容体验的空白,更为全球用户带来了前所未有的便捷体验。未来,B站...
21:09
本周资本市场调研活动呈现活跃态势,机构共对138家上市公司展开调研,其中德福科技表现尤为抢眼,累计吸引238家机构参与调研,成为本周焦点。此外,仕佳光子、海大集团、顺络电子等企业也备受机构青睐,均获得超过90家机构的关注,显示出较强的市场关注度。 在调研次数方面,因赛集团以4次调研位居榜首,彰显其市场表现备受机构关注。与此同时,威力传动、天龙股份等公司也获得...
21:09
2025年以来,指数基金市场迎来爆发期,多只指数基金收益率突破90%大关,展现出远超主动权益基金的卓越表现。其中,广发香港创新药ETF年内收益高达95%,大幅领先同类型主动管理基金。这一现象揭示了指数基金在特定市场环境下的高效优势,也引发了业界的广泛关注。 指数基金之所以能够脱颖而出,主要得益于其持仓透明、聚焦细分赛道的投资策略。在当前市场波动加剧的背景下,...
21:09
2025年8月3日,一品红医药公司传来振奋人心的消息,其自主研发的创新药——氘泊替诺雷(AR882)在国内开展的Ⅲ期临床试验已成功入组超过50%的受试者。这款备受瞩目的痛风治疗药物,作为强效高选择性尿酸转运蛋白抑制剂,通过精准抑制URAT1蛋白活性,有效促进尿酸的排泄,从而显著降低患者的血清尿酸水平。此次临床试验进展的顺利,不仅彰显了该药物在临床应用中的卓越...
21:09
2025年8月3日,金时科技正式宣布一项重大战略调整——拟公开挂牌转让全资子公司湖南金时100%股权。此举旨在剥离非新能源业务板块,通过优化资源配置进一步提升公司核心竞争力。湖南金时成立于2019年,主营业务涵盖烟标印刷及防伪材料生产等领域。然而近年来,该子公司持续面临经营困境,2024年亏损额高达1458万元,2025年第一季度再度亏损430万元,经营状况...