字节跳动开源POLARIS强化学习配方 4B模型数学推理达235B级表现

2025-07-16 12:33:01 AI动态 82 次阅读

近日，字节跳动Seed团队与香港大学、复旦大学强强联手，共同研发出突破性的强化学习训练方法——POLARIS。这一创新技术通过精心设计的Scaling RL策略，成功将小模型的数学推理能力提升至与超大模型相媲美的水平，为人工智能领域的小模型优化开辟了全新路径。实验数据有力证明，采用POLARIS训练的40亿参数开源模型Qwen3-4B，在AIME25和AIME24数学测试中分别取得了79.4%和81.2%的卓越准确率，其性能甚至超越了部分更大规模的闭源模型。更为引人注目的是，POLARIS-4B模型凭借其轻量化设计，能够在消费级显卡上轻松部署，极大地降低了人工智能应用的技术门槛。

POLARIS的核心创新在于其独特的训练策略。研究团队通过深入探索发现，通过围绕待训练模型定制训练数据和超参数设置，可以显著提升小模型的数学推理能力。在具体实践中，团队动态调整了训练数据的难度分布，构建了轻微偏向难题的数据集，有效避免了样本难度过于集中的问题。同时，引入了数据动态更新策略，根据模型在训练过程中的表现实时剔除过易样本，确保训练的高效性。在采样控制方面，POLARIS通过精细调控采样温度，实现了模型性能与生成路径多样性的完美平衡。研究发现，采样温度对模型性能和路径多样性具有显著影响，过高或过低的温度均不利于模型训练。因此，团队提出了控制探索区的温度初始化方法，并在训练过程中动态调整采样温度，以保持生成内容的多样性。

针对长上下文训练的挑战，POLARIS引入了创新性的长度外推技术。通过位置编码RoPE的调整，使模型能够处理超出训练时所见的更长序列。这一策略有效补偿了长文本训练中的不足，显著提升了模型在长文本生成任务上的性能。此外，POLARIS还采用了多阶段RL训练方法，早期使用较短的上下文窗口进行训练，待模型表现收敛后再逐渐增加上下文窗口长度。这一策略有助于模型逐步适应更复杂的推理任务，提升了训练的稳定性和效果。

目前，POLARIS的详细训练方法、训练数据、训练代码和实验模型已全部开源，为人工智能研究社区提供了宝贵的资源。研究团队在多个主流推理评测集上验证了POLARIS的有效性，结果显示，不同规模的模型以及不同的模型家族在应用POLARIS训练方法后，模型效果均有显著提升。这一开源举措不仅促进了人工智能技术的交流与合作，也为更多研究者提供了探索小模型优化的新思路。

GitHub 主页: https://github.com/ChenxinAn-fdu/POLARIS
Hugging Face 主页: https://huggingface.co/POLARIS-Project

2025年11月28日

02:35

字节跳动开源POLARIS强化学习配方 4B模型数学推理达235B级表现

最新快讯

2025年11月28日

美国阿拉斯加南部6.2级地震实时追踪暂无伤亡报告

SoulApp携AI社交概念申请港交所上市腾讯战略投资

阿维塔科技成功递交港交所IPO申请吸引190亿融资目光

中国气象局将增建19个农业气象试验站提升粮食安全监测能力

鸿蒙星光盛典因香港火灾延期表达哀悼决定推迟活动

Epic本周免费送《出售宇宙》永久入库支持中文探索木星冒险

中国超150家人形机器人企业崛起资本加速涌入产业快速发展

北京将建千兆瓦级太空数据中心分三阶段实现AI算力部署

渝开发2.41亿房产抵债冲抵团购尾款优化资金流

华为云架构升级成立五大产品线强化技术整合

西藏官方辟谣珠峰建电梯传闻珠峰无电梯计划揭露AI造假

逃离塔科夫总监致谢好评玩家 85折促销中承诺持续优化