
随着人工智能技术的飞速发展,如何赋予大模型“并行思维”能力已成为学术界的研究热点。近日,腾讯AI Lab联合多所高校的研究团队推出了一款名为Parallel-R1的创新强化学习框架,旨在教会大模型如何同时探索多条推理路径。这一突破性框架为解决复杂的数学推理任务提供了全新思路。

传统方法主要依赖监督微调(SFT),但这种方式存在两大局限:一是对数据质量要求极高,二是模型往往只能模仿已有数据,缺乏自主学习和泛化能力。为突破这些瓶颈,Parallel-R1框架应运而生。研究团队发现,通过简单的提示,模型在处理简单数学题时能够生成高质量的并行思维数据。在此基础上,他们设计了一套“渐进式课程”训练模式:模型先从简单任务入手学习并行思维的“语法格式”,再逐步过渡到更复杂的数学问题进行强化学习。
在奖励设计方面,团队创新性地提出交替式奖励策略,巧妙平衡了“解题准确率”和“思维多样性”。具体而言,模型在训练过程中大部分时间以“准确率奖励”为主,少部分时间则给予并行思维使用的额外奖励。这种策略显著提升了模型的并行思维使用率,最终在多个数学基准测试中取得突破性成果。实验数据显示,Parallel-R1框架使模型在多个数学基准上平均准确率提升高达8.4%,在AIME25测试中更是实现了42.9%的性能飞跃。

研究者们观察到,经过训练后,模型的思维策略会经历从“广撒网”式探索到“精准验证”的演变过程,充分展现了并行思维带来的优势。Parallel-R1的成功不仅为大模型的推理能力开辟了新方向,更为未来AI研究提供了重要启示,彰显了并行思维在解决复杂任务中的巨大潜力。这一创新框架有望推动人工智能在更多领域实现突破性进展。
