
摩尔线程的 AI 研究团队近日在国际顶级学术会议 AAAI2026 上重磅发布了其最新研究成果——URPO(统一奖励与策略优化)框架。这一创新技术致力于革新大语言模型的训练范式,突破现有性能瓶颈,为人工智能领域开辟全新的技术路径。在题为《URPO:A Unified Reward & Policy Optimization Framework for Large Language Models》的论文中,研究团队对传统的“大模型训练”方法进行了颠覆性重塑。
URPO 框架的核心突破在于独创性地将“指令遵循”与“奖励评判”两种功能整合于单一模型中,实现训练阶段的同步优化。这种设计使模型不仅能精准理解指令,还能自主进行效果评分,从而显著提升训练效率与成果质量。这一创新理念彻底改变了以往需要分离训练与评估步骤的传统模式,为复杂语言模型的开发带来了革命性进步。
URPO 框架通过三大关键技术突破当前训练难题。首先是数据格式统一化处理,研究团队成功将偏好数据、可验证推理数据及开放式指令数据等异构信息转化为标准化的统一信号格式,为后续训练奠定坚实基础。其次是自我奖励循环机制,模型在生成多个候选回答后可自主评分,将评分结果作为强化学习训练的奖励信号,形成高效的自我迭代优化闭环。最后是协同进化机制,通过混合处理三类数据,实现模型生成能力与评判能力的双向同步提升。

实验验证显示,基于 Qwen2.5-7B 模型的 URPO 框架在多项关键指标上全面超越传统基线。在权威的 AlpacaEval 指令跟随榜单上,该框架得分高达44.84,较传统方法提升显著;综合推理能力测试的平均分也从32.66提升至35.66。更值得注意的是,在业界公认的 RewardBench 奖励模型评测中,URPO 框架以85.15的高分表现,反超专用奖励模型的83.55分,充分印证了其技术优越性。
这一突破性成果已成功在摩尔线程自主研发的计算卡上实现高效部署,并与主流强化学习框架 VERL 完成深度适配。这一实践验证不仅彰显了摩尔线程在大模型训练领域的领先技术实力,更为未来人工智能的发展指明了重要方向,有望推动大语言模型训练进入更加智能高效的全新时代。
