摩尔线程URPO框架亮相AAAI2026,革新大模型训练新路径

摩尔线程的 AI 研究团队近日在国际顶级学术会议 AAAI2026 上重磅发布了其最新研究成果——URPO(统一奖励与策略优化)框架。这一创新技术致力于革新大语言模型的训练范式,突破现有性能瓶颈,为人工智能领域开辟全新的技术路径。在题为《URPO:A Unified Reward & Policy Optimization Framework for Large Language Models》的论文中,研究团队对传统的“大模型训练”方法进行了颠覆性重塑。

URPO 框架的核心突破在于独创性地将“指令遵循”与“奖励评判”两种功能整合于单一模型中,实现训练阶段的同步优化。这种设计使模型不仅能精准理解指令,还能自主进行效果评分,从而显著提升训练效率与成果质量。这一创新理念彻底改变了以往需要分离训练与评估步骤的传统模式,为复杂语言模型的开发带来了革命性进步。

URPO 框架通过三大关键技术突破当前训练难题。首先是数据格式统一化处理,研究团队成功将偏好数据、可验证推理数据及开放式指令数据等异构信息转化为标准化的统一信号格式,为后续训练奠定坚实基础。其次是自我奖励循环机制,模型在生成多个候选回答后可自主评分,将评分结果作为强化学习训练的奖励信号,形成高效的自我迭代优化闭环。最后是协同进化机制,通过混合处理三类数据,实现模型生成能力与评判能力的双向同步提升。

摩尔线程URPO框架亮相AAAI2026,革新大模型训练新路径插图1

实验验证显示,基于 Qwen2.5-7B 模型的 URPO 框架在多项关键指标上全面超越传统基线。在权威的 AlpacaEval 指令跟随榜单上,该框架得分高达44.84,较传统方法提升显著;综合推理能力测试的平均分也从32.66提升至35.66。更值得注意的是,在业界公认的 RewardBench 奖励模型评测中,URPO 框架以85.15的高分表现,反超专用奖励模型的83.55分,充分印证了其技术优越性。

这一突破性成果已成功在摩尔线程自主研发的计算卡上实现高效部署,并与主流强化学习框架 VERL 完成深度适配。这一实践验证不仅彰显了摩尔线程在大模型训练领域的领先技术实力,更为未来人工智能的发展指明了重要方向,有望推动大语言模型训练进入更加智能高效的全新时代。

最新快讯

2025年11月14日

11:54
微软首席执行官萨提亚・纳德拉近期在一场重要对话中,就微软在人工智能(AI)和云计算领域的战略布局,与竞争对手甲骨文(Oracle)形成了鲜明对比。纳德拉明确指出,微软不会选择通过向少数大型AI客户输送低利润云计算服务来获取短期收益。相反,公司更倾向于构建一个能够服务广大用户的生态系统,实现长期可持续发展。 纳德拉特别提到,甲骨文计划通过低利润的托管交易,在2...
11:54
飞利浦正将人工智能(AI)素养打造为公司范围内的核心能力,以此驱动医疗创新并优化患者服务体验。作为在个人健康、诊断、影像引导治疗及患者监测领域深耕的企业,飞利浦早已将专业的AI与机器学习系统融入产品研发,但当前的战略重心已转向让全体员工而非仅限专业团队掌握并自信运用AI技术。飞利浦的数据科学与AI工程负责人帕特里克・曼斯指出,公司正通过系统性举措全面提升员工...
11:54
OpenAI 今日正式宣布,将在韩国、新西兰等部分市场率先开启 ChatGPT 群聊功能的试点计划——这标志着 ChatGPT 首次支持多人实时互动的新形态对话体验。该功能基于昨日发布的 GPT-5.1 模型构建,为用户带来前所未有的协作交流新方式。 与传统对话模式存在显著差异的是,群聊功能允许用户在共享空间中自由交流。系统仅会在 ChatGPT 实际回应时...
11:54
微软近日正式宣布将在葡萄牙投入高达100亿美元巨资,用于建设一个人工智能数据中心,这一战略举措正值欧洲AI基础设施竞争日趋激烈的背景下。就在谷歌宣布在德国追加64亿美元投资的同周,微软也同步公布了其在葡萄牙的宏伟计划。该数据中心选址于距离首都里斯本约160公里的海滨城市锡尼什,这一决定不仅标志着微软在葡萄牙的最大规模投资,更代表着欧洲AI计算能力领域的一项重...
11:48
2025年11月14日,国家统计局新闻发言人付凌晖在国新办发布会上重磅发布,我国居民消费正经历深刻转型,服务消费已成为经济增长的核心引擎。受国庆中秋双节消费热潮的强力驱动,10月份服务消费展现出强劲的增长势头,整体增速较前9个月提升了0.1个百分点,更显著地超越了商品零售额增速0.9个百分点,凸显了服务消费的崛起态势。 在各类服务消费中,文化旅游、信息服务以...
11:48
宝马集团正加速推进其新世代车型的全球测试工作,展现出品牌在电动化转型与智能化升级方面的坚定步伐。国产版新世代BMW iX3作为重要测试载体,目前已率先在传奇的纽博格林北环赛道完成动态调校,以严苛的赛道测试验证其操控性能与机械素质。与此同时,超过300台测试车已在中国各地展开密集的整车测试,覆盖不同气候条件和道路环境,确保车辆在全球范围内的可靠性与适应性。 华...
11:48
银昕官网近日重磅推出专为4U服务器及工作站量身打造的XED120S风冷散热器,凭借其卓越性能与广泛兼容性,迅速成为业界关注焦点。该产品全面支持英特尔LGA1851/1700与AMD AM5/AM4四大主流平台,为不同架构的用户提供理想散热解决方案。 XED120S采用创新的双塔单风扇结构设计,巧妙整合6根6mm高密度热管与精密集成底座,确保热量能够高效传导至...
11:48
青虹激光近日传来振奋人心的消息,成功完成近亿元B轮融资,其中中车资本作为领投方,联合多家知名机构共同参与投资。作为国内激光精密加工装备领域的领军企业,青虹激光始终致力于高端自动化装备系统的研发、生产与销售,通过提供全方位的精密制造解决方案和服务,持续引领行业技术革新。此次融资的落地,将为青虹激光注入强劲动力,加速其在核心技术研发、产能扩张及市场布局方面的战略...
11:48
2025世界中文大会于11月14日在北京隆重开幕,这场盛会聚焦国际中文教育的数智化创新,集中展示了多项突破性成果。大会亮点纷呈,其中最引人注目的是全新推出的国际中文教育知识图谱。该图谱构建了一个包含超38万语言节点、100万语义关系的复杂多维网络,系统性地涵盖了汉字、词汇、语法等16类核心实体,为中文学习者构建了一个立体化的知识体系。 在语料库建设方面,大会...
11:48
宾利欧陆Supersports震撼回归,以657马力V8发动机和后驱布局重新定义极致驾驶乐趣。这款代号"Project Mildred"的限量版旗舰车型,被品牌誉为"史上最具驾驶乐趣"的杰作。新车预计明年3月正式上市,全球限量500台,售价约40万英镑,堪称收藏家梦寐以求的珍品。 作为宾利自1940年Mark V以来最轻盈的车型,Supersports通过一...
11:48
11月13日,美国股市遭遇剧烈震荡,三大指数全线暴跌,市场情绪跌入冰点。标准普尔500指数重挫1.5%,创下近一个月来最大单日跌幅,道琼斯工业平均指数下跌565点,纳斯达克综合指数更是重挫2.4%。在板块方面,人工智能概念股成为重灾区,英伟达股价暴跌4.7%,成为拖累市场的主要力量,超微电脑、Palantir、博通等AI龙头股也纷纷显著回调。 市场普遍担忧A...
11:48
移远通信近日重磅推出OpenVending AI智能无人零售解决方案,精准聚焦行业长期面临的运营成本高企、用户体验参差不齐等核心痛点。该方案以"端侧AI"技术为核心驱动力,创新性地集成了AI算力模组与本地化AI模型,彻底颠覆传统云端依赖模式。通过采用软硬件一次性买断的商业模式,用户可彻底摆脱传统云端按调用次数或流量计费的束缚,实现长期运营成本的大幅降低。 由...