Mira Murati新作在线策略蒸馏 8B模型性能达32B七成成本降90%

算力成本成为大模型军备竞赛的沉重枷锁,前OpenAI首席技术官Mira Murati领衔的Thinking Machines Lab却带来了破局之道——一项名为“在线策略蒸馏”(On-Policy Distillation)的革命性技术,为整个AI行业注入了全新活力。最新研究成果揭示:仅需80亿参数的小模型,通过该方法训练后,性能竟能达到32B大模型的70%,而训练成本锐减90%,效率却飙升50至100倍。这一突破意味着,中小企业乃至个人开发者,都将有机会以极低成本打造出媲美科技巨头的专用AI。

50-100倍效率飞跃:150步超越1.8万GPU小时传统强化学习(RL)的训练过程往往伴随着数万步迭代和惊人的算力消耗。以数学推理任务AIME’24为例,纯RL方法需要耗费17,920个GPU小时,准确率却仅停留在68%;而采用在线策略蒸馏的Qwen3-8B模型,仅通过150步训练即可实现70%的准确率,计算开销几乎可以忽略不计。其核心奥秘在于“每token密集反馈”机制:不同于RL仅在回合结束给予稀疏奖励,在线蒸馏让教师模型对学生生成的每一个token实时评分,提供连续、精准的指导信号。这种实时反馈机制不仅大幅加速了模型收敛,更有效防止了长序列训练中的“策略漂移”,确保小模型在有限资源下依然能够稳定输出高质量结果。

破解“灾难性遗忘”:学新知识而不忘旧本领AI模型在注入新知识时常常出现“灾难性遗忘”现象——实验数据显示,某模型在经过内部文档微调后,指令遵循能力从85%急剧下跌至45%。而在线策略蒸馏通过实时轨迹采样结合教师模型逐步校正,能够在保留41%新知识的同时,将原有能力迅速恢复至83%,这一效果远超传统微调或离线蒸馏技术。这一特性使其在企业应用场景中展现出巨大潜力:模型可以动态学习最新的业务规则和产品文档,同时又不丢失基础对话、工具调用等核心能力,真正实现了“持续进化”的智能体。

Mira Murati新作在线策略蒸馏 8B模型性能达32B七成成本降90%插图1

四步闭环:简洁架构,普惠落地该方法实现起来极为轻巧,仅需四步闭环流程:首先部署一个32B大模型作为教师模型提供监督;接着由学生模型生成响应轨迹;教师模型计算每个token的对数概率;最后以反向KL散度为损失函数,优化学生模型的参数。整个过程无需复杂的基础设施支持,完全兼容现有的蒸馏框架,即可实现“廉价而准确”的性能飞跃。论文作者指出,该技术可以无缝扩展至代码生成、多模态推理等更多任务领域,为“教师-学生”协同训练模式开辟了全新的道路。

Mira Murati的“降维打击”:AI民主化的关键钥匙作为OpenAI的前任CTO,Murati将多年大模型训练的实战经验转化为高效小模型生态的推动力。在AI安全与对齐问题日益凸显的今天,在线策略蒸馏技术不仅显著提升了训练效率,更通过可控的知识迁移机制,增强了模型行为的可预测性。行业专家预测,这项技术将极大地促进开源模型与边缘AI的发展——当8B模型能够胜任原本需要32B模型才能完成的任务时,手机、物联网设备乃至普通本地服务器,都将有可能成为高性能AI的载体。智能科技正从“云端垄断”时代迈向“人人可及”的新纪元。这场由Murati引领的训练革命,或许正是AI从“巨头游戏”转变为“普惠工具”的关键转折点。当小模型也能展现出堪比大模型的智慧,真正的智能民主化时代,已经悄然来临。

最新快讯

2025年10月30日

20:30
2025年10月30日,崧盛股份宣布以自有资金2000万元人民币完成对重庆精刚传动新增注册资本的认购,标志着双方战略合作关系的进一步深化。根据交易方案,其中47.62万元直接计入重庆精刚传动的注册资本,剩余1952.38万元则计入资本公积,此举将使崧盛股份成为重庆精刚传动的重要股东,持股比例达到6.25%。 重庆精刚传动作为航天航空领域关键部件的领先制造商,...
20:30
2025年10月30日,大众汽车集团正式宣布一项重大战略调整,计划将旗下众多品牌车型整合至全新统一平台。这一举措的核心目标是通过深度共享先进技术与生产资源,实现运营效率的显著提升,同时有效降低整体成本。据集团内部消息透露,该战略将覆盖大众集团旗下多个核心乘用车品牌,旨在通过强化内部协同效应,进一步巩固并提升其在全球市场的综合竞争力。值得注意的是,关于具体将整...
20:30
2025年10月30日,大中矿业正式宣布其全资子公司郴州市城泰矿业投资有限责任公司成功获得《采矿许可证》。这一重要里程碑的达成,主要得益于新能源汽车与储能产业的迅猛发展,进而推动锂电产业链及锂矿资源成为市场焦点。此次许可证的获批,不仅彰显了公司进军锂矿资源领域的坚定决心,更为其未来在新能源领域的布局奠定了坚实基础。 然而,矿产开发过程复杂,受到自然条件、社会...
20:30
2025年第三季度,中国重汽交出亮眼业绩单,净利润高达3.8亿元,同比增长20.99%,彰显出公司稳健的经营态势。这一成绩的取得,不仅体现了中国重汽在激烈市场竞争中的卓越表现,更折射出其精细化的管理能力与前瞻性的战略布局。 尽管汽车行业整体仍面临诸多挑战,中国重汽凭借敏锐的市场洞察与高效的运营体系,成功实现了盈利能力的持续攀升。公司通过优化产品结构,精准...
20:30
2025年10月30日,新易盛发布的投资者关系活动记录显示,公司2025年第三季度销售收入环比出现一定程度的下滑。这一变化主要源于部分产品出货节奏的阶段性调整。尽管如此,新易盛强调,当前光模块市场需求依然保持旺盛态势,订单量充足,为后续发展奠定了坚实基础。公司预计,2025年第四季度及2026年,光模块行业将维持高景气度,市场需求有望持续增长。 为积极应对这...
20:29
2025年10月30日,备受市场关注的华夏幸福正式发布了其2025年第三季度财务报告。数据显示,公司在前三季度累计实现营业收入38.82亿元,与去年同期相比大幅下滑72.09%。更为严峻的是,归属于上市公司股东的净利润录得亏损98.29亿元,显示出公司经营状况的显著恶化。具体来看,第三季度单季营收进一步萎缩至9.79亿元,同比降幅高达87.76%,净亏损额也...
20:29
2025年10月30日,京东方A正式发布其第三季度财务报告,数据显示公司前三季度净利润实现显著增长,同比增长率高达39.03%。这份亮眼的成绩单背后,是公司稳健经营与战略布局的成果展现。报告期内,京东方A整体营业收入达到1545.48亿元,较去年同期增长7.53%,展现出良好的发展势头。归属于上市公司股东的净利润更是达到46.01亿元,同比增长幅度显著。 在...
19:29
2025年10月30日,焦作万方正式宣布一项重大投资计划,拟斥资约38亿元人民币建设年产40万吨的再生铝项目。该项目选址于河南省焦作市,将专注于生产再生变形铝合金、铸造铝合金以及铝深加工产品,致力于打造高附加值的铝产业生态。 项目规划涵盖四大核心产品线,包括10万吨圆棒、7.5万吨合金锭(液态)、2.5万吨压铸件、18万吨铝板带和2万吨铜铝复合带。这些产品不...
19:29
2025年第三季度,澜起科技交出亮眼业绩答卷,净利润高达4.73亿元,同比增长22.94%,展现出强劲的增长势头。公司同期营收表现同样亮眼,达到14.24亿元,同比增长率高达57.22%,彰显出市场对澜起科技产品的广泛认可。从全年来看,澜起科技前三季度累计营收突破40亿元大关,达到40.58亿元,同比增长57.83%;净利润更是达到16.32亿元,同比增长率...
19:29
2025年第三季度,江淮汽车财务表现呈现分化态势。尽管公司实现营收115.13亿元,同比增长5.54%,显示出部分业务增长动能,但净利润却录得6.61亿元净亏损,反映出行业竞争压力加剧带来的挑战。从全年来看,前三季度累计营收308.73亿元,较去年同期下降4.14%,净利润亏损进一步扩大至14.34亿元。这一系列财务数据揭示了江淮汽车在当前汽车市场环境下面临...
19:29
格尔软件于10月30日发布重要股票交易异动公告,针对近期市场高度关注的抗量子密码产品发展情况作出明确说明。公告指出,该产品目前仍处于行业标准化制定阶段,同时正在多个领域开展应用试点工作,尚未达到大规模商业化运营的成熟阶段。从公司整体业务结构来看,抗量子密码业务板块的当前占比极低,对公司整体经营业绩的影响微乎其微,几乎可以忽略不计。 公司在此特别提醒广大投资者...
19:29
2025年10月30日,方正证券发布重要公告,宣布董事会已达成一致决议,将所持有的3亿股盛京银行内资股悉数转让给沈阳盛京金控投资集团有限公司。根据公告披露,本次交易的最终对价总额为4.35亿元人民币。这一战略性资产处置举措的背景在于,盛京金控已向盛京银行全体股东发起全面要约收购,方正证券作为积极回应,选择接受该要约,从而促成此次股权转让。值得注意的是,随着交...