Mira Murati新作在线策略蒸馏 8B模型性能达32B七成成本降90%

算力成本成为大模型军备竞赛的沉重枷锁,前OpenAI首席技术官Mira Murati领衔的Thinking Machines Lab却带来了破局之道——一项名为“在线策略蒸馏”(On-Policy Distillation)的革命性技术,为整个AI行业注入了全新活力。最新研究成果揭示:仅需80亿参数的小模型,通过该方法训练后,性能竟能达到32B大模型的70%,而训练成本锐减90%,效率却飙升50至100倍。这一突破意味着,中小企业乃至个人开发者,都将有机会以极低成本打造出媲美科技巨头的专用AI。

50-100倍效率飞跃:150步超越1.8万GPU小时传统强化学习(RL)的训练过程往往伴随着数万步迭代和惊人的算力消耗。以数学推理任务AIME’24为例,纯RL方法需要耗费17,920个GPU小时,准确率却仅停留在68%;而采用在线策略蒸馏的Qwen3-8B模型,仅通过150步训练即可实现70%的准确率,计算开销几乎可以忽略不计。其核心奥秘在于“每token密集反馈”机制:不同于RL仅在回合结束给予稀疏奖励,在线蒸馏让教师模型对学生生成的每一个token实时评分,提供连续、精准的指导信号。这种实时反馈机制不仅大幅加速了模型收敛,更有效防止了长序列训练中的“策略漂移”,确保小模型在有限资源下依然能够稳定输出高质量结果。

破解“灾难性遗忘”:学新知识而不忘旧本领AI模型在注入新知识时常常出现“灾难性遗忘”现象——实验数据显示,某模型在经过内部文档微调后,指令遵循能力从85%急剧下跌至45%。而在线策略蒸馏通过实时轨迹采样结合教师模型逐步校正,能够在保留41%新知识的同时,将原有能力迅速恢复至83%,这一效果远超传统微调或离线蒸馏技术。这一特性使其在企业应用场景中展现出巨大潜力:模型可以动态学习最新的业务规则和产品文档,同时又不丢失基础对话、工具调用等核心能力,真正实现了“持续进化”的智能体。

Mira Murati新作在线策略蒸馏 8B模型性能达32B七成成本降90%插图1

四步闭环:简洁架构,普惠落地该方法实现起来极为轻巧,仅需四步闭环流程:首先部署一个32B大模型作为教师模型提供监督;接着由学生模型生成响应轨迹;教师模型计算每个token的对数概率;最后以反向KL散度为损失函数,优化学生模型的参数。整个过程无需复杂的基础设施支持,完全兼容现有的蒸馏框架,即可实现“廉价而准确”的性能飞跃。论文作者指出,该技术可以无缝扩展至代码生成、多模态推理等更多任务领域,为“教师-学生”协同训练模式开辟了全新的道路。

Mira Murati的“降维打击”:AI民主化的关键钥匙作为OpenAI的前任CTO,Murati将多年大模型训练的实战经验转化为高效小模型生态的推动力。在AI安全与对齐问题日益凸显的今天,在线策略蒸馏技术不仅显著提升了训练效率,更通过可控的知识迁移机制,增强了模型行为的可预测性。行业专家预测,这项技术将极大地促进开源模型与边缘AI的发展——当8B模型能够胜任原本需要32B模型才能完成的任务时,手机、物联网设备乃至普通本地服务器,都将有可能成为高性能AI的载体。智能科技正从“云端垄断”时代迈向“人人可及”的新纪元。这场由Murati引领的训练革命,或许正是AI从“巨头游戏”转变为“普惠工具”的关键转折点。当小模型也能展现出堪比大模型的智慧,真正的智能民主化时代,已经悄然来临。

最新快讯

2025年10月30日

14:54
2025年10月29日,在备受瞩目的2025金融街论坛上,蚂蚁数科携手宁波银行联合打造的“Agentar知识工程KBase助力金融业务智能化升级”创新案例,凭借其卓越表现成功斩获“2025国际标准金融应用卓越案例”殊荣。该方案在知识工程技术在金融领域的创新应用中脱颖而出,凭借其高安全性、高准确度与强可解释性三大核心优势,赢得了评审专家的高度评价,为金融行业智...
14:54
生成式 AI 的浪潮正颠覆着企业赖以生存的在线曝光方式,这或许是自 Google 成立以来最重大的变革。在巴黎奥运会的现场,Geostar 创始人麦克·麦康奈尔敏锐地捕捉到了这一趋势——他的父母自发使用 ChatGPT 规划行程,AI 直接推荐了特定商家,这一幕标志着“发现”逻辑的彻底重塑。传统搜索流量预计将下降 25%,而 AI 概览正成为新的竞争战场。 ...
14:47
汽车媒体AutoCar最新消息,宾利即将在11月5日揭开其首款纯电SUV的神秘面纱,释放更多关键信息。这款备受期待的豪华电动车型基于保时捷与奥迪联合研发的PPE平台打造,车身尺寸将小于现款添越车型,成为宾利品牌史上最小型的SUV。新车设计灵感明显源自EXP 15概念车,采用极具辨识度的一体式曲面和方正比例,展现出独特的豪华科技美学。 预计新车将于2026年中...
14:47
摩根士丹利近日宣布达成一项重大战略交易,成功收购全球领先的私募股权交易平台EquityZen,这一举措标志着其在私人市场投资领域的布局再上新台阶。EquityZen作为一家创新型企业,长期以来致力于为私人公司股东及合格投资者搭建高效的股票二级市场交易桥梁,通过其先进的数字化平台显著提升股权流动性,为投资者创造参与私营企业成长的价值机会。此次收购不仅将极大增强...
14:47
2025年10月30日,备受瞩目的品牌升级之作——小杨臻选首家线下门店在合肥盛大启幕。这一里程碑事件不仅标志着小杨臻选从线上直播电商向线下零售领域战略拓展的正式落地,更彰显了品牌对多元化零售业态的深度布局。作为品牌发展史上的重要转折点,此次线下门店的开业将全面升级消费者的购物体验,为合肥市民带来全新的生活方式选择。 开业典礼当天,小杨臻选创始人大小杨哥将率核...
14:47
2025年10月30日,美团闪购重磅推出“品牌官旗闪电仓”计划,携手超过一万家知名品牌共同开拓即时零售新蓝海。这一创新模式将为品牌方提供全链路支持,涵盖仓储管理、高效配送及数字化系统赋能,助力品牌实现零资产或轻资产快速入驻。目前,索尼PlayStation、珀莱雅、罗技等百余家行业领军品牌已率先加入该计划,并在北京、上海、广州、深圳等数十座核心城市实现规模化...
14:47
Rockstar Games近日低调完成了官网首页的全面升级,新版页面以动态游戏轮播图作为核心视觉焦点,为玩家带来全新的浏览体验。首页首屏精心策划,集中展示《GTA VI》的第二支预告片和艺术设定图,并特别设置了专属探索页面入口,让玩家可以更深入地了解这款备受期待的作品。紧接着,页面顺势呈现《GTA V 增强版》与在线模式的最新更新内容,形成了一个完整的内容...
14:47
Waymo联席CEO泰克德拉・马瓦卡纳近日在TechCrunch Disrupt峰会上就无人出租车安全议题发表了重要观点。她明确指出,Waymo已经为可能发生的致命事故建立了完善的应对机制。马瓦卡纳强调,公司团队的核心工作不是讨论"事故是否会发生",而是集中精力研究"何时会发生",并据此制定了全面的事故预案。这一严谨的安全策略背后,是令人瞩目的数据支撑:Wa...
14:47
汽车媒体BMW Blog最新报道,宝马MINI携手英国传奇时尚设计师保罗·史密斯开启新一轮跨界合作,即将在2025年日本车展上全球首发MINI Paul Smith Edition联名车型。这款融合英伦时尚精髓与汽车工业美学的特别版车型,将提供三门掀背、五门掀背及敞篷三种经典车身造型,满足不同消费者的个性需求。值得注意的是,新车将在英国市场同步推出燃油版与纯...
14:47
科技媒体Android Authority最新消息,谷歌于今日正式推送Android 16 QPR2 Beta 3.2测试版更新,此次升级重点修复了备受用户诟病的锁屏时钟样式自定义功能失效问题。此前在Beta 3.1版本中,"壁纸和样式"设置项下的所有时钟样式选项突然全部失效,导致用户无法个性化定制锁屏界面。根据大量用户反馈,新版本已成功解决该技术漏洞,现在...
14:47
Whatnot直播购物平台近日成功斩获2.25亿美元F轮融资,其估值更是飙升至惊人的115亿美元,彰显了市场对其创新模式的强烈认可。本次融资由知名投资机构DST Global与CapitalG联合领投,红杉资本、Alkeon Capital等顶尖资本纷纷入局,而Greycroft、Andreessen Horowitz、Avra和Bond等老牌投资方也继续加...
14:47
近日,专注于具身智能领域的创新企业超维动力正式宣布成功完成天使轮融资,投资方由青剑消防与分享投资联合领投。作为国内具身智能领域的先行者,超维动力凭借其前瞻性的技术布局和突破性的研发成果,在资本市场上备受瞩目。此次融资不仅为其注入了强劲的发展动力,更为具身智能技术的产业化进程注入了新的活力。 超维动力致力于构建全球领先的具身智能大脑与机器人本体系统,通过开发连...