Mira Murati新作在线策略蒸馏 8B模型性能达32B七成成本降90%

2025-10-30 12:13:36 AI动态 3 次阅读

算力成本成为大模型军备竞赛的沉重枷锁，前OpenAI首席技术官Mira Murati领衔的Thinking Machines Lab却带来了破局之道——一项名为“在线策略蒸馏”（On-Policy Distillation）的革命性技术，为整个AI行业注入了全新活力。最新研究成果揭示：仅需80亿参数的小模型，通过该方法训练后，性能竟能达到32B大模型的70%，而训练成本锐减90%，效率却飙升50至100倍。这一突破意味着，中小企业乃至个人开发者，都将有机会以极低成本打造出媲美科技巨头的专用AI。

50-100倍效率飞跃：150步超越1.8万GPU小时传统强化学习（RL）的训练过程往往伴随着数万步迭代和惊人的算力消耗。以数学推理任务AIME’24为例，纯RL方法需要耗费17,920个GPU小时，准确率却仅停留在68%；而采用在线策略蒸馏的Qwen3-8B模型，仅通过150步训练即可实现70%的准确率，计算开销几乎可以忽略不计。其核心奥秘在于“每token密集反馈”机制：不同于RL仅在回合结束给予稀疏奖励，在线蒸馏让教师模型对学生生成的每一个token实时评分，提供连续、精准的指导信号。这种实时反馈机制不仅大幅加速了模型收敛，更有效防止了长序列训练中的“策略漂移”，确保小模型在有限资源下依然能够稳定输出高质量结果。

破解“灾难性遗忘”：学新知识而不忘旧本领AI模型在注入新知识时常常出现“灾难性遗忘”现象——实验数据显示，某模型在经过内部文档微调后，指令遵循能力从85%急剧下跌至45%。而在线策略蒸馏通过实时轨迹采样结合教师模型逐步校正，能够在保留41%新知识的同时，将原有能力迅速恢复至83%，这一效果远超传统微调或离线蒸馏技术。这一特性使其在企业应用场景中展现出巨大潜力：模型可以动态学习最新的业务规则和产品文档，同时又不丢失基础对话、工具调用等核心能力，真正实现了“持续进化”的智能体。

四步闭环：简洁架构，普惠落地该方法实现起来极为轻巧，仅需四步闭环流程：首先部署一个32B大模型作为教师模型提供监督；接着由学生模型生成响应轨迹；教师模型计算每个token的对数概率；最后以反向KL散度为损失函数，优化学生模型的参数。整个过程无需复杂的基础设施支持，完全兼容现有的蒸馏框架，即可实现“廉价而准确”的性能飞跃。论文作者指出，该技术可以无缝扩展至代码生成、多模态推理等更多任务领域，为“教师-学生”协同训练模式开辟了全新的道路。

Mira Murati的“降维打击”：AI民主化的关键钥匙作为OpenAI的前任CTO，Murati将多年大模型训练的实战经验转化为高效小模型生态的推动力。在AI安全与对齐问题日益凸显的今天，在线策略蒸馏技术不仅显著提升了训练效率，更通过可控的知识迁移机制，增强了模型行为的可预测性。行业专家预测，这项技术将极大地促进开源模型与边缘AI的发展——当8B模型能够胜任原本需要32B模型才能完成的任务时，手机、物联网设备乃至普通本地服务器，都将有可能成为高性能AI的载体。智能科技正从“云端垄断”时代迈向“人人可及”的新纪元。这场由Murati引领的训练革命，或许正是AI从“巨头游戏”转变为“普惠工具”的关键转折点。当小模型也能展现出堪比大模型的智慧，真正的智能民主化时代，已经悄然来临。

2025年10月30日

14:54

Mira Murati新作在线策略蒸馏 8B模型性能达32B七成成本降90%

最新快讯

2025年10月30日

蚂蚁数科Agentar入选国际卓越案例成就金融AI大脑

ChatGPT崛起SEO变革：GeostarGEO战略助品牌抢占AI推荐流量

宾利首款纯电SUV细节曝光定位豪华都市尺寸小于添越

摩根士丹利收购EquityZen 拓展私募股权交易平台布局

小杨臻选合肥首店今日开业大小杨哥亲临现场

美团闪购官旗闪电仓计划启动联合万品牌布局即时零售

Rockstar官网全新改版GTA VI成焦点

Waymo称无人驾驶更安全已为致命事故制定完整预案

宝马MINI x 保罗·史密斯2025联名版全球首发诺丁汉绿惊艳亮相

谷歌Android 16 QPR2 Beta 3.2修复锁屏时钟自定义问题

Whatnot获2.25亿美元融资估值达115亿直播电商新势力崛起

超维动力获天使轮，加速人形机器人技术布局与规模化应用