Thinking Machine创新技术小模型训练效率提升100倍在线策略蒸馏获OpenAI前CTO点赞

近日,AI领域新锐团队Thinking Machine震撼发布一项突破性训练方法——在线策略蒸馏(On-Policy Distillation),这一创新技术让小模型在特定任务上的训练效率实现了惊人的50至100倍提升。该成果一经公布,便迅速引发学界与工业界的广泛关注,前OpenAI首席技术官Mira Murati更是亲自转发,足见其影响力。

Thinking Machine创新技术小模型训练效率提升100倍在线策略蒸馏获OpenAI前CTO点赞插图1

传统AI训练长期面临强化学习与监督学习的两难困境:强化学习虽能自主探索,灵活性强,但效率低下;而监督微调则直接提供标准答案,高效却容易导致模型僵化。在线策略蒸馏巧妙地融合了这两种学习方式,打造出一种全新的“AI教练”模式。它如同为学生模型配备了一位“实时教练”,在学生自主生成内容的同时,由强大的教师模型对其每一步输出进行动态评分与引导,通过最小化两者之间的KL散度,实现精准、稳定的知识迁移。这一机制不仅避免了传统蒸馏中“只学结果、不学过程”的弊端,还有效防止模型“走捷径”或过拟合,显著提升了泛化能力。

实测效果令人惊叹:在数学推理任务中,研究团队仅用原强化学习方法1/7到1/10的训练步数,就让8B小模型达到了接近32B大模型的性能水平,整体计算成本降低了两个数量级。这意味着,资源有限的中小企业或研究团队,也能高效训练出媲美巨头的专业模型。更关键的是,该方法成功破解了企业AI落地中的“灾难性遗忘”难题。在一项企业助理实验中,模型在学习新业务知识的同时,完整保留了原有对话与工具调用能力——这为持续迭代的行业AI系统提供了可行路径。

Thinking Machine创新技术小模型训练效率提升100倍在线策略蒸馏获OpenAI前CTO点赞插图2

该研究由Kevin Lu主导,他曾在OpenAI领导多个关键项目,如今作为Thinking Machine核心成员,将大模型训练的前沿经验反哺于高效小模型生态。其团队认为,在AI走向垂直化、场景化的今天,“小而专”的模型才是商业落地的主力,而在线策略蒸馏正是打通这一路径的关键引擎。随着算力瓶颈日益凸显,行业正从“唯大模型论”转向“高效智能”新范式。Thinking Machine的这项突破,不仅大幅降低AI开发门槛,更预示着一个属于高性价比专业模型的时代正在加速到来。

论文链接:https://thinkingmachines.ai/blog/on-policy-distillation/

Thinking Machine创新技术小模型训练效率提升100倍在线策略蒸馏获OpenAI前CTO点赞插图3

最新快讯

2025年11月28日

15:49
11月28日消息,近日,一女子称她从杭州徒步上海,路上一分钱不花体验生活。根据视频显示,女子先在街上跟一位路人沟通,说明自己的情况:我是徒步从杭州到上海的,这一路上,所有的这个吃喝住的问题,都得自己解决,我能请你帮个忙吗?”这位路人拒绝了她,直接说不能”。她途经一饭店想体验免费吃饭,被老板娘教育”,老板娘称:你们这些有钱人,还来...
15:49
微新创想11月28日消息,一加中国区总裁李杰介绍,一加Ace 6T独家搭载电竞三芯,包括第五代骁龙8、电竞网络芯片G2以及灵犀触控芯片。李杰表示,一加带来的独家电竞三芯是一加Ace 6T的秘密武器”,这三颗芯全面升级。每次用户调研,大家对游戏体验的担心总绕不开这三点:性能怕掉链子,网络怕卡顿,触控怕不跟手。所以我们用三颗芯片,分...
15:49
近日,网络上关于“加湿器加板蓝根能防感冒”的说法甚嚣尘上,不少人认为通过加湿器的雾化作用,能将板蓝根的有效成分释放到空气中,起到预防感冒和消毒杀菌的作用。然而,这一说法遭到了多家权威机构的明确否定。据了解,板蓝根是一种中药材,具有清热解毒、凉血利咽的功效,在临床中被用于治疗某些病毒感染引起的疾病,如流感、手足口病等。并没有足够的...
15:49
近日,广东茂名发生一起令人揪心的意外事件。尤先生家中6岁的儿子提出想吃火锅,尤先生便在厨房着手准备火锅底汤。然而,就在他端着滚烫的汤底从厨房走出时,意外突然降临。由于厨房与客厅之间有帘子遮挡,形成了一个视野盲区,而年仅6岁的孩子身形较小,在尤先生未留意到的情况下,孩子不慎撞上了他手中的汤底。瞬间,滚烫的汤洒落在孩子身上,孩子的胸...
15:49
无需美工、无需PS,扔一段文字就能出大片级海报!Skywork AI(瞬息AI)昨日悄然上线重磅新功能——Nano Banana Pro智能海报设计,瞬间引爆国内创作者圈。目前该功能已在Skywork官网与App已全面开放,免费用户每日也可体验多次。 一键“读懂你”:整篇Anthropic论文秒变专业海报实测最硬核玩法:直接把一整篇长达30多页的A...
15:49
2025年11月28日,在世界物联网大会交通车联高峰论坛上,中国汽车工业协会副秘书长陈旭表示,预计今年我国汽车销量将超3400万辆,新能源汽车销量有望达1600万辆,汽车出口将超680万辆。数据显示,2025年1-10月,我国汽车出口561.6万辆,同比增长15.7%;新能源汽车出口201.4万辆,同比增长90.4%。行业持续保持强劲增长势头。
15:49
2025年11月,长沙地铁近期开始执行新规定,乘客携带充电宝需查验3C认证标识。此举因此前发生充电宝在车厢内冒烟事件,为加强安全管理而实施。根据规定,无3C标识、标识不清或被召回的充电宝禁止携带。长沙地铁明确,充电宝额定能量不得超过160Wh,每人限带3个。未符合要求者需自行带离或改乘其他交通工具。官方已通过公众号发布相关注意事项,并将对执行不到位的站点加...
15:49
2025年11月28日,韩国——人工智能模型压缩公司Nota AI宣布与三星电子System LSI部门达成合作,为其最新AP Exynos 2500提供模型优化技术支持。Nota AI将作为核心技术提供商,助力三星Exynos AI Studio工具链提升模型运行效率与性能。通过该合作,Exynos 2500将实现更高效的本地生成式AI处理能力,使智能手...
15:49
2025年11月28日,私营医疗器械公司Restore Medical Ltd.宣布任命Chris Cleary为董事会主席。Cleary曾任美敦力企业发展高级副总裁,拥有超过三十年医疗技术领域领导经验,主导过包括500亿美元收购Covidien在内的多项重大并购。他将凭借在企业战略与创新企业规模化方面的专长,助力公司推进经导管心力衰竭治疗方案的开发。
15:16
微新创想11月28日深度报道,近日,备受关注的反诈网红"反诈老陈"在媒体采访中首次公开了其个人收入状况,引发广泛关注。据他透露,过去三年间总收入约为100万元,其中打赏收入高达80万元,而通过电商卖货的收入则约为20万元。面对外界好奇,老陈坦言"挣得多,花得也多",展现出网红经济背后不为人知的财务压力。 据悉,这位反诈明星近年来在投资方面遭遇重大挫折。他先后...
15:16
近日,昆仑万维重磅推出 Mureka V7.6与 Mureka O2 模型,正式宣告 AI 音乐创作进入全新纪元。这两款旗舰级模型在用户体验和音乐生成效果上实现了突破性飞跃,迅速引发全球瞩目。自3月底 Mureka O1与V6模型问世以来,该系列音乐创作平台已吸引近700万新增注册用户,覆盖超过100个国家和地区,用户口碑持续攀升。在持续迭代升级中,Mure...
15:16
近日,小米创始人、董事长兼 CEO 雷军在一场备受瞩目的媒体专访中,就人工智能(AI)的未来发展趋势及其对传统产业的颠覆性影响发表了深刻见解。雷军明确指出,在未来五年内,AI 将对各行各业产生前所未有的深远影响,并掷地有声地表示:"所有产业都值得用 AI 再做一遍。"这一观点充分展现了 AI 技术的普适性和革命性潜力。 以小米汽车工厂为例,雷军生动地阐述了 ...