腾讯无训练优化技术：120元成本实现7万元微调效果

2025-10-21 09:51:45 AI动态 26 次阅读

腾讯AI实验室近期推出了一项突破性的模型优化技术——”无训练组相对策略优化”（Training-Free GRPO），为AI领域带来了革命性的变革。这项创新技术通过引入外部知识库更新机制，巧妙地替代了传统的参数微调方式，在显著降低训练成本的同时，实现了与高成本微调方案相当的性能表现。其核心突破在于将人类经验知识转化为token级别的先验信息，使得大模型能够在完全不调整参数的状态下完成性能优化。

在腾讯研究团队的精心实验中，DeepSeek-V3.1-Terminus模型经过Training-Free GRPO优化后，在数学推理和网络搜索等关键任务上展现出惊人的表现。这一成果为解决传统大语言模型在复杂任务处理中的局限性提供了全新思路。与常规方法不同，Training-Free GRPO采用保持模型主体参数冻结，仅动态维护外部经验知识库的设计理念，既大幅减少了计算资源消耗，又显著提升了模型的跨领域泛化能力。

实验数据有力证明了这一方法的卓越效果。在数学竞赛级测试AIME24和AIME25中，经过优化的DeepSeek-V3.1-Terminus模型准确率分别实现了从80%到82.7%和从67.9%到73.3%的显著提升。更令人惊叹的是，这一进步仅依赖于100个跨域训练样本，而传统强化学习方法通常需要数千个样本才能达到类似效果，其高昂成本往往高达数万美元。在网络搜索任务中，模型的Pass@1指标也从63.2%跃升至67.8%，充分展现了该技术的普适性。

从经济角度来看，Training-Free GRPO的性价比优势尤为突出。官方数据显示，使用该技术优化一个模型仅需约120元人民币，而传统参数微调方案的成本通常高达7万元左右。这种巨大的成本差异主要源于该方法无需进行梯度回传和参数更新等计算密集型操作。这一创新为AI模型优化领域开辟了新的发展方向，特别是对于资源有限的中小企业和研究机构而言，这种低成本高效率的优化方案极大地降低了大模型应用的门槛。

尽管当前公布的测试数据主要集中在数学推理和信息检索等特定任务上，但这项技术的发布无疑为AI模型优化提供了全新的思路方向。随着更多场景下的验证数据逐渐完善，Training-Free GRPO有望在更广泛的领域发挥其独特优势，推动AI技术的普及和应用。论文地址:https://arxiv.org/abs/2510.08191

2025年11月28日

17:54

腾讯无训练优化技术：120元成本实现7万元微调效果

最新快讯

2025年11月28日

巫师3Steam史低促销来袭仅售14.9元体验传奇冒险

英诺维信获创业接力天使轮投资加速工业机器人技术研发

星川科技全球首套HEV高功率半固态电池量产将引领混合动力汽车新纪元

阿里通义Z-Image生图模型登顶Hugging Face双榜首日下载量50万

陆川新片《天工开物》VR备案拟真实再现明代科技巨著

中科硅纪完成Pre-A轮引战紫金科创等投资专注人灵巧机器人研发

雷迪克独家领投傲意科技亿元B3轮聚焦具身智能与神经接口

亿纬锂能Q3净利增15.13%出货量猛增66.98%

国华智能获时代伯乐战略投资加速人形机器人核心部件研发

夏禾科技成功备案IPO辅导中信证券护航上市新征程

女子生理期马尔代夫潜水被鲨鱼咬伤无视警告拒就医

小鹏P7 Ultra/G7 Ultra图灵AI芯片升级预约开启全球算力之最