最新研究揭示阿里巴巴Qwen2.5模型数学能力背后的真相

据国际媒体报道,一项突破性研究对阿里巴巴Qwen2.5模型在数学测试中取得的惊人成绩提出了深刻质疑。该研究指出,尽管该模型展现出令人惊叹的数学推理能力,但其卓越表现可能主要源于对训练数据的记忆而非真正的逻辑推理能力。研究人员通过一系列严谨的实验验证,发现数据污染可能是导致Qwen2.5在基准测试中表现突出的关键因素。

干净基准测试暴露性能真相

该研究的核心发现令人震惊:当Qwen2.5模型在训练期间从未接触过的”干净”基准测试中表现时,其性能出现断崖式下跌。这一现象表明,模型在”污染”基准测试中取得的优异成绩,很大程度上是因为训练过程中已经熟悉这些题目。为了验证这一假设,研究团队设计了一项创新实验:仅向Qwen2.5-Math-7B模型展示MATH500基准测试的前60%题目,要求其预测剩余40%的答案。结果令人瞠目结舌:该模型竟能以高达54.6%的准确率成功重建缺失部分,而Llama3.1-8B的准确率仅为3.8%。这一显著差异强烈暗示Qwen2.5在训练过程中已经”见过”这些问题。

全新基准测试显示真实水平

研究人员随后使用LiveMathBench(版本202505)对Qwen2.5进行测试。作为Qwen2.5发布后才出现的全新基准测试,该数据集意味着模型不可能在训练过程中接触过这些题目。在这一完全陌生的数据集上,Qwen2.5的完成率骤降至零,与Llama模型表现相当,答案准确率也仅剩2%。研究指出,Qwen2.5可能已在大型在线数据集上进行了预训练,包括包含基准问题及其解决方案的GitHub代码库。因此,即使在训练期间接收到随机或错误的奖励信号,模型也能因为事先接触过这些数据而提升其在MATH-500上的表现。

响应模板变化揭示依赖性

进一步的实验表明,当响应模板发生变化时,Qwen2.5模型在MATH-500上的性能会急剧下降,而Llama-3.1-8B几乎不受影响。这进一步支持了Qwen2.5对特定数据模式的依赖性。为彻底排除记忆效应,研究团队创建了RandomCalculation数据集,其中包含Qwen2.5发布后生成的完全合成的算术问题。在这些新问题上,Qwen2.5的准确率随着问题复杂度的增加而下降,只有正确的奖励信号才能提高模型表现,而随机奖励会导致训练不稳定,反向奖励甚至会降低其数学技能。

阿里Qwen2.5数学能力存疑:新研究揭示模型或依赖记忆而非推理插图

可验证奖励实验证实结果

受控的RLVR(可验证奖励的强化学习)实验也证实了这些结果:只有正确的奖励才能带来稳定的性能提升,随机或反向奖励则无法提高或主动降低性能。这些发现对Qwen2.5的数学能力是否反映真实推理能力提出了严重质疑,反而表明该模型严重依赖于记忆数据。阿里巴巴于2024年9月推出了Qwen2.5,随后又推出了Qwen3系列。这项研究的发现是否适用于Qwen3系列,仍有待观察。

对AI研究的警示与启示

该研究的作者警告称,受污染的基准测试可能导致关于人工智能进展的误导性结论。他们强调,未来的研究应依赖于干净、未受污染的基准,并评估多个模型系列以获得更可靠的结果。这些研究结果再次凸显了在大型语言模型中区分真实推理与记忆的难度,以及为何严谨、清晰的评估方法对于可靠的人工智能研究至关重要。

基准测试的”游戏规则”问题

此前已有研究表明,基准测试可能被操纵或”玩弄”。例如,Meta曾提交一个经过专门调优的Llama4版本,通过使用自定义响应格式在LMArena基准测试中表现优异。其他研究也显示,Gemini2.5Pro和Claude3.5Sonnet等模型能够以高达95%的准确率识别测试场景并调整其响应,这引发了对当前评估方法有效性的更广泛质疑。这些发现不仅对阿里巴巴的Qwen2.5模型提出了挑战,也对整个AI研究领域的评估标准构成了重要反思。

最新快讯

2025年07月21日

19:55
2025年7月21日,永利股份正式发布一则备受瞩目的公告,宣布将携手深圳百搭企业管理合伙企业等战略伙伴,共同出资设立一家专注于智能宠物电器领域的合资公司——百问科技(深圳)有限公司。据悉,新公司注册资本高达500万元,将全面负责智能宠物电器的研发创新、规模化生产以及市场销售三大核心业务板块。在股权结构方面,永利股份将投入255万元,以51%的控股比例成为最大...
19:55
7月21日,蓝盾光电(股票代码:300862.SZ)正式发布控股股东减持公告,引发市场广泛关注。公告显示,公司控股股东袁永刚计划在未来15个交易日结束后3个月内,通过集中竞价或大宗交易方式减持不超过184.6万股,减持比例占公司总股本的1%。此次减持主要基于袁永刚个人的资金需求,减持的股份来源为公司首次公开发行前持有的部分股份。减持价格将完全依据二级市场实时...
19:55
2025年7月21日,北京时间,知名投资机构Truist证券发布了一份关于渤健生物(Biogen)的最新研报,对该公司股票的评级进行了调整。原本给予的"买入"评级被下调至"持有",这一变动同时伴随着目标价的显著修正,从之前的199美元大幅削减至142美元。这一系列操作清晰地表明,Truist证券的分析团队对渤健生物近期的市场表现以及未来的业务发展前景持更为审...
19:55
2025年7月21日,中国时间,美国富国银行正式宣布对网络安全领域的领军企业Cloudflare的目标股价进行上调,将原本的200美元提升至225美元。这一重要调整不仅彰显了富国银行对Cloudflare未来发展的坚定信心,更体现了其对该公司业务增长潜力与市场表现的高度认可。随着数字化转型的深入推进,网络安全已成为企业发展的重中之重,而Cloudflare凭...
19:55
2025年7月21日,南京聚隆公司正式发布公告,就近期市场关注的合作传闻作出明确澄清。公告指出,公司目前与时的科技公司之间并不存在任何形式的合作关系。此前,有媒体爆出阿联酋企业Autocraft与时的科技达成一项巨额采购协议,订单内容涉及350架E20eVTOL电动飞行器,总金额高达10亿美元。报道还特别提及,南京聚隆的子公司可能参与该项目相关领域的工作。 ...
19:55
2025年7月21日,成都先导(股票代码688222.SH)正式发布公告,披露公司股票近期出现的异常波动情况。公告指出,由于连续三个交易日收盘价格涨幅偏离值高达30%,公司股票已被交易所列为交易异常波动对象。这一消息迅速引发市场关注,投资者纷纷聚焦于公司基本面及未来发展前景。 针对此次股价异动,成都先导在公告中详细解释了其新药研发的现状。公司强调,目前自主研...
19:55
满坤科技于2025年7月21日正式发布其2025年上半年度业绩预告,数据显示公司归属于上市公司股东的净利润预计将在6,000万元至7,000万元之间,相较于去年同期实现了53.98%至79.64%的显著增长。这一亮眼的成绩单充分展现了满坤科技在当前市场环境下的强劲发展势头和卓越经营能力。 公司方面在公告中明确指出,报告期内业绩的全面提升主要得益于三个关键因素...
19:55
2025年7月21日,中国稀土集团与赣州市在集团总部成功举行工作会谈,双方就稀土产业高质量发展议题进行了深入交流,并就深化合作达成重要共识。此次会谈聚焦稀土产业的现代化升级,旨在构建更加完善的产业生态体系,推动稀土资源的高效利用与可持续发展。 中国稀土集团董事长刘雷云在会谈中强调,集团将充分发挥央企优势,巩固并深化与赣州市的合作成果。他表示,未来将着力健全央...
19:55
2025年7月21日,中石科技(股票代码:300684.SZ)正式发布其2025年上半年度业绩预告,数据显示公司归属于上市公司股东的净利润预计将在1.16亿元至1.29亿元之间,与去年同期相比实现了85.01%至105.75%的显著增长。这一亮眼业绩的背后,是多重积极因素的共同推动。 公司方面表示,业绩的强劲增长主要源于消费电子市场需求呈现明显回暖态势。随着...
19:55
2025年7月21日,南京江宁滨江经济开发区迎来重大产业布局,北路智控正式宣布计划投资6亿元人民币,打造矿山智能驾驶产业化基地项目。这一战略举措标志着公司在智能驾驶领域迈出关键性步伐,项目周期设定为5年,展现了公司长远发展的决心与规划。 该项目将全面聚焦矿山智能驾驶相关产品的研发与试验,通过高精尖技术的应用和创新实践,显著提升公司的研发实力。同时,项目还将致...
19:55
7月21日,三全食品正式宣布了一项重要的国际化战略布局,计划在中国香港设立全资子公司作为区域运营中心。这一举措是公司全球化战略的关键一步,后续将通过该香港子公司在开曼群岛设立另一家全资子公司,最终由开曼群岛子公司在澳大利亚投资设立孙公司。这一系列跨境投资的核心目标是为三全食品在澳大利亚建设现代化生产基地,并以此为枢纽全面开拓澳大利亚、新西兰以及东南亚等高潜力...
19:55
7月21日,运达科技正式发布一则重要公告,宣布公司控股股东运达创新将通过协议转让的方式,将其持有的4439.19万股无限售流通股悉数转让给智象达行(成都)科技合伙企业。此次交易的每股转让价格为9.01元,总交易金额高达4亿元人民币。值得注意的是,尽管控股股东发生变更,但此次股权转让并不会对公司现有的股权结构产生实质性影响,运达科技的核心管理层和经营团队将保持...