最新研究揭示阿里巴巴Qwen2.5模型数学能力背后的真相

据国际媒体报道,一项突破性研究对阿里巴巴Qwen2.5模型在数学测试中取得的惊人成绩提出了深刻质疑。该研究指出,尽管该模型展现出令人惊叹的数学推理能力,但其卓越表现可能主要源于对训练数据的记忆而非真正的逻辑推理能力。研究人员通过一系列严谨的实验验证,发现数据污染可能是导致Qwen2.5在基准测试中表现突出的关键因素。

干净基准测试暴露性能真相

该研究的核心发现令人震惊:当Qwen2.5模型在训练期间从未接触过的”干净”基准测试中表现时,其性能出现断崖式下跌。这一现象表明,模型在”污染”基准测试中取得的优异成绩,很大程度上是因为训练过程中已经熟悉这些题目。为了验证这一假设,研究团队设计了一项创新实验:仅向Qwen2.5-Math-7B模型展示MATH500基准测试的前60%题目,要求其预测剩余40%的答案。结果令人瞠目结舌:该模型竟能以高达54.6%的准确率成功重建缺失部分,而Llama3.1-8B的准确率仅为3.8%。这一显著差异强烈暗示Qwen2.5在训练过程中已经”见过”这些问题。

全新基准测试显示真实水平

研究人员随后使用LiveMathBench(版本202505)对Qwen2.5进行测试。作为Qwen2.5发布后才出现的全新基准测试,该数据集意味着模型不可能在训练过程中接触过这些题目。在这一完全陌生的数据集上,Qwen2.5的完成率骤降至零,与Llama模型表现相当,答案准确率也仅剩2%。研究指出,Qwen2.5可能已在大型在线数据集上进行了预训练,包括包含基准问题及其解决方案的GitHub代码库。因此,即使在训练期间接收到随机或错误的奖励信号,模型也能因为事先接触过这些数据而提升其在MATH-500上的表现。

响应模板变化揭示依赖性

进一步的实验表明,当响应模板发生变化时,Qwen2.5模型在MATH-500上的性能会急剧下降,而Llama-3.1-8B几乎不受影响。这进一步支持了Qwen2.5对特定数据模式的依赖性。为彻底排除记忆效应,研究团队创建了RandomCalculation数据集,其中包含Qwen2.5发布后生成的完全合成的算术问题。在这些新问题上,Qwen2.5的准确率随着问题复杂度的增加而下降,只有正确的奖励信号才能提高模型表现,而随机奖励会导致训练不稳定,反向奖励甚至会降低其数学技能。

阿里Qwen2.5数学能力存疑:新研究揭示模型或依赖记忆而非推理插图

可验证奖励实验证实结果

受控的RLVR(可验证奖励的强化学习)实验也证实了这些结果:只有正确的奖励才能带来稳定的性能提升,随机或反向奖励则无法提高或主动降低性能。这些发现对Qwen2.5的数学能力是否反映真实推理能力提出了严重质疑,反而表明该模型严重依赖于记忆数据。阿里巴巴于2024年9月推出了Qwen2.5,随后又推出了Qwen3系列。这项研究的发现是否适用于Qwen3系列,仍有待观察。

对AI研究的警示与启示

该研究的作者警告称,受污染的基准测试可能导致关于人工智能进展的误导性结论。他们强调,未来的研究应依赖于干净、未受污染的基准,并评估多个模型系列以获得更可靠的结果。这些研究结果再次凸显了在大型语言模型中区分真实推理与记忆的难度,以及为何严谨、清晰的评估方法对于可靠的人工智能研究至关重要。

基准测试的”游戏规则”问题

此前已有研究表明,基准测试可能被操纵或”玩弄”。例如,Meta曾提交一个经过专门调优的Llama4版本,通过使用自定义响应格式在LMArena基准测试中表现优异。其他研究也显示,Gemini2.5Pro和Claude3.5Sonnet等模型能够以高达95%的准确率识别测试场景并调整其响应,这引发了对当前评估方法有效性的更广泛质疑。这些发现不仅对阿里巴巴的Qwen2.5模型提出了挑战,也对整个AI研究领域的评估标准构成了重要反思。

最新快讯

2025年07月23日

02:49
7月22日,加拿大安大略省、萨斯喀彻温省和艾伯塔省正式签署谅解备忘录,共同推进一项具有战略意义的新建东西向跨省石油管道项目。该工程的核心目标是用一条全新的输油管道系统,逐步取代现有的5号线输油管道,并巧妙地绕开美国境内,从而确保能源运输的稳定性和安全性。 安大略省作为加拿大经济引擎,其庞大的能源需求亟需更高效的运输解决方案。而萨斯喀彻温省与艾伯塔省则是加拿大...
02:49
2025年7月23日,中国金融市场的金属与能源板块呈现出截然不同的走势。在夜盘交易时段,上海国际能源交易中心原油期货价格遭遇下跌,最终收跌0.55%,报收于503.8元/桶。这一表现反映出国际原油市场在近期可能面临一定的压力,投资者对未来的价格走势持谨慎态度。 与此同时,贵金属市场则展现出强劲的上涨动力。上海期货交易所沪金主力合约逆势上扬,涨幅达到0.91%...
02:49
2025年7月23日,意大利裕信银行正式宣布退出对Banco BPM的竞购争夺。这一决定意味着裕信银行将不再参与此次备受瞩目的并购交易,而具体背后的原因尚未向外界披露。作为意大利银行业的重要一员,Banco BPM的此次竞购风波无疑引发了市场的高度关注。裕信银行的退出,不仅标志着这场商业博弈的暂时告一段落,更可能对Banco BPM未来的市场布局产生深远影响...
02:49
2025年7月23日,欧洲半导体板块遭遇普遍性下跌,多只核心概念股股价出现显著回调。其中,ASM国际、英飞凌、阿斯麦控股、德国爱思强以及BE半导体实业等龙头企业,股价跌幅均介于3.60%至3.34%之间,显示出行业整体承压态势。 此次下跌主要源于市场对半导体行业前景的普遍担忧。受宏观经济波动、地缘政治风险以及下游需求疲软等多重因素影响,投资者信心受到严重挫伤...
02:49
2025年7月23日,备受瞩目的加密数字货币巨头Consensys正式宣布实施组织架构优化计划,将整体裁员比例控制在7%以内。此次调整主要针对技术团队和行政管理部门的部分岗位,公司方面强调将严格遵守劳动法规,为受影响的员工提供全面的补偿方案以及专业的再就业培训支持。Consensys表示,这一战略决策是基于对当前市场环境的深刻洞察,旨在通过精简运营流程、提升...
02:49
2025年7月23日,特斯拉在加州市场的表现引人关注。根据美国加州新车经销商协会最新发布的数据,特斯拉第二季度在该州的注册量较去年同期出现了显著下滑,降幅达到21.1%。这一数据不仅揭示了特斯拉在加州市场需求的波动,更折射出当前新能源汽车市场竞争格局的激烈变化。 行业分析师指出,特斯拉销量下滑的背后,价格策略调整与市场竞争加剧是两大关键因素。随着更多新能源汽...
02:49
2025年7月23日,北京时间,特斯拉创始人埃隆·马斯克在公开场合透露了其人工智能公司xAI的一项宏伟蓝图:未来将构建一个拥有相当于5000万块H100 GPU算力的超级AI计算平台。这一雄心勃勃的计划不仅彰显了xAI在算力领域的远大抱负,更凸显了其推动人工智能技术革命性突破的决心。据马斯克介绍,如此庞大的算力单元将主要服务于两个核心方向——一是支持其团队开...
01:46
北京时间2025年7月23日,科技界迎来重磅消息。埃隆·马斯克正式披露其人工智能项目xAI的最新进展,宣布已成功将23万块GPU部署于名为Colossus 1的超算集群中,全力支持Grok模型的训练工作。值得注意的是,这批强大的计算资源中包含了3万块高性能GB200 GPU,为模型的复杂运算提供了坚实基础。 xAI在算力部署方面的突破性进展,不仅彰显了其技术...
01:46
2025年5月,美国北达科塔州的石油日产量攀升至惊人的111.279万桶,这一数据再次凸显了该州在美国能源版图中的核心地位。作为美国主要的石油生产州之一,北达科塔州凭借其丰富的油气资源,长期以来一直是美国能源产业的支柱力量。此次公布的产量数据不仅展现了该州在能源生产领域的强劲实力,更反映了其在美国乃至全球能源市场中的重要影响力。随着全球能源需求的持续增长,北...
01:46
2025年7月23日,全球知名科技巨头戴尔科技正式宣布一项重要的领导层调整举措。根据官方公告,公司现任运营主管Jeff Clarke将全面接管个人电脑(PC)业务部门,接替即将调任的Sam Burd。Sam Burd作为原PC业务主管,凭借其丰富的行业经验和管理才能,将转任企业战略部门,负责制定和推进更高层面的战略规划。此次高层人事变动,是戴尔科技为适应快速...
01:46
OpenAI首席执行官Altman近期发表重要观点,指出人工智能(AI)技术将有望帮助人们深入剖析思维过程中的潜在问题。他特别强调,AI能够精准识别某些观点中存在的不足之处,从而为人类决策提供强有力的支持。这一创新应用有望显著提升我们认知能力的深度和广度,为解决复杂问题开辟全新路径。Altman认为,AI作为强大的认知工具,将帮助人们更全面地审视自身思维模式...
01:46
近日,商汤科技正式宣布进军具身智能领域,这一重要战略布局已迈出实质性步伐。据悉,公司核心团队已初步组建完成,并已全面启动业内人才招募计划。值得注意的是,这支精英队伍的构成颇具看点:既有来自商汤科技此前智能驾驶业务部门的资深专家,也有计算机视觉和机器人领域顶尖的研究人员及从业者。这一举措不仅彰显了商汤科技在人工智能领域的持续深耕,更标志着其在前沿科技领域的战略...