编者按:本文来自微信公众号新智元(ID:AI_era),编辑:编辑部,微新创想经授权转载。近期,两篇研究论文揭示了GPT-4在推理能力上的不足,引发了广泛关注。MIT校友Konstantine Arkoudas通过21种不同类型的推理任务对GPT-4进行了全面评估,并对其表现进行了细致的定性分析。研究发现,尽管GPT-4偶尔能展现出惊人的能力,但整体上仍缺乏真正的推理能力。论文链接:https://www.preprints.org/manuscript/202308.0148/v2

GPT-4推理能力严重不足 数学物理化学全翻车插图

这一研究成果迅速引起了学术界的讨论。著名AI专家马库斯评论道:“如果这是真的——正如我早就说过的那样——我们离通用人工智能(AGI)还差得很远。没有推理能力,AGI的实现将遥遥无期。”另一项由UCLA和华盛顿大学的研究也发现,GPT-4和GPT-3.5在大学数学、物理、化学等领域的推理任务中表现不佳。论文链接:https://arxiv.org/pdf/2307.10635.pdf

GPT-4推理能力严重不足 数学物理化学全翻车插图1

研究人员引入了大学科学问题解决基础(SCIBENCH)基准,其中包含开放数据集和封闭数据集。通过采用不同的提示策略,他们对GPT-4和GPT-3.5进行了深入研究。结果显示,GPT-4在开放数据集上的平均得分仅为35.8%。这一发现再次引起了马库斯的关注,他指出:“关于数学、化学和物理推理的系统调查表明,当前的LLM无法提供令人满意的性能。没有一种提示策略能显著优于其他策略。”

GPT-4推理能力严重不足 数学物理化学全翻车插图2

接下来,我们将具体分析GPT-4在21个问题集、数学、物理、化学推理任务中的表现。

GPT-4推理能力严重不足 数学物理化学全翻车插图3

21个问题集,GPT-4全面失守

GPT-4推理能力严重不足 数学物理化学全翻车插图4

在分析GPT-4的回答之前,作者特别指出:GPT-4是一个非确定性系统,即使参数设置相同,不同运行中也可能产生不同结果。以下测试记录均逐字记录,根据作者经验,文中提到的错误具有鲁棒性。

GPT-4推理能力严重不足 数学物理化学全翻车插图5

1. 简单算术
算术运算是推理的基础。然而,GPT-4在基本算术运算上仍存在明显缺陷。例如,要求GPT-4随机选择1381和1453之间的两个数字相乘,并给出结果。GPT-4选择了1405和1421,但最终结果显然错误,因为1405×1421=1996505。

GPT-4推理能力严重不足 数学物理化学全翻车插图6

2. 简单计数
计数能力是任何推理系统的必备条件。然而,GPT-4在计数任务中也表现不佳。例如,要求GPT-4计算27个否定符号的个数,这些符号间隔5个排列,分为5组,最后一对紧随其后。GPT-4却给出了“28个”的错误答案。

GPT-4推理能力严重不足 数学物理化学全翻车插图7

3. 医学常识
常识推理是从给定信息和背景知识中得出结论的过程。例如,问GPT-4:“Mable上午9点的心率为75 bpm,下午7点的血压为120/80。她于晚上11点死亡。她中午还活着吗?”GPT-4竟回答:“根据所提供的信息,无法确定Mable中午是否还活着。”但根据常识,答案显然是肯定的。

GPT-4推理能力严重不足 数学物理化学全翻车插图8

4. 初级逻辑
逻辑推理是推理的核心。然而,GPT-4在逻辑推理任务中表现糟糕。例如,要求GPT-4证明或证伪以下命题:“如果P(x)包含Q(x),而Q(a)不成立,那么P(a)也不成立。”GPT-4不仅给出了错误的结论,还出现了内部矛盾。

GPT-4推理能力严重不足 数学物理化学全翻车插图9

5. 简单量词语义
GPT-4在量词语义理解上也存在缺陷。例如,要求GPT-4证明或证伪以下命题:“三个句子[forall x . P(x) ==> Q(x)][exists x . P(x)][exists x . ∼ Q(x)]是共同可满足的。”GPT-4的结论与正确答案完全相反。

GPT-4推理能力严重不足 数学物理化学全翻车插图10

6. 简单图着色
图着色问题考察GPT-4的图形推理能力。然而,GPT-4在解决这个问题时犯了一系列错误。它甚至错误地声称一个无解的图可以用两种颜色着色,并提供了前后矛盾的“解决方案”。

GPT-4推理能力严重不足 数学物理化学全翻车插图11

7. 子集和
GPT-4在子集和计算中也表现不佳。例如,要求计算集合S={2, 8, 6, 32, 22, 44, 28, 12, 18, 10, 14}的子集总和为37的个数。由于S的所有子集都是偶数,其和不可能为奇数,因此答案应为0。但GPT-4却给出了“4”的错误答案。

GPT-4推理能力严重不足 数学物理化学全翻车插图12

8. 初级离散数学
GPT-4在离散数学推理中也存在明显缺陷。例如,要求证明或证伪以下命题:“R1和R2是从A到B的二元关系,dom(R)表示二元关系R的域。需要子集关系在(2)的两个方向上都成立,但它只在从左到右的方向上成立。”GPT-4却给出了错误的结论。

GPT-4推理能力严重不足 数学物理化学全翻车插图13

9. 简单安排计划
在时间安排问题上,GPT-4同样表现不佳。

GPT-4推理能力严重不足 数学物理化学全翻车插图14

10. 罗素悖论
罗素理发师悖论是一个经典的逻辑问题。GPT-4在理解这个悖论时也出现了错误。

GPT-4推理能力严重不足 数学物理化学全翻车插图15

11. 积木世界
积木世界推理任务考察GPT-4的空间推理能力。然而,GPT-4在解决这个问题时表现不佳,并出现了内部不一致的问题。

GPT-4推理能力严重不足 数学物理化学全翻车插图16

12. 空间推理
空间推理任务要求GPT-4根据方位信息判断地点关系。GPT-4在回答这个问题时出现了严重的矛盾。

GPT-4推理能力严重不足 数学物理化学全翻车插图17

13. 时间推理
时间推理任务考察GPT-4的时间逻辑能力。然而,GPT-4在解决这个问题时犯了一系列错误,包括信息混淆和逻辑错误。

GPT-4推理能力严重不足 数学物理化学全翻车插图18

14. 谋杀还是自杀?
逻辑谜题要求GPT-4根据9个条件找出凶手。GPT-4在推理过程中犯了一系列错误,并得出了错误的结论。

GPT-4推理能力严重不足 数学物理化学全翻车插图19

15. 沃森选择任务
沃森选择任务考察心理推理能力。GPT-4在这个任务中表现不佳,并无法正确理解条件语句的语义。

GPT-4推理能力严重不足 数学物理化学全翻车插图20

16. 熵信息论
熵信息论的基本结论是:随机向量Z的熵上界不超过组成Z的随机变量的熵之和。GPT-4在这个问题上给出了错误的答案。

GPT-4推理能力严重不足 数学物理化学全翻车插图21

17. 简单编译器的正确性
编译器正确性证明是最具挑战性的推理任务之一。GPT-4在解决这个问题时虽然正确地使用了结构归纳法,但仍然存在一些细节错误。

GPT-4推理能力严重不足 数学物理化学全翻车插图22

结论:推理能力至关重要,但GPT-4不会

GPT-4推理能力严重不足 数学物理化学全翻车插图23

鉴于GPT-4是目前能力最强的LLM,作者基于以上分析提出了三个主要结论:

GPT-4推理能力严重不足 数学物理化学全翻车插图24

1. 在软件开发等领域的应用风险
在软件开发、科学和工程领域,LLM的应用充满风险。这些领域对规范性和正确性要求极高,而当前的LLM无法达到这些标准。

GPT-4推理能力严重不足 数学物理化学全翻车插图25

2. 严格的证明检查的重要性
随着LLM推理能力的提高,严格的证明检查将变得越来越重要。这可以通过要求LLM将其推理形式化,或通过训练其他LLM来检查其推理过程。

GPT-4推理能力严重不足 数学物理化学全翻车插图26

3. 反乌托邦情景的牵强性
就目前而言,AI征服人类或被用于邪恶目的的反乌托邦情景极为牵强。当最先进的AI系统连基本推理都难以完成时,呼吁制定政策来保护人类免受其伤害还为时过早。

GPT-4推理能力严重不足 数学物理化学全翻车插图27

关于挑选数据的误解
一些人可能会认为这些结果是“挑选数据”。但这是因为他们对什么是挑选数据存在误解。根据相关命题的逻辑结构和整体背景,挑选数据有时甚至是必要的。例如,通过调试计算机程序、证伪科学理论、试驾新车或寻找假定理的反模型等,本质上都是“挑刺”。

GPT-4推理能力严重不足 数学物理化学全翻车插图28

大学数理化,GPT-4得分35.8%
UCLA的研究中,主要评估了GPT-4和GPT-3.5在数学、化学、物理方面的推理能力。为了增强LLM解决数学等任务的能力,有人提出了思维链(CoT)策略,指导大模型逐步生成答案。然而,即使这种方法有其优势,也难以完全解决复杂的科学问题。

GPT-4推理能力严重不足 数学物理化学全翻车插图29

大学物理化学示例问题
如下是一个大学物理化学问题的示例,以及在两种提示策略下生成的解决方案。有CoT加持的GPT-4出现明显的计算错误,而提示使用Python作为外部工具的GPT-4,也会误解数学方程。错误标记为红色,更正内容为紫色。

GPT-4推理能力严重不足 数学物理化学全翻车插图30

大学科学问题基准SCIBENCH
研究中引入了一个大学水平的科学问题基准SCIBENCH,其中包含开放数据集和封闭数据集。开放数据集包括从大学课程广泛使用的教科书中收集的5个问题,涵盖基础物理、热力学、经典力学、量子化学、物理化学、微积分、统计学和微分方程。封闭数据集包含计算机科学和数学三门大学课程的7套期中和期末考试题。

GPT-4推理能力严重不足 数学物理化学全翻车插图31

实验结果表明,在没有任何复杂提示或使用外部工具的情况下,GPT-3.5和GPT-4在开放数据集上的平均准确率分别为10.62%和16.81%。即使在使用CoT和外部工具的情况下,GPT-4在开放数据集上的最高准确率也仅为35.8%。

GPT-4推理能力严重不足 数学物理化学全翻车插图32

自我完善方法
为了全面了解LLM在科学问题解决中的局限性,研究人员提出了一种“自我完善”方法。首先,将正确的解决方案与LLM生成的解决方案进行比较,并在人工标注员的协助下,总结出成功解决科学问题所需的10项基本技能,包括逻辑分解和分析能力、识别假设、空间感知、因果推理、问题演绎、抽象推理、科学素养、代码转换、逻辑推理和计算能力。

GPT-4推理能力严重不足 数学物理化学全翻车插图33

随后,团队采用了一种由LLM驱动的自我评价方法,对每个实验配置下基准LLM所做的解决方案中,缺乏的技能进行自动分类。分析发现:(1) CoT显著提高了计算能力,但在其他方面的效果较差;(2) 使用外部工具的提示可能会损害其他基本技能;(3) 少样本学习并不能普遍提高科学问题解决能力。

GPT-4推理能力严重不足 数学物理化学全翻车插图34

总之,研究结果表明,当前大型语言模型在解决问题能力方面依旧很弱,并且在各种工具帮助下,依旧存在局限性。

GPT-4推理能力严重不足 数学物理化学全翻车插图35

参考资料:
https://www.preprints.org/manuscript/202308.0148/v2
https://arxiv.org/pdf/2307.10635.pdf

GPT-4推理能力严重不足 数学物理化学全翻车插图36

最新快讯

2026年02月10日

22:08
微新创想:2025年春运期间,全国铁路运输迎来高峰。自2月2日春运正式启动至2月10日,全国铁路累计发送旅客已突破1亿人次。随着春节临近,返乡客流持续攀升,铁路部门不断加大运力投入以满足出行需求。 2月10日作为北方小年,预计全国铁路将发送旅客1395万人次。为应对客流高峰,铁路部门当天加开列车1363列,全力保障旅客出行。相比前一日,2月9日的发送量为14...
22:08
微新创想:2026年2月10日,苹果公司针对英国竞争与市场管理局(CMA)的反垄断调查,正式宣布了四项承诺。这些承诺旨在回应监管机构对其在应用分发和系统内自我优待行为的质疑,涵盖多个关键领域。首先,苹果承诺确保App Store的审核与排名机制更加公平透明,杜绝任何形式的偏袒。其次,公司将严格保护第三方开发者的数据安全,防止未经授权的数据访问或滥用。此外,苹...
22:08
微新创想:2026年2月10日,挪威国家石油公司宣布,计划在2030年前将国际石油产量提升至90万桶油当量/日。这一战略举措旨在优化全球资产组合,进一步强化公司在海外市场的业务布局。公司表示,此次增产计划将有助于提升其在全球能源市场中的竞争力。 微新创想:尽管公司未公布具体的投资金额以及重点增产区域,但明确指出该计划将兼顾低碳转型的目标。这意味着在扩大石油产...
22:08
微新创想:2026年2月10日,伦敦证券交易所集团(LSEG)宣布与法国安盛投资管理公司(AXA Investment Managers)建立私募基金基础设施合作伙伴关系 双方将在欧洲及全球范围内合作开发标准化、数字化的私募基金数据报告与合规服务平台 该平台旨在提升私募基金在估值、披露和监管报送方面的效率与透明度 合作不涉及股权交易 将依托LSEG的Data...
22:08
微新创想:2026年2月10日,裕同科技(002831.SZ)发布公告,宣布拟以4.49亿元人民币收购华研科技51%的股份。此次交易的对手为观点投资,该公司由裕同科技实际控制人王华君与吴兰兰夫妇全资控股,因此该交易被认定为关联交易。资金来源为公司自有资金或自筹资金,交易完成后,华研科技将成为裕同科技的控股子公司,并纳入公司的合并报表范围。 华研科技自2016...
22:08
2026年2月10日,国家医保局发布2026年度第一批“高效办成一件事”重点事项清单。明确要求2026年底前,全国所有省份开通职工医保个人账户跨省共济功能。同时,目标包括:80%定点医疗机构实现医保费用即时结算;至少开展一批次国家组织药品和高值医用耗材集采;基本实现住院分娩生育医疗费用省内跨统筹区直接结算。此举旨在提升医保服务便捷性与公平性,强化个人账户资...
22:08
微新创想:2026年2月10日,蒙古国进口炼焦煤市场震荡偏弱。受春节假期临近影响,下游焦钢企业补库基本结束,采购情绪低迷,询盘问价偏低,现货市场成交氛围冷清。 口岸贸易商报价暂稳,但期货盘面下跌。市场整体表现较为疲软,缺乏明显的上涨动力。部分企业因节前备货需求已基本完成,导致短期内对炼焦煤的需求有所下降。 值得注意的是,蒙古国线上电子竞拍参与积极性提升,当日...
21:52
微新创想 2月10日,小米集团创始人、董事长兼CEO雷军在小年夜晚间开启直播。直播中,雷军详细介绍了小米汽车的核心技术之一——一体压铸工艺。他指出,一体压铸技术能够将传统需要七十多个零部件组装的结构,一次性压铸成型,大幅缩短了加工时间。同时,这种技术还显著提升了车身的强度,从而增强了整车的安全性能。不过,雷军也坦言,一体压铸的成本相对较高,这是目前需要克服的...
21:52
微新创想 2月10日的消息显示,小米集团创始人、董事长兼CEO雷军在小年夜当天开启了直播。在直播过程中,雷军分享了小米汽车工厂的最新进展,并透露了工厂去年接待游客和访客的数量已超过13万人次。这一数据不仅体现了工厂的吸引力,也反映了小米在智能制造业的影响力。 雷军还提到,小米汽车工厂在智能化方面取得了显著成就。工厂内部配备了六七百台机器人,实现了所有生产环节...
21:52
微新创想:今晚,小米创始人雷军开启小年夜直播。雷军在直播中表示,第一代小米SU7和小米YU7都是基于摩德纳平台来开发的,这个平台有很多优点。它是完全为纯电车做的平台,能把车的外观和比例做得更好看,车身姿态也能非常低趴。 雷军在直播中透露,大家对小米SU7最重要的一个评价是好看好开。而小米SU7的动力之所以很强,是电机够强。在电机方面,小米除了和联电、汇川两家...
21:52
微新创想:近日,在世界大师公开赛上,91岁的传奇跑者策伦成为全场焦点。他以18秒61的成绩斩获80岁组的第二名,这一成绩甚至超越了90岁组的冠军。策伦来自中国内蒙古,他再次用实际行动证明,自己依然是地表最快的90岁跑者。 策伦的运动生涯堪称传奇。据他本人透露,他一生共获得过74枚金牌,三次夺得亚洲百米冠军,并且保持着14项亚洲纪录。这些成就不仅展现了他卓越的...
21:52
微新创想 随着春节临近备受期待的新一代小米SU7已陆续进驻全国多地小米之家门店其中主打配色卡布里蓝成为最大亮点独特的色彩质感一眼就能认出卡布里蓝车身的灵感源自意大利海岛的海蚀蓝洞并非单一色块而是呈现出有呼吸”的动态美感在不同光线条件下它会展现出丰富变化 上个月雷军曾表示原计划三四月份进驻小米之家的新一代小米SU7将加速推进到店节奏春节前部分门店就能迎来实...