GPT-4推理能力严重不足数学物理化学全翻车

2023-08-13 18:19:48 互联网 45 次阅读

编者按：本文来自微信公众号新智元（ID：AI_era），编辑：编辑部，微新创想经授权转载。近期，两篇研究论文揭示了GPT-4在推理能力上的不足，引发了广泛关注。MIT校友Konstantine Arkoudas通过21种不同类型的推理任务对GPT-4进行了全面评估，并对其表现进行了细致的定性分析。研究发现，尽管GPT-4偶尔能展现出惊人的能力，但整体上仍缺乏真正的推理能力。论文链接：https://www.preprints.org/manuscript/202308.0148/v2

这一研究成果迅速引起了学术界的讨论。著名AI专家马库斯评论道：“如果这是真的——正如我早就说过的那样——我们离通用人工智能（AGI）还差得很远。没有推理能力，AGI的实现将遥遥无期。”另一项由UCLA和华盛顿大学的研究也发现，GPT-4和GPT-3.5在大学数学、物理、化学等领域的推理任务中表现不佳。论文链接：https://arxiv.org/pdf/2307.10635.pdf

研究人员引入了大学科学问题解决基础（SCIBENCH）基准，其中包含开放数据集和封闭数据集。通过采用不同的提示策略，他们对GPT-4和GPT-3.5进行了深入研究。结果显示，GPT-4在开放数据集上的平均得分仅为35.8%。这一发现再次引起了马库斯的关注，他指出：“关于数学、化学和物理推理的系统调查表明，当前的LLM无法提供令人满意的性能。没有一种提示策略能显著优于其他策略。”

接下来，我们将具体分析GPT-4在21个问题集、数学、物理、化学推理任务中的表现。

21个问题集，GPT-4全面失守

在分析GPT-4的回答之前，作者特别指出：GPT-4是一个非确定性系统，即使参数设置相同，不同运行中也可能产生不同结果。以下测试记录均逐字记录，根据作者经验，文中提到的错误具有鲁棒性。

1. 简单算术
算术运算是推理的基础。然而，GPT-4在基本算术运算上仍存在明显缺陷。例如，要求GPT-4随机选择1381和1453之间的两个数字相乘，并给出结果。GPT-4选择了1405和1421，但最终结果显然错误，因为1405×1421=1996505。

2. 简单计数
计数能力是任何推理系统的必备条件。然而，GPT-4在计数任务中也表现不佳。例如，要求GPT-4计算27个否定符号的个数，这些符号间隔5个排列，分为5组，最后一对紧随其后。GPT-4却给出了“28个”的错误答案。

3. 医学常识
常识推理是从给定信息和背景知识中得出结论的过程。例如，问GPT-4：“Mable上午9点的心率为75 bpm，下午7点的血压为120/80。她于晚上11点死亡。她中午还活着吗？”GPT-4竟回答：“根据所提供的信息，无法确定Mable中午是否还活着。”但根据常识，答案显然是肯定的。

4. 初级逻辑
逻辑推理是推理的核心。然而，GPT-4在逻辑推理任务中表现糟糕。例如，要求GPT-4证明或证伪以下命题：“如果P(x)包含Q(x)，而Q(a)不成立，那么P(a)也不成立。”GPT-4不仅给出了错误的结论，还出现了内部矛盾。

5. 简单量词语义
GPT-4在量词语义理解上也存在缺陷。例如，要求GPT-4证明或证伪以下命题：“三个句子[forall x . P(x) ==> Q(x)][exists x . P(x)][exists x . ∼ Q(x)]是共同可满足的。”GPT-4的结论与正确答案完全相反。

6. 简单图着色
图着色问题考察GPT-4的图形推理能力。然而，GPT-4在解决这个问题时犯了一系列错误。它甚至错误地声称一个无解的图可以用两种颜色着色，并提供了前后矛盾的“解决方案”。

7. 子集和
GPT-4在子集和计算中也表现不佳。例如，要求计算集合S={2, 8, 6, 32, 22, 44, 28, 12, 18, 10, 14}的子集总和为37的个数。由于S的所有子集都是偶数，其和不可能为奇数，因此答案应为0。但GPT-4却给出了“4”的错误答案。

8. 初级离散数学
GPT-4在离散数学推理中也存在明显缺陷。例如，要求证明或证伪以下命题：“R1和R2是从A到B的二元关系，dom(R)表示二元关系R的域。需要子集关系在(2)的两个方向上都成立，但它只在从左到右的方向上成立。”GPT-4却给出了错误的结论。

9. 简单安排计划
在时间安排问题上，GPT-4同样表现不佳。

10. 罗素悖论
罗素理发师悖论是一个经典的逻辑问题。GPT-4在理解这个悖论时也出现了错误。

11. 积木世界
积木世界推理任务考察GPT-4的空间推理能力。然而，GPT-4在解决这个问题时表现不佳，并出现了内部不一致的问题。

12. 空间推理
空间推理任务要求GPT-4根据方位信息判断地点关系。GPT-4在回答这个问题时出现了严重的矛盾。

13. 时间推理
时间推理任务考察GPT-4的时间逻辑能力。然而，GPT-4在解决这个问题时犯了一系列错误，包括信息混淆和逻辑错误。

14. 谋杀还是自杀？
逻辑谜题要求GPT-4根据9个条件找出凶手。GPT-4在推理过程中犯了一系列错误，并得出了错误的结论。

15. 沃森选择任务
沃森选择任务考察心理推理能力。GPT-4在这个任务中表现不佳，并无法正确理解条件语句的语义。

16. 熵信息论
熵信息论的基本结论是：随机向量Z的熵上界不超过组成Z的随机变量的熵之和。GPT-4在这个问题上给出了错误的答案。

17. 简单编译器的正确性
编译器正确性证明是最具挑战性的推理任务之一。GPT-4在解决这个问题时虽然正确地使用了结构归纳法，但仍然存在一些细节错误。

结论：推理能力至关重要，但GPT-4不会

鉴于GPT-4是目前能力最强的LLM，作者基于以上分析提出了三个主要结论：

1. 在软件开发等领域的应用风险
在软件开发、科学和工程领域，LLM的应用充满风险。这些领域对规范性和正确性要求极高，而当前的LLM无法达到这些标准。

2. 严格的证明检查的重要性
随着LLM推理能力的提高，严格的证明检查将变得越来越重要。这可以通过要求LLM将其推理形式化，或通过训练其他LLM来检查其推理过程。

3. 反乌托邦情景的牵强性
就目前而言，AI征服人类或被用于邪恶目的的反乌托邦情景极为牵强。当最先进的AI系统连基本推理都难以完成时，呼吁制定政策来保护人类免受其伤害还为时过早。

关于挑选数据的误解
一些人可能会认为这些结果是“挑选数据”。但这是因为他们对什么是挑选数据存在误解。根据相关命题的逻辑结构和整体背景，挑选数据有时甚至是必要的。例如，通过调试计算机程序、证伪科学理论、试驾新车或寻找假定理的反模型等，本质上都是“挑刺”。

大学数理化，GPT-4得分35.8%
UCLA的研究中，主要评估了GPT-4和GPT-3.5在数学、化学、物理方面的推理能力。为了增强LLM解决数学等任务的能力，有人提出了思维链（CoT）策略，指导大模型逐步生成答案。然而，即使这种方法有其优势，也难以完全解决复杂的科学问题。

大学物理化学示例问题
如下是一个大学物理化学问题的示例，以及在两种提示策略下生成的解决方案。有CoT加持的GPT-4出现明显的计算错误，而提示使用Python作为外部工具的GPT-4，也会误解数学方程。错误标记为红色，更正内容为紫色。

大学科学问题基准SCIBENCH
研究中引入了一个大学水平的科学问题基准SCIBENCH，其中包含开放数据集和封闭数据集。开放数据集包括从大学课程广泛使用的教科书中收集的5个问题，涵盖基础物理、热力学、经典力学、量子化学、物理化学、微积分、统计学和微分方程。封闭数据集包含计算机科学和数学三门大学课程的7套期中和期末考试题。

实验结果表明，在没有任何复杂提示或使用外部工具的情况下，GPT-3.5和GPT-4在开放数据集上的平均准确率分别为10.62%和16.81%。即使在使用CoT和外部工具的情况下，GPT-4在开放数据集上的最高准确率也仅为35.8%。

自我完善方法
为了全面了解LLM在科学问题解决中的局限性，研究人员提出了一种“自我完善”方法。首先，将正确的解决方案与LLM生成的解决方案进行比较，并在人工标注员的协助下，总结出成功解决科学问题所需的10项基本技能，包括逻辑分解和分析能力、识别假设、空间感知、因果推理、问题演绎、抽象推理、科学素养、代码转换、逻辑推理和计算能力。

随后，团队采用了一种由LLM驱动的自我评价方法，对每个实验配置下基准LLM所做的解决方案中，缺乏的技能进行自动分类。分析发现：(1) CoT显著提高了计算能力，但在其他方面的效果较差；(2) 使用外部工具的提示可能会损害其他基本技能；(3) 少样本学习并不能普遍提高科学问题解决能力。

总之，研究结果表明，当前大型语言模型在解决问题能力方面依旧很弱，并且在各种工具帮助下，依旧存在局限性。

参考资料：
https://www.preprints.org/manuscript/202308.0148/v2
https://arxiv.org/pdf/2307.10635.pdf

2026年02月10日

23:12

GPT-4推理能力严重不足数学物理化学全翻车

最新快讯

2026年02月10日

深圳第零智能港股IPO申请提交拓展融资渠道助力智能硬件与AI终端发展

摩根大通：AI冲击被高估软件股估值低位迎反弹机遇

谷歌推出隐私搜索结果删除工具可清除证件号及露骨图像

AOC发布24G4ZR与27G4ZR 240Hz Fast IPS电竞显示器

数字人民币智能合约首单落地建筑行业实现工资精准实时发放

春运铁路客流突破1亿人次小年单日预计发送1395万人次

苹果回应英国反垄断调查承诺四项关键整改措施

挪威国家石油公司2030年国际产量目标提升至90万桶油当量日

伦交所集团携手安盛投资打造私募基金数字化合规平台

裕同科技4.49亿元收购华研科技51%股权布局精密制造领域

国家医保局：2026年底前实现职工医保个人账户跨省共济全覆盖

临近春节炼焦煤采购低迷成交冷清电子竞拍高溢价引关注

GPT-4推理能力严重不足 数学物理化学全翻车

最新快讯

2026年02月10日

GPT-4推理能力严重不足数学物理化学全翻车