
据AIbase最新报道,一项名为“CritPt”的全新物理基准测试结果揭示了人工智能在科研领域的真实能力边界。这项测试将当前最顶尖的AI模型置于博士早期研究水平的严苛考核中,其结论令人深思:即便是像Gemini3Pro和GPT-5这样的先进模型,距离成为真正的自主科学家仍存在巨大差距。
CritPt:超越知识记忆的科研实战能力评估
“CritPt”基准测试由来自全球30多个机构的50余位物理学家共同研发完成。其核心目标并非检验AI对教科书知识的记忆能力,而是评估其解决原创性、未发表研究问题的实际能力——这相当于一位优秀物理学研究生的独立工作水平。为确保测试的严谨性和公平性,所有71个完整研究挑战均基于未公开发表的资料,涵盖量子物理、天体物理、高能物理和生物物理等11个前沿科学领域。研究团队还将这些挑战细分为190个更小的”检查点”,以便精确衡量模型在解决复杂问题过程中的阶段性进展。
令人警醒的测试结果:顶级AI准确率不足10%
根据人工智能分析公司Artificial Analysis的独立评估,测试初步结果令人深思。即便是目前最强大的AI系统也未能完成绝大多数任务:谷歌的Gemini3Pro Preview准确率仅为9.1%(值得注意的是,其使用的词元数量比第二名少了10%)。排名第二的OpenAI GPT-5.1(high)准确率仅为4.9%。这些数据残酷地揭示,当前的大型语言模型在面对开放式物理问题时,普遍缺乏必要的严谨性、创造性和精确性。
尽管模型在更简单、定义明确的”检查点”子任务上表现出一定进步,但在面对完整的科研挑战时却显得力不从心。这种能力差距凸显了AI在科研领域的真实局限性。

核心障碍:推理能力的脆弱性
研究团队引入了”一致解决率”这一更严格的指标——要求在五次尝试中至少做对四次,以测试模型的稳定性。在这一指标下,所有模型的表现均大幅下滑。这种稳健性的缺失给实际科研工作流程带来了严峻挑战。模型常常能得出看似合理的结果,但其中却隐藏着难以察觉的细微错误,这极易误导研究人员,并需要专家耗费大量时间进行审核复查。
未来展望:AI作为研究助理的实用价值
基于CritPt的测试结果,研究人员认为,在可预见的未来,更切实际的目标并非用”AI科学家”取代人类专家,而是利用AI作为”研究助理”来自动化特定的工作流程步骤。这一观点与当前的行业规划相符:OpenAI声称GPT-5已开始为研究人员节省时间,并计划在2026年9月前推出研究实习生系统,目标是在2028年3月前推出完全自主的研究员系统。
然而,CritPt的测试结果表明,要实现这一终极目标,AI仍需跨越巨大的技术鸿沟。这一发现为人工智能在科研领域的实际应用提供了重要参考,也提醒我们保持理性预期,在充分发挥AI辅助作用的同时,仍需重视人类专家在科研创新中的不可替代价值。
