
由全球50余位顶尖物理学家共同研发的“CritPt”基准测试近日发布,旨在全面评估当前最先进的AI模型在应对未公开复杂物理研究问题时的实际能力。该测试特别模拟了博士研究生阶段所需的独立科研水平,通过设置极具挑战性的问题,检验AI的深度推理与问题解决能力。尽管业界对谷歌的“Gemini3Pro”和OpenAI的“GPT-5”等前沿AI系统寄予厚望,但测试结果却揭示了令人意外的现实——这些模型在复杂物理任务上的表现远未达到预期。图源备注:此图片由AI生成,授权服务商Midjourney提供
在独立评估环节,Gemini3Pro以9.1%的准确率勉强位居榜首,而GPT-5则以4.9%的相对较低成绩紧随其后。这一数据直观地表明,即便是目前最强大的AI模型,在面对大多数复杂物理研究挑战时仍显得力不从心。CritPt测试内容极为丰富,涵盖了量子物理、天体物理、高能物理、生物物理等11个领域的71个研究挑战,所有问题均基于未公开发表的最新研究内容,确保测试的原创性和前沿性。为了防止AI通过简单猜测或检索已有信息来蒙混过关,测试团队特别采用了“持续解决率”这一更严格的评估标准——要求模型在五次独立尝试中至少四次给出正确答案。结果令人警醒,所有参与测试的模型在这一标准下表现均大幅下滑,暴露了它们在复杂问题上推理能力的先天脆弱性。

这种不可靠性对科研工作流程构成了显著挑战。AI模型常常会生成看似合理但实则含有细微错误的答案,这种误导性输出不仅可能干扰研究方向的判断,还会大幅增加同行评审的工作负担。研究团队在报告中明确指出,当前大型语言模型在独立解决开放性物理问题方面仍存在明显短板,更现实的发展路径是将它们定位为“研究助手”,在特定的工作流程中提供辅助支持而非完全替代人类专家。这一观点得到了OpenAI的积极响应,该公司计划于2026年9月推出“研究实习生系统”,并于2028年3月进一步开发完全自主的研究系统。目前已有证据表明,GPT-5已经开始在部分研究场景中帮助研究人员节省时间。
划重点:🌟 目前顶尖AI模型在复杂物理任务中的表现不尽如人意,最高准确率仅为9.1%。 🔍 “CritPt”基准测试覆盖11个物理领域,所有问题均为未公开研究内容。 🤖 未来AI更可能作为研究助手,而非完全替代人类专家,通过自动化特定流程提升科研效率。
