
微新创想:华盛顿州立大学(WSU)近日发布的一项研究揭示,尽管 ChatGPT 的回答语气充满自信,但在处理复杂科学论断时,其表现更接近于“随机猜测”
研究指出该模型不仅准确率有限,而且在面对同一问题时经常给出前后矛盾的答案
由 Mesut Cicek 副教授领衔的团队从 2021 年以来的商业期刊中提取了 719 条研究假设并反复提交给模型进行真伪判断
虽然 ChatGPT 的表面正确率在 80% 左右 但在剔除随机猜测因素后 其真实表现仅比 50% 的“掷硬币”概率高出约 60%
研究者将其评价为“低分的 D 等成绩”
模型在识别错误陈述方面表现极差 对“假命题”的正确判断率仅为 16.4%
研究人员将每条假设向模型提交了 10 次 发现模型很难保持立场的一致性
回答反复横跳 在 10 次重复问答中 模型仅在约 73% 的案例中保持了结论一致
极端矛盾 在部分案例中 模型会出现“真、假交替”的情况 甚至出现“一半回答为真、一半回答为假”的极端情形 即便使用的提示词完全相同
研究指出用户容易被 AI 流畅且极具说服力的语言所迷惑 但这并不代表其具备真正的推理能力
缺乏真实“大脑” 模型本质上是在进行记忆和模式匹配 并不像人类那样真正理解世界或知道自己在说什么
版本进步有限 测试显示 2025 年测试的更新版 ChatGPT-5 mini 与早期版本在这一特定任务上的整体表现相近 均未展现出质的飞跃
基于研究结果 Cicek 建议企业管理者在涉及复杂决策时必须保持高度怀疑
不应将生成式 AI 视为可以替代专业判断的“权威” 必须对所有输出结果进行人工核查
组织应加强培训 帮助员工理解 AI 工具的优势与局限 避免盲目信任带来的决策偏差
该研究再次提醒公众 在 AI 技术快速迭代的背景下 其深层逻辑判断与证据权衡能力仍有待提高
