华盛顿州立大学研究揭示ChatGPT在复杂科学判断中频繁自相矛盾

微新创想:华盛顿州立大学(WSU)近日发布的一项研究揭示,尽管 ChatGPT 的回答语气充满自信,但在处理复杂科学论断时,其表现更接近于“随机猜测”

研究指出该模型不仅准确率有限,而且在面对同一问题时经常给出前后矛盾的答案

由 Mesut Cicek 副教授领衔的团队从 2021 年以来的商业期刊中提取了 719 条研究假设并反复提交给模型进行真伪判断

虽然 ChatGPT 的表面正确率在 80% 左右 但在剔除随机猜测因素后 其真实表现仅比 50% 的“掷硬币”概率高出约 60%

研究者将其评价为“低分的 D 等成绩”

模型在识别错误陈述方面表现极差 对“假命题”的正确判断率仅为 16.4%

研究人员将每条假设向模型提交了 10 次 发现模型很难保持立场的一致性

回答反复横跳 在 10 次重复问答中 模型仅在约 73% 的案例中保持了结论一致

极端矛盾 在部分案例中 模型会出现“真、假交替”的情况 甚至出现“一半回答为真、一半回答为假”的极端情形 即便使用的提示词完全相同

研究指出用户容易被 AI 流畅且极具说服力的语言所迷惑 但这并不代表其具备真正的推理能力

缺乏真实“大脑” 模型本质上是在进行记忆和模式匹配 并不像人类那样真正理解世界或知道自己在说什么

版本进步有限 测试显示 2025 年测试的更新版 ChatGPT-5 mini 与早期版本在这一特定任务上的整体表现相近 均未展现出质的飞跃

基于研究结果 Cicek 建议企业管理者在涉及复杂决策时必须保持高度怀疑

不应将生成式 AI 视为可以替代专业判断的“权威” 必须对所有输出结果进行人工核查

组织应加强培训 帮助员工理解 AI 工具的优势与局限 避免盲目信任带来的决策偏差

该研究再次提醒公众 在 AI 技术快速迭代的背景下 其深层逻辑判断与证据权衡能力仍有待提高

最新快讯

2026年03月19日

16:41
微新创想:近日,网上一则关于“一生气就搞冷暴力的人是怎么想的”话题引发了广泛讨论,不少网友纷纷分享自己遭遇冷暴力时的糟心经历,也让大家对这种特殊的“生气方式”有了更多好奇。在生活里,冷暴力这种情况并不少见。很多人一生气,就不说话、不理人,仿佛把自己封闭在一个小世界里,把对方隔绝在外。 心理专家分析,一部分人是因为不知道如何正确表达自己的情绪。他们内心可能很愤...
16:41
微新创想 泡泡玛特与索尼影业正式达成合作 将共同开发真人动画电影 微新创想 此次合作围绕泡泡玛特旗下全球人气IP形象THE MONSTERS(LABUBU)展开 将推出一部真人动画电影 该消息是在THE MONSTERS十周年全球巡展巴黎站现场首次公布 由LABUBU创作者 龙家升与英国导演保罗金共同宣布 微新创想 保罗金曾执导《帕丁顿熊》系列及去年...
16:41
微新创想:小米今日发布万亿参数大模型MiMo-V2-Pro 在全球大模型综合智能排行榜Artificial Analysis上位列全球第八 按大模型品牌排名全球第五 超越xAI Grok 小米CEO雷军表示 小米上周在OpenRounter匿名发布了MiMo-V2-Pro 很快就冲到了日榜第一 目前已经成为了周榜第一 OpenRounter是全球最大的大模型...
16:41
微新创想 苹果官方渠道在售的闪迪2TB移动固态硬盘价格大幅上涨 从1498元暴涨至4798元 涨幅超过三倍 并且处于无货状态 此事迅速引发网友热议 前REDMI品牌总经理 现今日宜休创始人王腾公开发声 直言对比之后就能看出 国产手机厂商在不同存储版本的定价上更加厚道 王腾表示 今年全球存储供应链成本持续上涨 手机厂商面临巨大压力 整体经营并不容易 在...
16:41
微新创想:汽车正从“移动代步工具”进化为真正具备感知与决策能力的“智能生命体”。3 月 18 日,智己正式发布了行业首个超级智能体——IM Ultra Agent。这一动作不仅标志着智己在 AI 赛道的全面发力,更让其成为了全球首个搭载该技术的汽车品牌。 微新创想:传统智能汽车往往将智驾与智舱系统分开运行,而智己此次推出的 IM Fusion Nova 智能...
16:41
微新创想:Anthropic 近日推出了其主力模型 Sonnet 4.6(即 Claude 3.6 更新版)旨在通过强化编程与自动化能力巩固其在企业级 AI 领域的地位。此次更新不仅代表了技术上的突破,也标志着 Anthropic 战略重心的转变。 Sonnet 4.6:从模型提供商向“智能体平台”转型 本次更新标志着 Anthropic 战略重心的转移,C...
16:05
微新创想:一加15T将于3月24日19:00正式发布 一加15T在性能、续航、体验等方面全面拉满 号称小屏大魔王的一加15T即将在3月24日19:00正式发布 一加中国区总裁李杰今日表示一加15T全球首发7500mAh超巨量冰川电池 这将会是目前整个行业电池容量最大的小屏手机 断层碾压领先其他所有小屏手机 李杰强调这次一加的目标是要和大屏旗舰比 不光要卷电池...
16:05
微新创想:微信电脑版迎来多项实用新功能更新,进一步提升办公与聊天效率。此次更新版本为4.1.8,用户升级后即可体验语音输入、一键撤回以及视频倍速播放等全新能力。 语音输入功能的加入,让用户在聊天过程中更加便捷。只需按住CtrlWin键或点击聊天框里的小话筒图标,即可轻松实现语音转文字。对于使用Mac系统的用户,可以通过按住fn键来启用该功能。如果用户不想持续...
16:05
微新创想:京东外卖上线一周年之际,京东官方宣布将为全体全职骑手免费换新装,并带来装备、培训、服务三大升级。这一举措不仅体现了京东对骑手群体的重视,也标志着平台在提升骑手工作体验和安全保障方面的持续努力。 新骑手服在颜值和实用性上均有所升级,采用立体裁剪设计,整体更加舒适。面料方面,特别选用防水材质搭配高亮反光银条,以更好保障骑手在复杂天气和夜间配送时的安全。...
16:05
微新创想:3月19日,字节跳动旗下的一站式AI内容创作平台小云雀AI正式上线“短剧Agent”功能。该功能作为全球首个搭载Seedance2.0算法的行业智能体,实现了从剧本创作到剧集生成的全流程自动化。这一创新不仅提升了内容生产的效率,也标志着AI技术在影视领域的深度应用。 技术层面,该Agent不仅具备强大的视频生成能力,更核心的突破在于其“故事理解”与...
16:05
微新创想:随着AI智能体技术加速渗透企业核心业务场景,以OpenClaw为代表的自主执行型AI正成为新一轮生产力变革的重要引擎。然而其强大的系统访问与任务执行能力也带来了前所未有的安全风险,权限越界、记忆污染、恶意诱导、算力滥用等问题日益凸显。部分企业在拥抱效率的同时,低估了潜在治理挑战。 为此,蚂蚁数科正式推出“蚁天鉴2.0- 龙虾卫士”AI安全防护体系,...
15:56
微新创想:2026年3月19日,尖峰集团全资子公司尖峰药业收到国家药监局《药品上市申请不予批准通知书》。该通知指出,尖峰药业申报的单剂量复方托吡卡胺滴眼液(0.5ml)因研究资料未能充分证明规格合理性,不符合相关技术标准,因此未获批准。 此次研发项目投入资金约为314万元。公司表示,该产品的未获批不会对公司当期业绩产生重大影响。同时,尖峰药业同期申报的5ml...