华盛顿州立大学研究揭示ChatGPT在复杂科学判断中频繁自相矛盾

微新创想:华盛顿州立大学(WSU)近日发布的一项研究揭示,尽管 ChatGPT 的回答语气充满自信,但在处理复杂科学论断时,其表现更接近于“随机猜测”

研究指出该模型不仅准确率有限,而且在面对同一问题时经常给出前后矛盾的答案

由 Mesut Cicek 副教授领衔的团队从 2021 年以来的商业期刊中提取了 719 条研究假设并反复提交给模型进行真伪判断

虽然 ChatGPT 的表面正确率在 80% 左右 但在剔除随机猜测因素后 其真实表现仅比 50% 的“掷硬币”概率高出约 60%

研究者将其评价为“低分的 D 等成绩”

模型在识别错误陈述方面表现极差 对“假命题”的正确判断率仅为 16.4%

研究人员将每条假设向模型提交了 10 次 发现模型很难保持立场的一致性

回答反复横跳 在 10 次重复问答中 模型仅在约 73% 的案例中保持了结论一致

极端矛盾 在部分案例中 模型会出现“真、假交替”的情况 甚至出现“一半回答为真、一半回答为假”的极端情形 即便使用的提示词完全相同

研究指出用户容易被 AI 流畅且极具说服力的语言所迷惑 但这并不代表其具备真正的推理能力

缺乏真实“大脑” 模型本质上是在进行记忆和模式匹配 并不像人类那样真正理解世界或知道自己在说什么

版本进步有限 测试显示 2025 年测试的更新版 ChatGPT-5 mini 与早期版本在这一特定任务上的整体表现相近 均未展现出质的飞跃

基于研究结果 Cicek 建议企业管理者在涉及复杂决策时必须保持高度怀疑

不应将生成式 AI 视为可以替代专业判断的“权威” 必须对所有输出结果进行人工核查

组织应加强培训 帮助员工理解 AI 工具的优势与局限 避免盲目信任带来的决策偏差

该研究再次提醒公众 在 AI 技术快速迭代的背景下 其深层逻辑判断与证据权衡能力仍有待提高

最新快讯

2026年03月19日

18:16
日本科技界的一场高调发布,正演变为一场关于技术透明度的舆论风暴。近日,日本乐天集团(Rakuten)发布了号称“日本最大、性能最强”的自研大模型 。该模型拥有7000亿参数,是在日本经济产省(METI)GENIAC 项目支持下研发的重量级成果。然而,模型上线不久,开源社区便通过技术核查抛出了“套壳”质疑。开发者发现, 的底层架构与配置文件 config.js...
18:04
微新创想:2026年3月19日,美国生物制药公司Ovid Therapeutics宣布获得6000万美元战略投资。该公司的总部设在纽约,专注于罕见神经系统疾病治疗药物的研发。此次融资由多家知名投资机构共同参与,包括Adage Capital Management、RA Capital Management以及汇桥资本(Ally Bridge Group)等九...
18:04
微新创想:2025年,固德威技术股份有限公司实现营业总收入88.86亿元,同比增长31.88%。这一显著增长标志着公司在新能源领域持续发力,业务拓展成效明显。同时,公司归母净利润达到1.36亿元,同比大幅增加1.98亿元,成功实现扭亏为盈,展现出强大的盈利能力和市场竞争力。 微新创想:扣非净利润为0.36亿元,基本每股收益0.56元。这些财务指标不仅反映了公...
18:04
微新创想:2026年3月19日,HORIBA在SEMICON China 2026展会期间首次全面展示收购韩国EtaMax后的整合检测方案。该方案融合HORIBA先进光谱技术与EtaMax量产检测能力,覆盖“从Lab到Fab”全链条。 微新创想:首台搭载HORIBA光谱技术的EtaMax样机将于2026年下半年部署至上海嘉定厚立方(C-CUBE)。这一部署标...
18:04
微新创想:2025年我国共实施汽车召回190次,涉及车辆684.6万辆,同比分别下降18.5%和39.1%。数据显示,汽车召回数量和涉及车辆数量均有所减少,反映出行业整体质量水平的提升。 微新创想:在所有召回案例中,新能源汽车召回次数和数量分别为105次和265.2万辆,占总召回量的38.7%。这表明新能源汽车市场在快速发展的同时,也面临着一定的质量管控挑战...
18:04
微新创想:2026年3月19日,平安资产管理有限责任公司发布公告,正式宣布张剑颖获得国家金融监督管理总局的核准,升任公司总经理。她成为平安资管自2005年成立以来的第一位女性总经理,也是公司第五任总经理。 张剑颖出生于1976年,拥有复旦大学本科学历和南洋理工大学硕士学位。自2006年加入平安资管以来,她在公司内部积累了丰富的管理经验。多年来,她担任过多个关...
18:04
微新创想:2026年3月,法拉利宣布将在Purosangue、12Cilindri等车型上提供方向盘物理按键的改装方案。这一举措标志着法拉利在汽车交互设计领域迈出了重要一步。同时,Testarossa、Amalfi以及首款纯电跑车Luce也显著增加了实体按键的配置,进一步强化了驾驶体验的直观性与操控感。 法拉利CEO维尼亚在发布会上指出,目前市场上流行的触控...
18:04
微新创想:2026年3月19日,临床试验智能服务商Rivia宣布完成1500万美元A轮融资,Earlybird Venture Capital领投,Nina Capital、Amino Collective与Speedinvest跟投。此次融资标志着Rivia在推动临床试验数字化转型方面迈出了重要一步。 该公司总部位于欧洲(具体地点未披露),专注于利用人工智...
18:03
微新创想:2025年宁夏宝丰能源集团股份有限公司实现营收480.38亿元 同比增长45.64% 公司全年业绩表现亮眼 归母净利润达到113.50亿元 同比增长79.09% 截至2025年12月31日 公司资产总额为901.52亿元 所有者权益为483.90亿元 关键管理人员薪酬合计5005.99万元 其中总裁刘元管和常务副总裁高建军的年薪均超过500万元 年...
18:03
微新创想:Flexsys公司宣布自2026年3月23日起对全球发货订单调整不溶性硫磺产品价格 此次调价覆盖所有地区市场,其中亚洲市场每公斤价格上涨0.60美元 价格调整适用于所有新发货订单,不包括已签订合同的订单 公司表示此次调价是为应对原材料及物流成本持续上升带来的压力 Flexsys已提前通知客户确保信息透明 客户将按照原有合同条款执行既有订单的价格安排...
17:31
微新创想:3月19日,文远知行与ELEVATE Slovakia达成国家级战略合作,正式启动斯洛伐克首个自动驾驶项目。这一合作标志着文远知行在欧洲市场的重要布局,也代表着中国自动驾驶技术走向国际舞台的又一里程碑。 该项目覆盖Robotaxi、Robobus、Robovan及Robosweeper全产品线,将分别用于客运、邮政配送及智慧环卫等多个应用场景。通过...
17:31
微新创想:3月19日,建发轻工与京东科技在北京京东集团全球总部正式签署战略合作协议。此次合作标志着双方在数字化转型与产业升级道路上迈出重要一步。 双方将重点聚焦家电、消费电子以及咖啡等热门消费品类,在新消费场景下进一步深化合作。通过整合资源与优势,共同探索更广阔的市场空间与商业价值。 依托建发轻工强大的全链路供应链服务能力,结合京东科技在金融科技、风控建模和...