华盛顿州立大学研究揭示ChatGPT在复杂科学判断中频繁自相矛盾

2026-03-19 15:22:58 AI动态 5 次阅读

微新创想：华盛顿州立大学（WSU）近日发布的一项研究揭示，尽管 ChatGPT 的回答语气充满自信，但在处理复杂科学论断时，其表现更接近于“随机猜测”

研究指出该模型不仅准确率有限，而且在面对同一问题时经常给出前后矛盾的答案

由 Mesut Cicek 副教授领衔的团队从 2021 年以来的商业期刊中提取了 719 条研究假设并反复提交给模型进行真伪判断

虽然 ChatGPT 的表面正确率在 80% 左右但在剔除随机猜测因素后其真实表现仅比 50% 的“掷硬币”概率高出约 60%

研究者将其评价为“低分的 D 等成绩”

模型在识别错误陈述方面表现极差对“假命题”的正确判断率仅为 16.4%

研究人员将每条假设向模型提交了 10 次发现模型很难保持立场的一致性

回答反复横跳在 10 次重复问答中模型仅在约 73% 的案例中保持了结论一致

极端矛盾在部分案例中模型会出现“真、假交替”的情况甚至出现“一半回答为真、一半回答为假”的极端情形即便使用的提示词完全相同

研究指出用户容易被 AI 流畅且极具说服力的语言所迷惑但这并不代表其具备真正的推理能力

缺乏真实“大脑” 模型本质上是在进行记忆和模式匹配并不像人类那样真正理解世界或知道自己在说什么

版本进步有限测试显示 2025 年测试的更新版 ChatGPT-5 mini 与早期版本在这一特定任务上的整体表现相近均未展现出质的飞跃

基于研究结果 Cicek 建议企业管理者在涉及复杂决策时必须保持高度怀疑

不应将生成式 AI 视为可以替代专业判断的“权威” 必须对所有输出结果进行人工核查

组织应加强培训帮助员工理解 AI 工具的优势与局限避免盲目信任带来的决策偏差

该研究再次提醒公众在 AI 技术快速迭代的背景下其深层逻辑判断与证据权衡能力仍有待提高

2026年03月19日

18:16

“日本最大”模型竟是套壳？乐天 AI 3.0 陷入 DeepSeek 搬运风波

日本科技界的一场高调发布，正演变为一场关于技术透明度的舆论风暴。近日，日本乐天集团（Rakuten）发布了号称“日本最大、性能最强”的自研大模型。该模型拥有7000亿参数，是在日本经济产省（METI）GENIAC 项目支持下研发的重量级成果。然而，模型上线不久，开源社区便通过技术核查抛出了“套壳”质疑。开发者发现，的底层架构与配置文件 config.js...

18:04

Ovid Therapeutics获6000万美元战略投资聚焦神经疾病新药研发

微新创想：2026年3月19日，美国生物制药公司Ovid Therapeutics宣布获得6000万美元战略投资。该公司的总部设在纽约，专注于罕见神经系统疾病治疗药物的研发。此次融资由多家知名投资机构共同参与，包括Adage Capital Management、RA Capital Management以及汇桥资本（Ally Bridge Group）等九...

18:04

固德威2025年营收88.86亿扭亏为盈净利润增长显著

微新创想：2025年，固德威技术股份有限公司实现营业总收入88.86亿元，同比增长31.88%。这一显著增长标志着公司在新能源领域持续发力，业务拓展成效明显。同时，公司归母净利润达到1.36亿元，同比大幅增加1.98亿元，成功实现扭亏为盈，展现出强大的盈利能力和市场竞争力。微新创想：扣非净利润为0.36亿元，基本每股收益0.56元。这些财务指标不仅反映了公...

18:04

HORIBA整合EtaMax技术打造全链检测方案亮相SEMICON China 2026

微新创想：2026年3月19日，HORIBA在SEMICON China 2026展会期间首次全面展示收购韩国EtaMax后的整合检测方案。该方案融合HORIBA先进光谱技术与EtaMax量产检测能力，覆盖“从Lab到Fab”全链条。微新创想：首台搭载HORIBA光谱技术的EtaMax样机将于2026年下半年部署至上海嘉定厚立方（C-CUBE）。这一部署标...

18:04

2025年中国汽车召回190次新能源占比近四成

微新创想：2025年我国共实施汽车召回190次，涉及车辆684.6万辆，同比分别下降18.5%和39.1%。数据显示，汽车召回数量和涉及车辆数量均有所减少，反映出行业整体质量水平的提升。微新创想：在所有召回案例中，新能源汽车召回次数和数量分别为105次和265.2万辆，占总召回量的38.7%。这表明新能源汽车市场在快速发展的同时，也面临着一定的质量管控挑战...

18:04

张剑颖获批出任平安资管总经理女性首任总经理彰显行业突破

微新创想：2026年3月19日，平安资产管理有限责任公司发布公告，正式宣布张剑颖获得国家金融监督管理总局的核准，升任公司总经理。她成为平安资管自2005年成立以来的第一位女性总经理，也是公司第五任总经理。张剑颖出生于1976年，拥有复旦大学本科学历和南洋理工大学硕士学位。自2006年加入平安资管以来，她在公司内部积累了丰富的管理经验。多年来，她担任过多个关...

18:04

法拉利2026年回归实体按键强调用户体验与差异化设计

微新创想：2026年3月，法拉利宣布将在Purosangue、12Cilindri等车型上提供方向盘物理按键的改装方案。这一举措标志着法拉利在汽车交互设计领域迈出了重要一步。同时，Testarossa、Amalfi以及首款纯电跑车Luce也显著增加了实体按键的配置，进一步强化了驾驶体验的直观性与操控感。法拉利CEO维尼亚在发布会上指出，目前市场上流行的触控...

18:04

Rivia获1500万美元A轮融资 AI赋能临床试验数据整合与分析

微新创想：2026年3月19日，临床试验智能服务商Rivia宣布完成1500万美元A轮融资，Earlybird Venture Capital领投，Nina Capital、Amino Collective与Speedinvest跟投。此次融资标志着Rivia在推动临床试验数字化转型方面迈出了重要一步。该公司总部位于欧洲（具体地点未披露），专注于利用人工智...

18:03

宁夏宝丰能源2025年营收480亿元净利增长79%引领行业增长

微新创想：2025年宁夏宝丰能源集团股份有限公司实现营收480.38亿元同比增长45.64% 公司全年业绩表现亮眼归母净利润达到113.50亿元同比增长79.09% 截至2025年12月31日公司资产总额为901.52亿元所有者权益为483.90亿元关键管理人员薪酬合计5005.99万元其中总裁刘元管和常务副总裁高建军的年薪均超过500万元年...

18:03

Flexsys宣布2026年3月23日起亚洲不溶性硫磺产品价格上调0.60美元

微新创想：Flexsys公司宣布自2026年3月23日起对全球发货订单调整不溶性硫磺产品价格此次调价覆盖所有地区市场，其中亚洲市场每公斤价格上涨0.60美元价格调整适用于所有新发货订单，不包括已签订合同的订单公司表示此次调价是为应对原材料及物流成本持续上升带来的压力 Flexsys已提前通知客户确保信息透明客户将按照原有合同条款执行既有订单的价格安排...

17:31

文远知行携手斯洛伐克启动首个国家级自动驾驶项目

微新创想：3月19日，文远知行与ELEVATE Slovakia达成国家级战略合作，正式启动斯洛伐克首个自动驾驶项目。这一合作标志着文远知行在欧洲市场的重要布局，也代表着中国自动驾驶技术走向国际舞台的又一里程碑。该项目覆盖Robotaxi、Robobus、Robovan及Robosweeper全产品线，将分别用于客运、邮政配送及智慧环卫等多个应用场景。通过...

17:31

京东科技携手建发轻工打造智能供应链新生态助力消费产业升级

微新创想：3月19日，建发轻工与京东科技在北京京东集团全球总部正式签署战略合作协议。此次合作标志着双方在数字化转型与产业升级道路上迈出重要一步。双方将重点聚焦家电、消费电子以及咖啡等热门消费品类，在新消费场景下进一步深化合作。通过整合资源与优势，共同探索更广阔的市场空间与商业价值。依托建发轻工强大的全链路供应链服务能力，结合京东科技在金融科技、风控建模和...

华盛顿州立大学研究揭示ChatGPT在复杂科学判断中频繁自相矛盾

最新快讯

2026年03月19日