最新研究表明,大语言模型(LLMs)在面对质疑时表现出令人惊讶的“软弱”特质。以GPT-4o为代表的先进模型,在初始回答时往往展现出惊人的自信,但当遭遇反对意见时,其判断力却可能迅速动摇。这一反差现象已引起学术界的高度关注,研究人员正致力于揭示其背后的深层机制。

研究发现,大语言模型在自信与自我怀疑之间呈现一种矛盾的行为模式。这些模型在首次给出答案时,会像人类一样表现出强烈的自信,并坚决维护自己的观点。然而,一旦遭遇质疑或反对意见,它们的敏感度会异常提高,甚至会在面对明显正确的信息时产生不必要的自我怀疑。这种认知偏差不仅限于特定模型,而是普遍存在于当前主流的大语言系统中。

为了深入探究这一现象,研究团队设计了一项严谨的实验。实验选取了Gemma3、GPT-4o等具有代表性的模型,进行了一系列二元选择问题的测试。在实验过程中,模型首先独立完成问题回答,随后会收到模拟的反馈建议,并在此基础上做出最终决策。实验结果令人惊讶:当模型能够看到自己最初的答案时,它们更倾向于坚持原始判断;而当原始答案被隐藏后,模型改变答案的概率显著增加,显示出对反对建议的过度依赖。这种“耳根子软”的现象揭示了模型在信息确认过程中的脆弱性。

大语言模型自信危机:GPT-4o为何轻易放弃正确答案插图

这种现象的形成可能源于多个因素。首先,模型在训练过程中接受的强化学习人类反馈(RLHF)使其产生了对外部输入的过度迎合倾向。其次,模型的决策逻辑主要基于海量文本的统计模式而非逻辑推理,导致它们在面对反对信号时容易被偏差引导。此外,模型缺乏稳定的记忆机制,在没有固定参照的情况下容易产生认知动摇。这些因素共同作用,使得大语言模型在多轮对话中表现出不稳定的认知行为。

这一研究成果对我们如何有效利用大语言模型具有重要启示。在应用这些技术进行复杂决策或多轮对话时,我们需要特别留意模型对反对意见的敏感性,避免因过度依赖模型而偏离正确结论。未来,改进模型的认知稳定性、增强其逻辑推理能力,以及优化训练方法,将是大语言模型发展的重要方向。这一发现不仅有助于我们更全面地认识大语言模型的局限性,也为未来技术改进提供了明确的方向。

最新快讯

2025年07月21日

23:54
2025年7月21日,ST西发正式对外发布一则备受市场关注的公告,宣布公司计划以现金方式收购嘉士伯国际有限公司所持有的西藏拉萨啤酒有限公司50%股权。此次交易规模预计将构成重大资产重组,一旦成功将显著提升ST西发的产业布局与市场竞争力。值得注意的是,尽管双方在股权转让条款清单上已初步达成共识,但截至目前尚未签署任何具有法律效力的正式协议,交易仍处于待定状态。...
23:54
2025年7月21日,航天领域传来重磅消息,蓝色起源正式宣布,即将执行的NS-24发射任务将迎来六名宇航员,其中备受瞩目的加密货币企业家孙宇晨将位列其中。此次发射活动预计在美国境内某发射场进行,具体发射时间尚未公布,但已引发全球航天爱好者和科技界的广泛关注。蓝色起源方面表示,此次任务不仅是一次商业航天的成功实践,更将推动其商业航天计划的持续发展,为未来太空旅...
23:54
2025年7月20日,在巴西热情似火的赛场上,一场科技与智慧的巅峰对决——2025 RoboCup机器人足球世界杯人形组比赛落下帷幕。中国清华大学火神队凭借其精湛的战术配合和先进的机器人技术,成功击败各路强敌,最终捧起冠军奖杯。这一历史性时刻不仅标志着中国机器人技术的显著进步,更象征着中国战队在该组别实现了零的突破,首次登顶世界之巅。亚军归属中国农业大学山海...
23:54
北京时间2025年7月21日,备受瞩目的AI芯片领域新锐企业Ambiq Micro正式拉开美国首次公开募股(IPO)的序幕,标志着其在全球资本市场的崭新里程碑。这家专注于超低功耗半导体技术的创新者,此次计划以每股22至25美元的区间定价,发行高达340万股股票,预计最高可筹集0.85亿美元发展资金。这一重要融资举措不仅将为Ambiq Micro注入强劲的资本...
23:54
7月21日,人工智能与机器人领域的领军企业优必选正式宣布启动股票配售计划,以每股82至83港元的区间价格向市场发行新股,预计筹集资金总额约为3亿美元。此次配售活动将在中国香港举行,旨在为优必选的持续发展注入强劲动力。 此次融资的核心目标在于提升企业的资金流动性,为未来的战略扩张提供充足的财务支持。通过此次配售,优必选将进一步巩固其在人工智能和机器人领域的领先...
23:54
2025年7月21日,中国房地产行业迎来重大利好消息,世茂集团(股票代码:00813.HK)在香港高等法院的监督下,成功完成了境外债务重组程序。这一涉及约115亿美元债务的重组方案,获得了包括美元票据、银团贷款在内的约144亿美元债权人的广泛支持,充分展现了市场对世茂未来发展的信心。 此次债务重组是世茂集团在当前复杂市场环境下采取的关键性自救措施。通过精心设...
23:54
7月21日,歌尔微电子正式向香港交易所重新递交上市申请文件,联席保荐机构阵容强大,包括中金公司、中信建投国际、招银国际以及瑞银集团联合提供支持。值得注意的是,该公司此前于2025年1月20日首次提交的招股书因逾期未更新而于7月20日失效。此次重新提交招股书,保荐团队与首次申报时期保持完全一致,这一举措不仅彰显了歌尔微电子对港股市场的坚定信心,也反映出公司推进...
23:54
7月21日下午,一场聚焦具身智能领域的重磅合作在无锡拉开帷幕。凯龙高科携手锡港沪机器人灵巧智能研究院以及无锡市产业创新研究院,共同签署了战略合作协议,旨在推动灵巧智能手及其核心零部件的智能检测设备研发与产业化进程 本次合作的核心目标直指具身智能灵巧手这一前沿技术领域。三方将强强联合,共同制定灵巧手检测领域的行业标准,通过建立科学严谨的评估体系,重点衡量灵巧手...
23:54
7月21日,楚天龙在一场备受瞩目的投资者交流会上,向外界披露了公司在数字人民币领域的最新进展。公司高层楚天龙透露,楚天龙正与多家合作伙伴紧密协作,共同推进数字人民币在跨境支付场景的应用落地。这一战略举措不仅彰显了公司对数字货币发展趋势的前瞻把握,更预示着未来跨境金融服务将迎来革命性变革。 在具体业务布局方面,楚天龙创新性地规划了将稳定币与SIM卡相结合的跨境...
23:54
2025年7月21日,COMEX黄金期货市场迎来强劲反弹,当日金价上涨1.5%,最终收报3408.9美元/盎司的阶段性高点。这一显著涨幅主要源于全球市场避险情绪的显著升温。随着地缘政治紧张局势持续发酵,以及经济数据表现不及预期,投资者纷纷将黄金视为重要的避险资产,导致黄金配置需求大幅增加。分析师指出,黄金作为传统的避险品种,在市场不确定性加剧时往往表现出较强...
22:30
7月21日,一则暖心又令人心酸的新闻引发了社会广泛关注。安徽一位外卖骑手在送餐途中带着年幼的女儿,这一画面瞬间触动了无数网友的心弦。据当事人丈夫透露,他们的生活正经历着前所未有的考验。女儿于2023年不幸被确诊为腹膜后恶性肿瘤,由于家中缺乏其他劳动力,妻子不得不一边照顾病榻中的孩子,一边坚持送外卖维持生计,而丈夫则通过跑单补贴家用。令人欣慰的是,当地政府已经...
22:30
微新创想7月21日最新消息,知名数码博主数码闲聊站率先爆料,华为新一代智能手表已成功完成备案流程,预计将与备受期待的华为三折叠屏手机Mate XTs同台亮相,正式发布时间大概率定在9月份。据行业内部消息透露,华为今年9月的秋季新品发布会将呈现一场科技盛宴,除三折叠屏旗舰外,还将同步推出新款智能手表、平板电脑、无线耳机等多款重磅产品,全面展示鸿蒙操作系统生态的...