微新创想(idea2003.com)9月14日 消息:近年来,大规模语言模型在众多下游任务中展现出卓越性能,但同时也面临着严峻挑战。其中,大模型生成的与事实相悖的“幻觉”内容已成为学术界的研究焦点。近期,腾讯 AI Lab 联合国内外多家顶尖学术机构共同发布了关于大模型幻觉的全面综述,深入探讨了幻觉的评估方法、溯源机制以及缓解策略。论文链接:https://arxiv.org/abs/2309.01219Github 链接:https://github.com/HillZhang1999/llm-hallucination-survey

研究者根据大模型幻觉的表现形式,将其与用户输入、模型生成内容及事实知识之间的冲突分为三大类。目前,学术界的研究重点主要集中在与事实知识冲突的幻觉上,因为这类幻觉最容易对用户产生误导,影响信息传播的准确性。与传统语言生成任务中的幻觉问题相比,大模型幻觉呈现出数据规模巨大、模型通用性强以及幻觉现象不易被察觉等新特征,为研究带来了新的挑战。

在评估大模型幻觉方面,研究人员已提出多种生成式和判别式的基准测试,通过问答、对话等不同任务形式检验模型的幻觉倾向。这些基准测试设计了相应的判定指标,但可靠的自动评估方法仍需进一步探索。分析表明,海量低质训练数据以及模型对自身能力的高估是导致幻觉现象的重要原因。

为了有效减少幻觉,研究人员从预训练、微调、强化学习等多个阶段入手进行干预。在预训练阶段,可通过提升语料质量来降低幻觉发生的概率;在微调阶段,人工检查数据可以有效识别并修正潜在的错误;在强化学习阶段,通过惩罚过度自信的回复,引导模型生成更可靠的内容。此外,在推理阶段,还可以通过优化解码策略、引入知识检索机制以及测量不确定度等方式,进一步缓解幻觉现象。

尽管近年来取得了一定的研究进展,但在可靠评估、多语言场景应用以及模型安全性等方面仍面临诸多挑战。总体而言,大模型幻觉的评估与缓解仍需深入研究,以推动大模型在实际应用中的可靠性和有效性,促进人工智能技术的健康发展。

最新快讯

2025年12月20日

09:36
Canonical官方于12月19日正式官宣,备受期待的Ubuntu 26.04 LTS桌面操作系统将于2026年4月23日正式发布,此次更新将采用"Resolute Raccoon"作为代号。据悉,该版本将全面搭载全新的Linux 6.20内核,尽管该内核版本在正式发布时可能仍处于候选阶段,但Canonical将采取强制集成措施,以确保用户能够获得最前沿的...
09:36
Digital Foundry近日发布了关于《最终幻想7重制版》在Switch 2平台试玩版表现的深度视频分析,为玩家们带来了宝贵的参考信息。测试结果显示,游戏在Switch 2上的帧率表现令人满意,基本稳定在30帧左右,为玩家提供了流畅的游戏体验。虽然掌机模式下偶尔会出现掉帧现象,但整体体验与PS4版本相近,让玩家无需过分担忧性能问题。 画质方面,得益于D...
09:36
2025年12月20日,海南自由贸易港迎来历史性时刻——正式实施封关运作,标志着跨境资金流动进入全新加速阶段。作为这一战略举措的重要支撑,多功能自由贸易账户(EF账户)自2024年5月试点上线以来,已展现出强大的应用潜力。数据显示,EF账户在贸易结算、投融资合作、跨境理财等多个场景中实现突破性应用,开户数量与业务量呈现高速增长态势。这一系列创新举措的核心目标...
09:36
本周末(12月20日至21日),一股强劲冷空气自北向南影响我国,中东部地区将经历一次大范围降温过程。根据气象部门监测,东北及长江中下游多地气温降幅尤为显著,累计最高气温可能下降超过10℃,部分地区降温幅度甚至更大,公众需特别关注气温变化。 此次冷空气活动不仅带来剧烈降温,还导致天气系统发生明显调整。原本活跃的雨雪带在内蒙古和东北地区逐渐减弱,雨雪范围明显缩减...
09:36
2025年12月20日,中国钾肥市场正经历一场显著的供需失衡引发的价格上涨。受限于国内资源禀赋,钾肥产能高度集中,而当前市场供应端持续承压,导致价格中枢稳步上移。据最新数据显示,现货价格已攀升至约3000元/吨,较2024年全年的平均价格水平出现了明显涨幅,反映出市场对钾肥的强劲需求。 在供应端,青海地区作为国内主要的钾肥生产基地,部分生产企业反馈产销两旺,...
09:36
2025年12月20日,微软正式宣布将在Windows 11 25H2版本中集成原生NVMe存储支持,这一重大更新将彻底改变SSD性能表现。通过彻底移除传统SCSI协议的传输瓶颈,全新支持方案有望为用户带来高达80%的理论性能飞跃。值得注意的是,该技术此前已在Windows Server 2025系统中得到成功验证,实际应用效果已超出预期。 要启用这一革命性...
09:35
2025年12月20日,全球科技巨头软银集团正全力以赴加速资金筹措,目标是在年底前完成对OpenAI高达225亿美元的注资承诺。为达成这一雄心勃勃的目标,软银采取了一系列果断行动。公司近期宣布出售其全部持有的英伟达股份,总价值达58亿美元,同时减持了价值48亿美元的T-Mobile股份。这些重大资产调整不仅为集团带来了急需的资金,也彰显了其在资本运作上的灵活...
09:05
2025年12月20日,微软通过Windows 11 Dev/Beta频道预览版Build 26220.7523发布了一项重要更新,旨在解决文件管理器深色模式下长期困扰用户的“闪光弹”问题。此前该问题虽经多次修复,但在新建标签页时仍会短暂出现白屏闪烁现象,其根本原因在于Win32旧组件与现代UI渲染引擎之间的时序冲突。此次更新通过底层优化彻底消除了这一干扰,...
09:05
2025年12月20日,知名游戏平台V社正式宣布将在美国市场停止销售Steam Deck LCD 256GB版本。这一重要决定已在V社美国官方商店页面公开发布,公告明确指出该型号将在售罄后不再进行生产,未来美国市场将仅提供Steam Deck OLED版本供消费者选择。业内分析认为,此举是V社在完成库存清理后进行的产品迭代升级的正常商业行为。 回顾来看,V社...
09:05
2025年12月19日,微软正式向Dev和Canary频道的Windows Insider用户发布了画图应用的新版本,版本号为11.2511.281.0。本次更新聚焦于一项创新功能——"自动隐藏工具栏",旨在通过智能收起界面元素,最大化屏幕空间的利用率。这一设计特别适合在小尺寸设备或进行大幅面图像创作时使用,能够显著提升用户的视觉体验和工作效率。 用户可以通...
08:35
2025年12月19日,OpenAI为ChatGPT带来了令人期待的全新功能升级,旨在让用户能够更精细地掌控AI的沟通风格与情感表达。这一重要更新不仅覆盖了网页版与移动应用,更在设置界面中引入了直观的调节选项,让用户可以根据具体需求,灵活调整GPT的"温和体贴"与"热情洋溢"程度。此外,新增的性格类型选择,包括"专业可靠"、"亲和友善"等多元选项,进一步丰富...
08:35
三星于2025年12月18日重磅发布专为AI数据中心量身打造的SOCAMM2 LPDDR5X内存模块,这一创新产品基于先进的LPDDR5X DRAM技术,采用模块化可拆卸设计,完美兼容现有主板架构,为用户带来前所未有的便捷升级体验。与传统的RDIMM相比,该模块实现了带宽的惊人提升超过两倍,同时功耗降低幅度高达55%以上,从源头上显著增强了AI服务器的综合性...