微新创想(idea2003.com)9月14日 消息:近年来,大规模语言模型在众多下游任务中展现出卓越性能,但同时也面临着严峻挑战。其中,大模型生成的与事实相悖的“幻觉”内容已成为学术界的研究焦点。近期,腾讯 AI Lab 联合国内外多家顶尖学术机构共同发布了关于大模型幻觉的全面综述,深入探讨了幻觉的评估方法、溯源机制以及缓解策略。论文链接:https://arxiv.org/abs/2309.01219Github 链接:https://github.com/HillZhang1999/llm-hallucination-survey

研究者根据大模型幻觉的表现形式,将其与用户输入、模型生成内容及事实知识之间的冲突分为三大类。目前,学术界的研究重点主要集中在与事实知识冲突的幻觉上,因为这类幻觉最容易对用户产生误导,影响信息传播的准确性。与传统语言生成任务中的幻觉问题相比,大模型幻觉呈现出数据规模巨大、模型通用性强以及幻觉现象不易被察觉等新特征,为研究带来了新的挑战。

在评估大模型幻觉方面,研究人员已提出多种生成式和判别式的基准测试,通过问答、对话等不同任务形式检验模型的幻觉倾向。这些基准测试设计了相应的判定指标,但可靠的自动评估方法仍需进一步探索。分析表明,海量低质训练数据以及模型对自身能力的高估是导致幻觉现象的重要原因。

为了有效减少幻觉,研究人员从预训练、微调、强化学习等多个阶段入手进行干预。在预训练阶段,可通过提升语料质量来降低幻觉发生的概率;在微调阶段,人工检查数据可以有效识别并修正潜在的错误;在强化学习阶段,通过惩罚过度自信的回复,引导模型生成更可靠的内容。此外,在推理阶段,还可以通过优化解码策略、引入知识检索机制以及测量不确定度等方式,进一步缓解幻觉现象。

尽管近年来取得了一定的研究进展,但在可靠评估、多语言场景应用以及模型安全性等方面仍面临诸多挑战。总体而言,大模型幻觉的评估与缓解仍需深入研究,以推动大模型在实际应用中的可靠性和有效性,促进人工智能技术的健康发展。

最新快讯

2026年02月11日

13:42
微新创想:2月10日,ICS Corporate Services Group Inc.(ICS集团)向港交所主板递交上市申请,农银国际为独家保荐人。该公司是中国领先的企业出海专业服务提供商,专注于为企业提供全方位的出海支持服务。其主营业务涵盖企业服务、基金行政管理以及财务税务服务等多个领域。 据弗若斯特沙利文数据,ICS集团在2024年以10.5%的市场份...
13:42
微新创想:2026年2月 欧洲云计算提供商Nebius宣布达成收购AI搜索初创公司Tavily的协议 交易金额为2.75亿美元 预计于未来两个月内完成交割 Tavily成立于2024年 总部位于欧洲 专注于为AI智能体提供实时网络访问层服务 此次收购旨在强化Nebius在AI基础设施领域的技术能力与产品生态 双方未披露具体交割条件及整合计划
13:42
微新创想:2月11日12时13分 西藏阿里地区改则县发生3.8级地震 2月11日12时13分 西藏阿里地区改则县发生3.8级地震 地震发生的具体位置为北纬33.04度 东经85.12度 震源深度为10千米 此次地震属于浅源地震 地震波传播较快 但影响范围相对较小 目前未接到人员伤亡和财产损失的报告 地震感轻微 部分居民短暂感到晃动 相关部门已启动应急响应 开...
13:41
微新创想:2025年国家开发银行在基础设施建设方面持续发力,向网络型、产业升级、城市、农业农村、国家安全五大领域发放贷款共计1.64万亿元。这一举措体现了国家对关键领域发展的高度重视,旨在通过金融支持推动重大项目的实施与推进。 微新创想:其中,广州至湛江高铁项目的开通运营成为重点支持对象之一。该项目不仅将极大改善区域交通条件,还将促进沿线城市的经济发展与资源...
13:41
微新创想:2026年2月11日,中芯国际联合CEO赵海军在业绩交流会上表示,受AI算力需求激增驱动,高带宽内存(HBM)缺货将延续数年,瓶颈正转向后端测试环节 晶圆前端产能预计9个月后释放,但新增产能将优先投向手机、电脑等消费类产品 叠加渠道库存释放,中低端手机及PC市场有望于2026年第三季度出现需求回升
13:41
微新创想:2026年2月10日,江苏深蓝航天有限公司在江苏南通成功完成了“雷霆-RS”液氧煤油变推力发动机的两次整机点火试验。试验分别持续了5秒和40秒,标志着该发动机在关键技术领域取得了重要突破。 微新创想:此次试验的发动机推力达到130吨,成为国内目前推力最大的针栓式液氧煤油发动机。该发动机采用先进的变推力技术,能够根据任务需求灵活调节推力,为后续火箭发...
13:41
微新创想:近日,安徽合肥肥西一名25岁小伙解皓明在打扫老房子时,意外发现了一块奶奶生前用来压锅盖的石头。这块看似普通的石头却意外地在网络上引发了一场温情回忆潮,让无数网友为之动容。 解皓明在过年放假期间回到家乡,当他看到这块石头时,记忆的闸门瞬间被打开。他说,这块石头虽不起眼,却承载着奶奶做饭时的温暖记忆,看到它就会想起奶奶音容笑貌。 民俗学者指出,随着气压...
13:03
微新创想:2026年2月11日,裕同科技(002831.SZ)发布公告,拟以4.49亿元自有或自筹资金,向关联方观点投资收购其持有的华研新材51%股份。此次交易的双方存在关联关系,因裕同科技的实际控制人王华君、吴兰兰夫妇全资控股观点投资。交易完成后,华研新材将正式纳入裕同科技的合并报表范围,成为其控股子公司。 此次收购是裕同科技在战略布局上的重要一步。通过整...
13:03
微新创想:2026年2月10日,芝奇(G.Skill)就DDR4/DDR5内存速度宣传误导集体诉讼达成和解,同意支付240万美元 诉讼指控其未明确告知消费者:标称高频需通过BIOS启用XMP/EXPO超频功能,否则仅以JEDEC基础频率运行 和解要求芝奇自2026年起在包装、官网及规格表中添加“最高(up to)”标识及免责声明,说明性能依赖主板与CPU设置...
12:32
微新创想:2026年2月6日至10日,京东在德国法兰克福Ambiente展期间,与双立人、STAUB、爱仕达、凌丰、三头鹰、三禾、Joseph Joseph、德国唯宝、永丰源、Alluflon等十余家全球优质厨具品牌签署战略合作协议。此次合作不仅涵盖了多个国际知名品牌,也包括了国内优秀的厨具制造商,体现了京东对厨具品类的高度重视。 微新创想:合作的核心目标是...
12:32
微新创想:2026年2月11日 抖音生活服务正式启动“春节不打烊”服务保障专项 抖音生活服务在2026年2月11日宣布全面启动“春节不打烊”服务保障专项。这一举措标志着平台正式进入春节消费高峰的备战阶段。专项服务覆盖全国范围,涵盖餐饮、旅游、娱乐等多个本地生活领域,为商家和消费者提供全方位支持。 此次专项的推出旨在应对春节期间的大量消费需求。随着人们出行和聚...
12:32
微新创想:2026年2月10日,波兰开源咨询公司3mbdeb成功将AMD新一代开源固件openSIL移植到MSI PRO B850-P主板上。该主板基于Zen 5架构,这一突破性进展早于AMD官方公布的计划,意味着openSIL替代封闭AGESA微码的进程提前进入了Zen 5时代。 openSIL采用了模块化设计,能够与Coreboot等开源固件平台无缝结合...