微新创想(idea2003.com)9月14日 消息:近年来,大规模语言模型在众多下游任务中展现出卓越性能,但同时也面临着严峻挑战。其中,大模型生成的与事实相悖的“幻觉”内容已成为学术界的研究焦点。近期,腾讯 AI Lab 联合国内外多家顶尖学术机构共同发布了关于大模型幻觉的全面综述,深入探讨了幻觉的评估方法、溯源机制以及缓解策略。论文链接:https://arxiv.org/abs/2309.01219Github 链接:https://github.com/HillZhang1999/llm-hallucination-survey

研究者根据大模型幻觉的表现形式,将其与用户输入、模型生成内容及事实知识之间的冲突分为三大类。目前,学术界的研究重点主要集中在与事实知识冲突的幻觉上,因为这类幻觉最容易对用户产生误导,影响信息传播的准确性。与传统语言生成任务中的幻觉问题相比,大模型幻觉呈现出数据规模巨大、模型通用性强以及幻觉现象不易被察觉等新特征,为研究带来了新的挑战。

在评估大模型幻觉方面,研究人员已提出多种生成式和判别式的基准测试,通过问答、对话等不同任务形式检验模型的幻觉倾向。这些基准测试设计了相应的判定指标,但可靠的自动评估方法仍需进一步探索。分析表明,海量低质训练数据以及模型对自身能力的高估是导致幻觉现象的重要原因。

为了有效减少幻觉,研究人员从预训练、微调、强化学习等多个阶段入手进行干预。在预训练阶段,可通过提升语料质量来降低幻觉发生的概率;在微调阶段,人工检查数据可以有效识别并修正潜在的错误;在强化学习阶段,通过惩罚过度自信的回复,引导模型生成更可靠的内容。此外,在推理阶段,还可以通过优化解码策略、引入知识检索机制以及测量不确定度等方式,进一步缓解幻觉现象。

尽管近年来取得了一定的研究进展,但在可靠评估、多语言场景应用以及模型安全性等方面仍面临诸多挑战。总体而言,大模型幻觉的评估与缓解仍需深入研究,以推动大模型在实际应用中的可靠性和有效性,促进人工智能技术的健康发展。

最新快讯

2026年02月11日

10:19
2026年2月10日,中国城市基础设施(02349.HK)旗下全资附属深圳华峰基建投资公司,拟以330万港元收购智联飞创科技60%股权。交易通过发行等额可换股债券支付,初步换股价为每股0.3港元。智联飞创主营AI技术与SaaS工具融合,为组织提供智能决策支持与商业赋能。此次收购旨在强化集团在智慧基建与数字化服务领域的技术能力与业务协同。
10:19
2026年2月10日,荷兰厂商Trust在荷兰正式发布办公无线鼠标Seron Slim。该鼠标准确尺寸为111×62×32mm,重83g,采用低矮便携设计及可左右倾斜无极滚轮。支持200–3200 DPI调节、三模连接与静音微动,配备PTFE脚垫及续航达3个月的内置可充电电池。产品主体使用再生塑料,提供黑、白、蓝、粉四色可选,售价24.99欧元(约合205...
10:19
2月11日,小米创始人、董事长兼CEO雷军在直播中透露,新一代小米SU7门把手已提前满足即将实施的《汽车车门把手安全技术要求》强制性国家标准。该标准由工信部等批准发布,规定每车门须配备至少一个机械释放内把手,2027年1月1日起正式施行。新款SU7新增机械冗余设计,有效解决低温失灵及高故障率问题。此举系小米在智能电动车安全领域主动升级的关键举措。
10:19
2月11日,安徽中通快递安庆宿松网点赴宿松县特殊教育学校开展“暖冬行动”。活动由该网点员工自发组织,向在校师生捐赠全新棉袄100余件及保暖手套、围巾等冬日物资。此举旨在关爱特殊儿童成长,助力教育帮扶。活动当天,网点人员与校方共同发放物资,并了解教学需求,后续将探索常态化助学机制。
10:19
2026年2月12日,浙江海圣医疗器械股份有限公司在北京证券交易所正式上市。公司股票简称为“海圣医疗”,证券代码为920166,发行价12.64元/股,发行市盈率13.99倍。本次公开发行11,294,118股,采用战略配售与网上发行相结合方式,其中战略配售112.9411万股,网上发行1016.4707万股,网上申购获配比例约0.0187%。募集资金总额...
10:19
2026年2月,中国科学院大连化学物理研究所陈忠伟院士团队在黑龙江漠河完成超低温锂电池实地测试。该电池在零下34℃静置8小时后仍保持超85%容量,并驱动工业级无人机完成长续航飞行与任务模拟。团队通过耐低温电解液、准固态隔膜及AI电源管理系统,攻克传统锂电池低温活性骤降难题。技术可适配零下40℃至50℃宽温域,续航衰减率控制在常温10%以内,显著提升极寒地区...
10:19
截至2026年2月11日,《阿凡达3:火与烬》全球票房约14亿美元(96.86亿元人民币),未达15亿美元盈亏平衡线。该片于2025年上映,制作宣发成本约5亿美元,虽居当年好莱坞票房榜第二,但较前两部大幅下滑。业内分析指出,技术红利递减、剧情创新不足及受众局限致口碑与续航力减弱。迪士尼正重新评估2029年、2031年续集计划。
10:19
2026年春节期间(2月11日起),小米汽车在全国范围内推行“服务不打烊”举措。雷军宣布,全国销售及服务门店按正常时间营业,275家服务中心覆盖158个城市,提供7×24小时线上咨询、上门补胎、机电快修及事故车接收服务。小米汽车App商城同步正常运营。此举旨在保障用户节日期间购车、维保与应急需求,提升全周期服务响应能力。
10:19
2月11日,顺丰饶河智能仓在黑龙江省饶河县正式开仓。该仓由顺丰建设运营,旨在提升县域物流效能,服务当地特色农产品上行。依托自动化分拣、智能仓储等技术,实现订单处理提速与履约精度提升。此举是顺丰深化县域物流网络布局的关键一步,将助力饶河县电商发展和乡村振兴。
10:19
2月10日起,京东上线有奖发票抽奖服务,成为首批响应财政部等三部门联合部署的电商平台。活动覆盖全国50个试点城市,消费者在零售、餐饮、住宿、文旅等场景消费,取得单张100元及以上、实名数字化电子普通发票,即可上传参与抽奖,单次最高奖金800元。太原、宜昌已率先启动,北京、上海、武汉、天津等地将陆续跟进。此举旨在激发线下线上消费活力。
10:19
2026年2月11日,曜越(Thermaltake)官网正式上线新款TGM-V49CDQ显示器。该机采用49英寸曲面LCD面板,分辨率达5120×1440(DQHD),刷新率240Hz,响应时间1ms(典型值),峰值亮度400nits,色域覆盖95% DCI-P3。支持VRR自适应同步、暗色增强、无闪烁及低蓝光技术。接口配备双HDMI 2.1、DP 1.4...
10:16
微新创想:2月10日晚间 雷军开启小年夜直播 带网友云参观小米汽车科技展厅和定制服务中心 直播中 雷军透露 小米汽车去年推出的高阶驾驶培训 已经培训了超过1万名车主 成本很高 人均2000元左右 雷军提到 去年第一批全部是免费的 今年可能会收个成本价 小米汽车高阶驾驶培训课程旨在帮助车主提升驾驶技能 让出行更安全 官方数据显示 在2025年 小米汽车举办了4...