编者按:本文源自微信公众号硅兔赛跑(ID:sv_race),作者林檎,编辑蔓蔓周,经微新创想授权转载。当前,全球顶尖的科研与工业力量正汇聚于一个前所未有的目标——提升语言模型(LLMs)的性能与实用性。通过与众多业界及学界同仁的深入交流,我整理出以下十大蓬勃发展的研究方向,它们正引领着LLMs技术的革新浪潮。

01 减少和衡量幻觉
幻觉,即AI模型生成虚假或无意义内容的现象,是当前LLMs发展面临的核心挑战之一。尽管在创意场景中,幻觉难以完全避免,但在大多数应用场景中,它已成为亟待解决的缺陷。近期,我参与了一个由Dropbox、Langchain、Elastics和Anthropic等公司组成的LLM讨论小组,与会者普遍认为,幻觉问题是制约企业大规模应用LLMs的关键障碍。因此,减少幻觉现象并建立有效的衡量指标,已成为学术界和初创企业竞相探索的热点领域。目前,已有多种临时代码可减少幻觉,如增加提示中的上下文信息、采用思维链、提升自洽性,或要求模型输出简洁化。以下是一些值得参考的学术成果:
· Survey of Hallucination in Natural Language Generation (Ji et al., 2022)
· How Language Model Hallucinations Can Snowball (Zhang et al., 2023)
· A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity (Bang et al., 2023)
· Contrastive Learning Reduces Hallucination in Conversations (Sun et al., 2022)
· Self-Consistency Improves Chain of Thought Reasoning in Language Models (Wang et al., 2022)
· SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models (Manakul et al., 2023)

02 优化上下文长度和上下文构建
绝大多数AI问题都依赖于上下文信息。例如,询问”哪家越南餐厅最好?”时,地理位置是关键上下文,因为不同地区的最佳餐厅可能截然不同。根据《SituatedQA》(Zhang&Choi,2021)的研究,大量信息查询问题依赖于上下文,NQ-Open数据集中约16.5%的问题属于此类。对于企业应用场景,这一比例可能更高。假设某公司为客户开发聊天机器人,若要机器人能回答任何产品问题,则需整合客户历史记录或产品信息作为上下文。模型通过上下文”学习”的过程,即上下文学习,对检索增强生成(RAG)尤为重要。RAG分为两阶段:首先将文档分块并存储为向量数据库,然后通过查询嵌入匹配最相似的文档块。上下文长度越长,可插入的文档块越多,但模型能否有效利用这些信息,是另一关键问题。提升上下文学习效率,即”提示工程”,同样重要。近期研究显示,模型从索引开头和结尾获取信息的效果远优于中间部分:Lost in the Middle: How Language Models Use Long Contexts (Liu et al., 2023)。

03 融入其他数据模态
多模态技术具有巨大潜力,却常被低估。医疗、机器人、电商等领域大量应用场景需处理多模态数据,如医学预测需结合文本(医生笔记、患者问卷)与图像(CT、X射线等);产品数据常包含图像、视频、描述及表格信息。多模态模型能同时理解文本和图像,性能远超纯文本模型。随着文本训练数据可能耗尽,利用其他模态成为必然趋势。近期令人兴奋的应用包括帮助视障人士浏览互联网和导航现实世界。以下是一些多模态研究进展:
· [CLIP] Learning Transferable Visual Models From Natural Language Supervision (OpenAI, 2021)
· Flamingo: a Visual Language Model for Few-Shot Learning (DeepMind, 2022)
· BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models (Salesforce, 2023)
· KOSMOS-1: Language Is Not All You Need: Aligning Perception with Language Models (Microsoft, 2023)
· PaLM-E: An embodied multimodal language model (Google, 2023)
· LLaVA: Visual Instruction Tuning (Liu et al., 2023)
· NeVA: NeMo Vision and Language Assistant (NVIDIA, 2023)

04 提高LLMs的速度和降低成本
GPT-3.5推出后,其生产中的延迟和成本问题曾引发广泛关注。半年内,模型社区开发出内存占用仅为GPT-3.5 2%的模型,性能却接近GPT-3.5。这一现象印证了”优秀的技术总会被优化”的观点。以下为Guanaco 7B与ChatGPT GPT-3.5和GPT-4的性能对比数据。尽管进展显著,但大幅提升LLM性能仍极具挑战性。四年前,我撰写《设计机器学习系统》时,主要模型优化技术包括:
1. 量化:通过减少参数位数(如从32位降至16位或4位)降低模型大小
2. 知识蒸馏:训练小模型模仿大模型
3. 低秩分解:用低维张量替代高维张量
4. 剪枝:去除贡献较小的权重或连接
这些技术至今仍广泛应用。Alpaca采用知识蒸馏,QLoRA结合低秩分解和量化。

05 设计新的模型架构
自2012年AlexNet以来,LSTM、seq2seq等架构虽兴衰交替,但Transformer自2017年推出后表现异常稳定。开发超越Transformer的新架构极具挑战性。Transformer经过六年优化,在合适硬件上已实现令人惊叹的规模和效果。2021年Chris Ré实验室的”Efficiently Modeling Long Sequences with Structured State Spaces”引发行业热议。该实验室持续开发新架构,近期与初创公司Together推出Monarch Mixer,其核心思想是降低注意力机制和MLP的次二次复杂度。其他实验室也在探索类似思路,但公开研究较少。

06 开发GPU替代方案
自AlexNet以来,GPU一直是深度学习硬件主流。AlexNet的成功部分归功于首次成功使用GPU训练神经网络,相比之下,此前训练同等规模模型需成千上万个CPU。十年间,多家公司尝试开发AI专用硬件,包括Google的TPU、Graphcore的IPU、Cerebras及SambaNova(后转型为生成式AI平台)。量子计算也备受期待,主要参与者有IBM、Google及高校实验室。光子芯片作为另一前沿方向,通过光子传输数据实现更快更高效的计算。该领域已吸引数亿美元投资,包括Lightmatter、Ayar Labs、Lightelligence和Luminous Computing。以下是光子矩阵计算三种主要方法的进展时间线:
· 平面光转换(PLC)
· 马赫-曾德干涉仪(MZI)
· 波分复用(WDM)

07 提高agent的可用性
Agent作为能执行操作的LLMs(如浏览网页、发送邮件),是相对较新的研究方向。尽管Auto-GPT和GPT-Engineering等库已获极高关注,但人们对LLMs的可靠性、性能和行动能力仍存疑。斯坦福实验显示,生成式agent能从单一指令(如举办情人节派对)衍生出复杂社会行为,自主传播邀请、结识新朋友。Adept公司(由两位Transformer合著者及前OpenAI副总裁创立)已获近5亿美元融资,其agent已能浏览网页并添加Salesforce账户。

08 提升从人类偏好中学习的能力
RLHF(从人类偏好中进行强化学习)虽有效,但流程繁琐。人们正探索更优的LLMs训练方法。RLHF面临诸多挑战:
· 如何数学化人类偏好?当前通过比较确定优劣,但未量化程度差异
· 人类偏好定义:Anthropic从”有帮助、诚实、无害”三维度衡量;DeepMind试图生成最符合大众偏好的回答
· 偏好来源:需考虑文化、宗教、政治倾向差异,但现有标注数据存在偏见(如OpenAI的InstructGPT数据中90.5%标注者为男性)

09 提高聊天界面的效率
ChatGPT引发关于聊天界面适用性的持续讨论。聊天界面优势包括易学性、易访问性(支持语音输入)和强交互性。可改进方向:
· 一轮内多条消息:支持插入图像、位置、链接等
· 多模态输入:现有研究多集中于模型构建,界面优化空间大
· 将生成式AI融入工作流程:如指向图表列提问
· 编辑和删除消息:优化对话流程

10 为非英语语言构建LLMs
当前以英语为主的LLMs在非英语语言中的表现不佳。尽管有人认为这更多是资源问题而非研究问题,但低资源语言(如与英语/汉语相比数据量少)需要特殊技术。悲观者认为未来语言将趋同于英语和汉语。以下相关研究:
· ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large Language Models in Multilingual Learning (Lai et al., 2023)
· All languages are NOT created (tokenized) equal (Yennie Jun, 2023)
· Low-resource Languages: A Review of Past Work and Future Challenges (Magueresse et al., 2020)
· JW300: A Wide-Coverage Parallel Corpus for Low-Resource Languages (Agić et al., 2019)

结论
上述十大挑战中,非英语语言LLMs(第10项)直接关乎资源投入,幻觉问题(第1项)因LLMs概率性任务本质而更难解决,LLMs性能优化(第4项)永无止境,新架构和硬件(第5、6项)最具挑战性且不可或缺。部分问题需技术外策略(如人类偏好学习第8项)和用户体验(聊天界面第9项)协同解决。本文(含图片)经微新创想授权转载,不代表其立场,转载请联系原作者。如有疑问,请联系http://www.idea2003.com/。

最新快讯

2025年08月08日

00:12
乐信集团于北京时间8月7日正式宣布,公司将于美东时间8月26日执行2025年上半年的除权除息方案。根据公告内容,每股ADS将派发现金股息0.194美元,具体的派息日定于9月15日。这一股息分配方案占乐信2025年上半年净利润的25%,相较于2024年下半年的0.11美元/ADS,股息金额大幅上涨约76%,显示出公司对未来发展的强劲信心。 这一积极举措的背后,...
00:12
2025年7月,空客再次刷新交付记录,当月共向全球客户交付了67架先进飞机,进一步巩固了其在航空制造业的领先地位。这一亮眼成绩不仅彰显了空客卓越的生产能力,更体现了其产品在全球航空市场的高度认可度。截至目前,空客2025年累计交付量已攀升至373架,这一数字不仅刷新了年度交付新纪录,也充分证明了空客在复杂多变的全球航空市场中所展现出的强大韧性与持续竞争力。随...
00:12
2025年8月7日,华为在备受瞩目的2025华为数据存储用户精英论坛暨OceanClub嘉年华活动上,正式揭幕了其全闪分布式存储领域的最新力作——OceanStor Pacific 9926。这款创新产品专为应对海量数据场景而设计,不仅实现了与HDD存储的1:1无缝升级替代,更在存储效率与性能表现上实现了质的飞跃。华为数据存储产品线副总裁袁远在发布会上详细阐...
00:12
2025年8月7日,知名房地产企业碧桂园发布重要公告,宣布其清盘呈请聆讯时间已正式延期至2026年1月5日。此次延期引发了市场广泛关注,反映出碧桂园在当前复杂经济环境下寻求稳健解决方案的决心。据公告显示,呈请人虽明确表示将支持公司的重组计划,但强调这一支持需建立在满足一系列附加条款与条件的基础之上。这一安排不仅为碧桂园争取了更多时间进行内部调整,也为债权人提...
00:12
2025年8月7日,美国银行发布了一份深度市场分析报告,对礼来制药近期股价的异常波动表达了显著担忧。该报告指出,礼来制药的股价下跌幅度已远远超出了市场合理范围,与公司基本面表现严重脱节。美国银行基于严谨的市场数据分析和公司基本面评估,明确表示当前股价未能准确反映礼来制药的真实价值。分析人士进一步指出,市场情绪的剧烈波动以及短期因素可能是导致股价大幅震荡的主要...
00:12
8月7日,备受瞩目的汽车行业盛事拉开帷幕,一汽奥迪携旗下Q6L e-tron家族及A5L车型震撼登场,正式宣告与华为乾崑智能驾驶系统的深度合作成果。这一创新合作不仅彰显了双方在智能汽车领域的雄心,更开启了汽车智能化发展的新篇章。 华为乾崑智能驾驶系统作为此次合作的核心,凭借其卓越的决策能力,为奥迪车型注入了前所未有的智能驾驶体验。该系统通过精准的数据分析和实...
00:12
2025年7月彭博数据显示,事件驱动对冲基金指数迎来显著增长,资产管理规模当月增幅高达1.2%,展现出稳健的市场表现。回顾上半年,该指数累计增长5.3%,反映出事件驱动策略在2025年上半年的持续吸引力。 在单月业绩方面,事件驱动型对冲基金以3.5%的显著增长率位居前列,成为7月份表现最突出的策略类别。这一成绩进一步印证了事件驱动策略在短期市场波动中的应对能...
00:12
2025年8月7日,行业消息人士向媒体证实,美国大型电信运营商AT&T正在积极寻求出售其位于墨西哥的移动业务部门,预计交易估值将超过20亿美元。这一战略性举措旨在优化AT&T的国际资产布局,进一步集中资源发展核心业务领域,提升整体运营效率和市场竞争力。据悉,该笔交易预计将在未来数月内正式启动,但具体的交易条款和细节尚未向公众透露,相关方面仍在...
00:12
2025年8月7日,杭州总部果麦文化正式发布其2025年半年业绩报告,数据显示公司上半年经营表现亮眼。整体营业收入突破2.98亿元,较去年同期大幅增长29.75%,归母净利润更是实现566.32万元,同比增长高达80.38%。这一成绩充分彰显了果麦文化在图书出版与互联网业务领域的强劲发展势头。 作为国内知名的文化企业,果麦文化专注于图书出版发行及互联网业务创...
00:12
2025年8月7日,全球知名生物制药企业礼来公司正式发布了其自主研发的口服减重药物Orforglipron的三期临床研究最终数据,引发业界广泛关注。该药物在为期72周的严格治疗周期中,显示出显著的临床效果,参与试验的肥胖或体重相关疾病患者平均减重高达12.4%。值得注意的是,这项涵盖超过3000名成年受试者的临床研究特别强调,所有参与者均无糖尿病病史,但普遍...

2025年08月07日

23:07
微新创想8月7日重磅报道,抖音知名创作者、半导体领域资深博主谈三圈,以惊人的毅力用整整两个月时间,将浩瀚的80万字《红楼梦》完整刻录在仅有2寸的硅片之上,这一壮举的最终目的,是为一万年后的子孙后代留下这份文明的印记。 这些承载着华夏智慧结晶的硅片,其上的文字每个边长仅有5微米,比人体内最细的红细胞还要小上许多,而笔画线宽更是达到了300纳米,已经无限接近普通...
23:07
微新创想8月7日重磅发布 全新无线耳机iQOO TWS Air3 Pro震撼登场 这款旗舰级无线耳机提供星耀黄与星钻白两种潮流配色选择,首发到手价仅需199元。更具诚意的是,当与iQOO Z10 Turbo手机组合购买时,套装价将惊喜低至159元,为用户带来极致性价比体验 在续航能力方面 iQOO TWS Air3 Pro表现卓越 搭配耳机盒可实现长...