顶尖大语言模型研发者聚焦的十大技术挑战

2023-09-21 11:20:16 互联网 61 次阅读

编者按：本文源自微信公众号硅兔赛跑（ID：sv_race），作者林檎，编辑蔓蔓周，经微新创想授权转载。当前，全球顶尖的科研与工业力量正汇聚于一个前所未有的目标——提升语言模型（LLMs）的性能与实用性。通过与众多业界及学界同仁的深入交流，我整理出以下十大蓬勃发展的研究方向，它们正引领着LLMs技术的革新浪潮。

01 减少和衡量幻觉
幻觉，即AI模型生成虚假或无意义内容的现象，是当前LLMs发展面临的核心挑战之一。尽管在创意场景中，幻觉难以完全避免，但在大多数应用场景中，它已成为亟待解决的缺陷。近期，我参与了一个由Dropbox、Langchain、Elastics和Anthropic等公司组成的LLM讨论小组，与会者普遍认为，幻觉问题是制约企业大规模应用LLMs的关键障碍。因此，减少幻觉现象并建立有效的衡量指标，已成为学术界和初创企业竞相探索的热点领域。目前，已有多种临时代码可减少幻觉，如增加提示中的上下文信息、采用思维链、提升自洽性，或要求模型输出简洁化。以下是一些值得参考的学术成果：
· Survey of Hallucination in Natural Language Generation (Ji et al., 2022)
· How Language Model Hallucinations Can Snowball (Zhang et al., 2023)
· A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity (Bang et al., 2023)
· Contrastive Learning Reduces Hallucination in Conversations (Sun et al., 2022)
· Self-Consistency Improves Chain of Thought Reasoning in Language Models (Wang et al., 2022)
· SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models (Manakul et al., 2023)

02 优化上下文长度和上下文构建
绝大多数AI问题都依赖于上下文信息。例如，询问”哪家越南餐厅最好？”时，地理位置是关键上下文，因为不同地区的最佳餐厅可能截然不同。根据《SituatedQA》（Zhang＆Choi，2021）的研究，大量信息查询问题依赖于上下文，NQ-Open数据集中约16.5%的问题属于此类。对于企业应用场景，这一比例可能更高。假设某公司为客户开发聊天机器人，若要机器人能回答任何产品问题，则需整合客户历史记录或产品信息作为上下文。模型通过上下文”学习”的过程，即上下文学习，对检索增强生成（RAG）尤为重要。RAG分为两阶段：首先将文档分块并存储为向量数据库，然后通过查询嵌入匹配最相似的文档块。上下文长度越长，可插入的文档块越多，但模型能否有效利用这些信息，是另一关键问题。提升上下文学习效率，即”提示工程”，同样重要。近期研究显示，模型从索引开头和结尾获取信息的效果远优于中间部分：Lost in the Middle: How Language Models Use Long Contexts (Liu et al., 2023)。

03 融入其他数据模态
多模态技术具有巨大潜力，却常被低估。医疗、机器人、电商等领域大量应用场景需处理多模态数据，如医学预测需结合文本（医生笔记、患者问卷）与图像（CT、X射线等）；产品数据常包含图像、视频、描述及表格信息。多模态模型能同时理解文本和图像，性能远超纯文本模型。随着文本训练数据可能耗尽，利用其他模态成为必然趋势。近期令人兴奋的应用包括帮助视障人士浏览互联网和导航现实世界。以下是一些多模态研究进展：
· [CLIP] Learning Transferable Visual Models From Natural Language Supervision (OpenAI, 2021)
· Flamingo: a Visual Language Model for Few-Shot Learning (DeepMind, 2022)
· BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models (Salesforce, 2023)
· KOSMOS-1: Language Is Not All You Need: Aligning Perception with Language Models (Microsoft, 2023)
· PaLM-E: An embodied multimodal language model (Google, 2023)
· LLaVA: Visual Instruction Tuning (Liu et al., 2023)
· NeVA: NeMo Vision and Language Assistant (NVIDIA, 2023)

04 提高LLMs的速度和降低成本
GPT-3.5推出后，其生产中的延迟和成本问题曾引发广泛关注。半年内，模型社区开发出内存占用仅为GPT-3.5 2%的模型，性能却接近GPT-3.5。这一现象印证了”优秀的技术总会被优化”的观点。以下为Guanaco 7B与ChatGPT GPT-3.5和GPT-4的性能对比数据。尽管进展显著，但大幅提升LLM性能仍极具挑战性。四年前，我撰写《设计机器学习系统》时，主要模型优化技术包括：
1. 量化：通过减少参数位数（如从32位降至16位或4位）降低模型大小
2. 知识蒸馏：训练小模型模仿大模型
3. 低秩分解：用低维张量替代高维张量
4. 剪枝：去除贡献较小的权重或连接
这些技术至今仍广泛应用。Alpaca采用知识蒸馏，QLoRA结合低秩分解和量化。

05 设计新的模型架构
自2012年AlexNet以来，LSTM、seq2seq等架构虽兴衰交替，但Transformer自2017年推出后表现异常稳定。开发超越Transformer的新架构极具挑战性。Transformer经过六年优化，在合适硬件上已实现令人惊叹的规模和效果。2021年Chris Ré实验室的”Efficiently Modeling Long Sequences with Structured State Spaces”引发行业热议。该实验室持续开发新架构，近期与初创公司Together推出Monarch Mixer，其核心思想是降低注意力机制和MLP的次二次复杂度。其他实验室也在探索类似思路，但公开研究较少。

06 开发GPU替代方案
自AlexNet以来，GPU一直是深度学习硬件主流。AlexNet的成功部分归功于首次成功使用GPU训练神经网络，相比之下，此前训练同等规模模型需成千上万个CPU。十年间，多家公司尝试开发AI专用硬件，包括Google的TPU、Graphcore的IPU、Cerebras及SambaNova（后转型为生成式AI平台）。量子计算也备受期待，主要参与者有IBM、Google及高校实验室。光子芯片作为另一前沿方向，通过光子传输数据实现更快更高效的计算。该领域已吸引数亿美元投资，包括Lightmatter、Ayar Labs、Lightelligence和Luminous Computing。以下是光子矩阵计算三种主要方法的进展时间线：
· 平面光转换（PLC）
· 马赫-曾德干涉仪（MZI）
· 波分复用（WDM）

07 提高agent的可用性
Agent作为能执行操作的LLMs（如浏览网页、发送邮件），是相对较新的研究方向。尽管Auto-GPT和GPT-Engineering等库已获极高关注，但人们对LLMs的可靠性、性能和行动能力仍存疑。斯坦福实验显示，生成式agent能从单一指令（如举办情人节派对）衍生出复杂社会行为，自主传播邀请、结识新朋友。Adept公司（由两位Transformer合著者及前OpenAI副总裁创立）已获近5亿美元融资，其agent已能浏览网页并添加Salesforce账户。

08 提升从人类偏好中学习的能力
RLHF（从人类偏好中进行强化学习）虽有效，但流程繁琐。人们正探索更优的LLMs训练方法。RLHF面临诸多挑战：
· 如何数学化人类偏好？当前通过比较确定优劣，但未量化程度差异
· 人类偏好定义：Anthropic从”有帮助、诚实、无害”三维度衡量；DeepMind试图生成最符合大众偏好的回答
· 偏好来源：需考虑文化、宗教、政治倾向差异，但现有标注数据存在偏见（如OpenAI的InstructGPT数据中90.5%标注者为男性）

09 提高聊天界面的效率
ChatGPT引发关于聊天界面适用性的持续讨论。聊天界面优势包括易学性、易访问性（支持语音输入）和强交互性。可改进方向：
· 一轮内多条消息：支持插入图像、位置、链接等
· 多模态输入：现有研究多集中于模型构建，界面优化空间大
· 将生成式AI融入工作流程：如指向图表列提问
· 编辑和删除消息：优化对话流程

10 为非英语语言构建LLMs
当前以英语为主的LLMs在非英语语言中的表现不佳。尽管有人认为这更多是资源问题而非研究问题，但低资源语言（如与英语/汉语相比数据量少）需要特殊技术。悲观者认为未来语言将趋同于英语和汉语。以下相关研究：
· ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large Language Models in Multilingual Learning (Lai et al., 2023)
· All languages are NOT created (tokenized) equal (Yennie Jun, 2023)
· Low-resource Languages: A Review of Past Work and Future Challenges (Magueresse et al., 2020)
· JW300: A Wide-Coverage Parallel Corpus for Low-Resource Languages (Agić et al., 2019)

结论
上述十大挑战中，非英语语言LLMs（第10项）直接关乎资源投入，幻觉问题（第1项）因LLMs概率性任务本质而更难解决，LLMs性能优化（第4项）永无止境，新架构和硬件（第5、6项）最具挑战性且不可或缺。部分问题需技术外策略（如人类偏好学习第8项）和用户体验（聊天界面第9项）协同解决。本文（含图片）经微新创想授权转载，不代表其立场，转载请联系原作者。如有疑问，请联系http://www.idea2003.com/。