在大语言模型(LLM)领域,文本数据的分解技术一直是研究的核心焦点。传统的分词方法,如字节对编码(Byte Pair Encoding),通常在处理文本前将其切割为固定单元,并构建静态词汇表。尽管这种方法应用广泛,但存在明显局限:一旦分词完成,模型处理方式便缺乏灵活性,尤其面对低资源语言或特殊字符结构的文本时,效果往往不尽人意。为突破这些瓶颈,Meta的研究团队创新性地推出了AU-Net架构,彻底改变了传统文本处理模式。
AU-Net采用自回归的U-Net结构,直接从原始字节开始学习,能够灵活地将字节组合成单词、词组,甚至形成包含多达四个单词的复杂组合,从而构建多层次的序列表示。该架构的设计灵感源自医学图像分割领域的U-Net,其独特的收缩路径和扩张路径设计,使模型能够高效捕捉文本特征。收缩路径负责压缩输入字节序列,将其转化为更高层次的语义单元,提取文本宏观语义;而扩张路径则将这些高层次信息逐步还原至原始序列长度,同时融合局部细节,实现多尺度特征捕捉。
AU-Net的收缩路径分为三个关键阶段:第一阶段直接处理原始字节,采用限制注意力机制确保计算效率;第二阶段在单词边界处进行池化操作,将字节信息抽象为单词级语义;第三阶段在相邻单词间进行池化,捕捉更大范围的语义信息,显著提升模型对文本含义的理解深度。扩张路径则采用多线性上采样策略,使每个位置向量能根据序列相对位置动态调整,优化高层次信息与局部细节的融合。特别设计的跳跃连接确保还原过程中不丢失重要局部细节,大幅提升模型生成能力和预测准确性。
在推理阶段,AU-Net采用自回归生成机制,既保证生成文本的连贯性与准确性,又显著提高推理效率。这种创新架构为大语言模型发展提供了全新思路,展现出更强的灵活性和适用性,特别适用于低资源语言处理和复杂文本结构分析。开源代码已发布于GitHub:https://github.com/facebookresearch/lingua/tree/main/apps/aunet
AU-Net三大核心优势:
🚀 自回归架构动态组合字节,形成多层次的序列表示
📊 收缩扩张路径有效融合宏观语义与局部细节
⏩ 自回归生成机制兼顾推理效率与文本质量