Liquid AI推8B参数MoE模型LFM2-8B-A1B 仅1.5B激活手机端实现4B级AI速度

2025-10-16 11:20:05 AI动态 31 次阅读

Liquid AI以创新性的高效MoE架构重新定义边缘AI性能，其LFM2系列首款混合专家模型LFM2-8B-A1B，凭借8.3B的总参数规模与仅激活约1.5B参数的稀疏激活机制，实现了高表示能力与计算效率的完美平衡，专为资源受限的设备端场景量身打造。这一设计颠覆了传统认知，突破了小规模MoE模型效率瓶颈，特别针对实时交互场景进行优化，展现出卓越的边缘计算适应性。

该模型基于先进的LFM2混合骨干架构，巧妙融合了18个门控短卷积块与6个分组查询注意力（GQA）块。前两层采用稠密结构以确保稳定性，而其余层则全面集成稀疏MoE前馈网络。每层配备32个专家，通过激活top-4专家的策略，结合归一化sigmoid路由器与自适应偏置技术，实现负载均衡，最大化计算资源利用率。模型支持长达32K的上下文长度，无缝兼容英文、阿拉伯文、中文、法文、德文、日文、韩文和西班牙文等多种语言，展现出强大的跨语言处理能力。

在训练与性能方面，LFM2-8B-A1B通过约12T令牌的预训练铸就了3-4B级强大能力，数据集涵盖55%英文、25%多语言和20%代码，确保了模型的广泛知识覆盖。后续采用Liquid Preference Alignment（长度归一化DPO/APO-Zero融合）进行精细后训练，并运用混合BF16/FP8精度，训练效率提升高达3倍以上。基准测试结果令人瞩目：知识能力方面，MMLU-Pro得分37.4（较LFM2-2.6B提升11.5），IFEval达到77.6，Multi-IF表现58.2；数学能力测试中，GSM8K、GSMPlus和MATH500分别取得84.4、64.8和74.2的优异成绩；多语言处理能力同样突出，MGSM和MMMLU得分分别为72.4和55.3；在编码与写作任务中，HumanEval+、LiveCodeBench v6和EQ-Bench得分分别为69.5、21.0和44.2。综合来看，LFM2-8B-A1B的输出质量堪比3-4B稠密模型，在多轮对话、创意写作、RAG检索增强生成和工具调用等复杂任务中均表现出色。

部署与集成方面，LFM2-8B-A1B展现出惊人的性能优势。无论是在CPU还是GPU上，其推理速度均显著领先。在AMD Ryzen AI9HX370和三星Galaxy S24Ultra等设备上，采用int4量化与int8动态激活的自定义XNNPACK MoE内核，解码吞吐量比Qwen3-1.7B、IBM Granite4.0等模型快达5倍。GPU端集成vLLM，支持FlashInfer和CUDA-graph编译技术，实现单请求与在线批处理的高效运行。量化变体已针对高配手机/平板/笔记本进行优化：Q4_0模型体积约4.7GB，F16模型约16.7GB。支持框架包括llama.cpp（需b6709+版本支持lfm2moe）、ExecuTorch（移动/嵌入式CPU）和vLLM（GPU）。此外，Hugging Face上提供GGUF量化文件及Colab微调笔记本，助力开发者快速集成应用。模型已在Liquid Playground上线测试，供开发者体验。

开源与影响方面，LFM2-8B-A1B采用LFM Open License v1.0（基于Apache2.0）开放，权重与技术细节已上传至Hugging Face（LiquidAI/LFM2-8B-A1B）。这一举措不仅大幅降低了AI部署门槛，更为边缘计算领域注入强劲动力——从隐私保护的实时聊天到嵌入式智能系统，各行各业均可从中受益。AIbase观点认为，在云AI成本持续攀升的背景下，LFM2-8B-A1B等高效模型正加速推动”AI下沉”趋势，让智能技术触达更广泛的设备与场景。项目地址：https://huggingface.co/LiquidAI/LFM2-8B-A1B