
Liquid AI以创新性的高效MoE架构重新定义边缘AI性能,其LFM2系列首款混合专家模型LFM2-8B-A1B,凭借8.3B的总参数规模与仅激活约1.5B参数的稀疏激活机制,实现了高表示能力与计算效率的完美平衡,专为资源受限的设备端场景量身打造。这一设计颠覆了传统认知,突破了小规模MoE模型效率瓶颈,特别针对实时交互场景进行优化,展现出卓越的边缘计算适应性。

该模型基于先进的LFM2混合骨干架构,巧妙融合了18个门控短卷积块与6个分组查询注意力(GQA)块。前两层采用稠密结构以确保稳定性,而其余层则全面集成稀疏MoE前馈网络。每层配备32个专家,通过激活top-4专家的策略,结合归一化sigmoid路由器与自适应偏置技术,实现负载均衡,最大化计算资源利用率。模型支持长达32K的上下文长度,无缝兼容英文、阿拉伯文、中文、法文、德文、日文、韩文和西班牙文等多种语言,展现出强大的跨语言处理能力。
在训练与性能方面,LFM2-8B-A1B通过约12T令牌的预训练铸就了3-4B级强大能力,数据集涵盖55%英文、25%多语言和20%代码,确保了模型的广泛知识覆盖。后续采用Liquid Preference Alignment(长度归一化DPO/APO-Zero融合)进行精细后训练,并运用混合BF16/FP8精度,训练效率提升高达3倍以上。基准测试结果令人瞩目:知识能力方面,MMLU-Pro得分37.4(较LFM2-2.6B提升11.5),IFEval达到77.6,Multi-IF表现58.2;数学能力测试中,GSM8K、GSMPlus和MATH500分别取得84.4、64.8和74.2的优异成绩;多语言处理能力同样突出,MGSM和MMMLU得分分别为72.4和55.3;在编码与写作任务中,HumanEval+、LiveCodeBench v6和EQ-Bench得分分别为69.5、21.0和44.2。综合来看,LFM2-8B-A1B的输出质量堪比3-4B稠密模型,在多轮对话、创意写作、RAG检索增强生成和工具调用等复杂任务中均表现出色。

部署与集成方面,LFM2-8B-A1B展现出惊人的性能优势。无论是在CPU还是GPU上,其推理速度均显著领先。在AMD Ryzen AI9HX370和三星Galaxy S24Ultra等设备上,采用int4量化与int8动态激活的自定义XNNPACK MoE内核,解码吞吐量比Qwen3-1.7B、IBM Granite4.0等模型快达5倍。GPU端集成vLLM,支持FlashInfer和CUDA-graph编译技术,实现单请求与在线批处理的高效运行。量化变体已针对高配手机/平板/笔记本进行优化:Q4_0模型体积约4.7GB,F16模型约16.7GB。支持框架包括llama.cpp(需b6709+版本支持lfm2moe)、ExecuTorch(移动/嵌入式CPU)和vLLM(GPU)。此外,Hugging Face上提供GGUF量化文件及Colab微调笔记本,助力开发者快速集成应用。模型已在Liquid Playground上线测试,供开发者体验。
开源与影响方面,LFM2-8B-A1B采用LFM Open License v1.0(基于Apache2.0)开放,权重与技术细节已上传至Hugging Face(LiquidAI/LFM2-8B-A1B)。这一举措不仅大幅降低了AI部署门槛,更为边缘计算领域注入强劲动力——从隐私保护的实时聊天到嵌入式智能系统,各行各业均可从中受益。AIbase观点认为,在云AI成本持续攀升的背景下,LFM2-8B-A1B等高效模型正加速推动”AI下沉”趋势,让智能技术触达更广泛的设备与场景。项目地址:https://huggingface.co/LiquidAI/LFM2-8B-A1B
