
传统混合专家(MoE)架构在提升模型能力时,常面临专家数量增加带来的边际收益递减及高昂通信开销的挑战。如今,美团LongCat团队发布了革命性的LongCat-Flash-Lite模型,通过引入“嵌入扩展(Embedding Expansion)”这一全新范式,成功突破了大规模语言模型(LLM)的效能瓶颈,为AI模型的发展树立了新标杆。

LongCat团队的深入研究揭示,在特定条件下,扩展嵌入层相比单纯增加专家数量,能带来更为优越的帕累托前沿性能。基于这一创新洞察,LongCat-Flash-Lite模型总参数规模高达685亿,但得益于其独特的N-gram嵌入层设计,每次推理仅需激活29亿至45亿参数,大幅提升了参数效率。其中,超过300亿参数被策略性地分配至嵌入层,利用N-gram机制精准捕获局部语义,尤其在“编程命令”等细分专业场景中,展现出显著增强的理解与生成精度。
为了将理论上的稀疏激活优势转化为实际运行中的卓越性能,美团在系统层面进行了全链路的深度优化。这包括智能参数分配机制,使嵌入层参数占比高达46%,并利用O(1)的查找复杂度,有效避免了计算量随参数扩容而线性增长。同时,LongCat团队设计了类似于KV Cache的N-gram Cache专用缓存机制,并定制了CUDA内核,如AllReduce与RMSNorm的融合优化,极大降低了I/O延迟。此外,模型还协同推测解码技术,通过三步投机推理扩大批次大小,并配合常规嵌入层的草案模型,进一步显著压缩了推理延迟。在典型的负载条件下(输入4K,输出1K),LongCat-Flash-Lite API能够提供每秒500-700 token的极速生成能力,并支持最长达256K的超长上下文窗口。

LongCat-Flash-Lite在多项权威基准测试中展现出跨越式的竞争力与卓越性能。在智能体任务方面,它在$tau^2$-Bench的电信、零售、航空三大核心场景中均斩获最高分,彰显了其强大的决策与执行能力。在代码生成与理解领域,该模型表现尤为突出,SWE-Bench准确率达到54.4%,在TerminalBench(终端命令执行)中更是以33.75分的优异成绩遥遥领先于同类模型。在通用素质方面,LongCat-Flash-Lite的MMLU得分高达85.52,与Gemini2.5Flash-Lite不相上下,并在数学竞赛级AIME24中展现出稳健的解题能力。
目前,美团已秉持开放共赢的理念,全面开源了LongCat-Flash-Lite的模型权重、详尽技术报告及配套的SGLang-FluentLLM推理引擎,旨在推动AI社区的共同进步。开发者可通过LongCat API开放平台申请试用,每日可享受高达5000万 tokens的免费额度,体验这一高性能、高效率的创新AI模型,共同探索未来智能应用的无限可能。
