9月1日,美团正式发布了备受期待的LongCat-Flash系列模型,并在近期惊喜开源了LongCat-Flash-Chat和LongCat-Flash-Thinking两大版本,迅速引发了开发者社区的广泛关注。近日,LongCat团队再次重磅出击,宣布推出全新家族成员——LongCat-Flash-Omni。这款模型在原有基础上实现了多项突破性技术创新,正式开启了全模态实时交互的新纪元。
LongCat-Flash-Omni基于LongCat-Flash系列的高效架构设计,创新性地采用了最新的Shortcut-Connected MoE(ScMoE)技术,集成了先进的多模态感知模块和语音重建模块。令人惊叹的是,尽管该模型总参数高达5600亿(激活参数270亿),却依然能够提供令人赞叹的低延迟实时音视频交互能力。这一重大突破为开发者提供了更加高效的多模态应用场景解决方案。
根据权威的综合评估结果,LongCat-Flash-Omni在全模态基准测试中表现卓越,达到了开源最先进的水平(SOTA)。该模型在文本、图像、视频理解以及语音感知与生成等关键单模态任务中均展现出强大的竞争力,成功实现了”全模态不降智”的宏伟目标。
LongCat-Flash-Omni采用了一体化的全模态架构,巧妙整合了离线多模态理解与实时音视频交互能力。其设计理念为完全端到端,使用先进的视觉与音频编码器作为多模态感知器,能够直接生成文本与语音token,并通过轻量级音频解码器实现自然语音波形的重建,确保了低延迟的实时交互体验。此外,该模型引入了渐进式早期多模融合训练策略,有效应对了全模态模型训练中不同模态数据分布的异质性难题。这一创新策略确保了各模态之间的有效协同,显著推动了模型整体性能的提升。
在具体性能测试中,LongCat-Flash-Omni在多个领域中表现抢眼,特别是在文本理解和图像理解任务中,其能力不仅未出现衰减,反而实现了显著提升。在音频和视频处理方面,该模型的表现同样令人瞩目,尤其是在实时音视频交互的自然度和流畅度方面,领先于众多开源模型。

LongCat团队还为用户提供了全新的体验渠道,用户现在可以通过官网轻松体验图片、文件上传和语音通话功能。同时,LongCat官方App现已发布,支持联网搜索和语音通话,未来还将推出备受期待的视频通话功能。
Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Flash-Omni
Github:https://github.com/meituan-longcat/LongCat-Flash-Omni
