微新创想:3月27日,美团正式发布并全面开源原生多模态大模型LongCat-Next及核心组件dNaViT视觉分词器
此次发布的LongCat-Next模型首次实现了图像、语音、文本三种模态数据的统一映射,将其转换为同源的离散Token。这一突破性进展标志着AI技术在多模态处理领域迈出了重要一步
传统多模态模型通常采用以语言为中心的拼凑式架构,将不同模态的数据分别处理后再进行融合。而LongCat-Next则摒弃了这种模式,全程采用“下一个Token预测”(NTP)范式,提升了模型在多模态任务中的整体表现
dNaViT视觉分词器作为LongCat-Next的核心组件,为模型提供了强大的图像处理能力。该分词器能够将图像内容高效地转换为可被模型理解的离散Token,从而实现更精准的多模态理解与生成
美团此次开源不仅为全球开发者提供了先进的多模态AI工具,还推动了本地化多模态应用的开发进程。通过开放源代码,开发者可以基于LongCat-Next构建更加智能和高效的多模态系统
这一举措体现了美团在人工智能领域的持续投入与创新。未来,随着更多开发者参与和优化,LongCat-Next有望在多个应用场景中发挥更大的价值
