美团近日重磅推出了一款基于混合专家架构的尖端推理模型——LongCat-Flash-Thinking,其高达5600亿的参数量瞬间引爆了行业关注!更令人惊叹的是,该模型能够根据实际任务需求,动态激活186亿至313亿个参数,平均激活量约为270亿个参数。这种创新的弹性设计赋予了模型无与伦比的多任务处理能力,尤其在逻辑推理、数学运算和编程等高要求领域展现出卓越表现。
在权威基准测试中,LongCat-Flash-Thinking与其他主流模型进行了全方位对比,成绩斐然。特别是在数学推理领域,其在MATH500和AIME25测试中表现突出,更令人瞩目的是,即便使用原生工具,也能将token消耗降低64.5%的同时,依然保持顶级准确率。此外,在通用推理(GPQA-Diamond)、代码生成(LiveCodeBench,OJBench)以及形式化定理证明(MiniF2F-Test)等关键测试中,该模型的表现也紧随行业领先水平。
美团已将LongCat-Flash-Thinking的模型权重按照MIT许可证开源,为开发者们提供了宝贵的科研资源。官方还贴心地准备了详细的聊天模板,并上线了专属聊天网站https://longcat.chat/,让用户能够轻松体验和互动。LongCat-Flash-Thinking不仅是一款强大的AI模型,更是美团在人工智能领域探索的重要里程碑。其卓越性能与灵活架构将为未来更多创新应用和科研突破打开无限可能。