
美团 LongCat 团队今日正式宣布开源其最新 AI 模型 LongCat-Flash-Thinking-2601,这一升级版模型在 LongCat-Flash-Thinking 系列基础上实现了重大突破,在智能体搜索、工具调用及推理等核心评测基准上均达到当前开源模型的顶尖水平(SOTA)。LongCat-Flash-Thinking-2601 最突出的优势在于其卓越的工具调用能力,这一特性使模型在处理依赖工具的复杂任务时表现尤为出色,大幅降低了真实场景中适配新工具的训练成本。

该模型还创新性地以开源形式提供了“重思考模式”的在线免费体验,用户可通过 https://longcat.ai 网站进行实际操作。这一模式通过模拟人类深思熟虑的过程,将思考过程分为并行思考和总结归纳两个阶段,确保思维全面性与决策可靠性。经过严格评估,LongCat-Flash-Thinking-2601 在编程、数学推理、智能体工具调用及搜索能力等多项指标上均表现卓越。在编程能力方面,该模型在 LCB 评测中获得 82.8 分,位列同类模型前列;在数学推理方面,AIME-25 评测中更是取得满分 100 分的优异成绩,进一步巩固了其在该领域的领先地位。
为全面评估模型的泛化能力,LongCat 团队提出了一种全新评测方法,通过自动化任务合成流程,支持用户基于关键词随机生成复杂任务,并评估模型在此类环境中的表现。实验结果显示,LongCat-Flash-Thinking-2601 在多项随机生成的任务中均保持领先表现,充分印证了其强大的泛化能力。在训练过程中,团队采用了“环境扩展 + 多环境强化学习”的策略,为模型提供了多样化的高强度训练环境,显著提升了其在复杂场景下的适应能力。此外,团队还通过噪声注入技术增强训练数据的多样性,使模型在面对 API 调用失败或数据缺失等复杂情况下仍能高效完成任务。

为降低开发者的使用门槛,美团 LongCat 团队同时开放了模型的权重、推理代码及在线体验能力,鼓励开发者积极参与这一开源项目。开发者可通过 GitHub、Hugging Face 和 ModelScope 等平台获取资源,并在 https://longcat.ai 进行在线体验。这一举措不仅推动了 AI 技术的开放共享,也为开发者提供了更多创新实践的机会。
