美团LongCat-Flash-Thinking模型性能惊艳接近GPT5顶尖水平

2025-09-23 09:32:58 互联网 10 次阅读

微新创想9月23日重磅消息，美团LongCat团队宣布正式推出全新一代高效推理模型——LongCat-Flash-Thinking。这款模型在继承LongCat-Flash-Chat极致速度优势的基础上，实现了性能与专业性的双重飞跃，堪称业界革新之作。综合权威评测显示，LongCat-Flash-Thinking在逻辑推理、数学计算、代码生成及智能体交互等多个关键领域，已达到全球开源模型的顶尖水平（SOTA），部分任务表现更是逼近闭源模型GPT5-Thinking的卓越水准。

尤为突出的是，LongCat-Flash-Thinking不仅大幅提升了智能体自主调用外部工具的效率，还开创性地扩展了形式化定理证明能力，成为国内首个同时掌握”深度思考+工具调用”与”非形式化+形式化”双重推理能力的大语言模型。该团队强调，在高复杂度任务（如数学难题、代码调试、智能体决策）处理上，新模型展现出惊人的性能优势。

### 通用推理能力：
LongCat-Flash-Thinking凭借卓越的通用推理能力，在需要严谨逻辑结构化的任务中表现尤为亮眼。其在ARC-AGI基准测试中以50.3分的优异成绩，全面超越OpenAI o3、Gemini2.5 Pro等顶尖闭源模型，彰显了其强大的问题分解与多步骤推理能力。

### 数学能力：
在数学推理领域，LongCat-Flash-Thinking的表现堪称惊艳，已跻身全球顶尖模型行列。面对更具挑战性的HMMT和AIME基准测试，该模型更是取得突破性进展，不仅超越OpenAI o3，与Qwen3-235B-A22B-Thinking等领先模型水平相当，充分验证了其解决复杂数学问题的超凡实力。

### 代码能力：
作为开源模型的性能标杆，LongCat-Flash-Thinking在编程领域同样表现卓越。在LiveCodeBench测试中，其79.4分的成绩显著领先其他开源模型，并与顶级闭源模型GPT-5不相上下，证明其在高难度编程竞赛问题上的强大解题能力。此外，在OJBench基准测试中，该模型以40.7分的亮眼表现，持续保持极强竞争力，接近Gemini2.5-Pro的领先水平。

### 智能体能力：
LongCat-Flash-Thinking在工具增强型推理（Tool-augmented Reasoning）方面表现突出，尤其在智能体工具调用（Agentic Tool Use）上展现出强劲实力。在2-Bench测试中，其74.0分的成绩刷新了开源模型的SOTA记录，同时在SWE-Bench、BFCL V3和VitaBench等基准测试中，也持续保持超强竞争力，凸显了其在复杂场景下的智能决策能力。

### ATP形式推理能力：
在MiniF2F-test基准测试中，LongCat-Flash-Thinking的pass@1得分高达67.6，大幅领先所有参与评估的模型，在pass@8和pass@32等更高难度测试中同样保持领先优势，充分展现了其在生成结构化证明和形式化数学推理方面的绝对领先地位。

目前，LongCat-Flash-Thinking已全面开源至HuggingFace和Github平台，用户可通过官网进行实时体验，共同探索AI推理技术的无限可能。