美团LongCat-Flash-Thinking模型性能惊艳 接近GPT5顶尖水平

微新创想9月23日重磅消息,美团LongCat团队宣布正式推出全新一代高效推理模型——LongCat-Flash-Thinking。这款模型在继承LongCat-Flash-Chat极致速度优势的基础上,实现了性能与专业性的双重飞跃,堪称业界革新之作。综合权威评测显示,LongCat-Flash-Thinking在逻辑推理、数学计算、代码生成及智能体交互等多个关键领域,已达到全球开源模型的顶尖水平(SOTA),部分任务表现更是逼近闭源模型GPT5-Thinking的卓越水准。

尤为突出的是,LongCat-Flash-Thinking不仅大幅提升了智能体自主调用外部工具的效率,还开创性地扩展了形式化定理证明能力,成为国内首个同时掌握”深度思考+工具调用”与”非形式化+形式化”双重推理能力的大语言模型。该团队强调,在高复杂度任务(如数学难题、代码调试、智能体决策)处理上,新模型展现出惊人的性能优势。

美团LongCat-Flash-Thinking模型性能惊艳 接近GPT5顶尖水平插图1

### 通用推理能力:
LongCat-Flash-Thinking凭借卓越的通用推理能力,在需要严谨逻辑结构化的任务中表现尤为亮眼。其在ARC-AGI基准测试中以50.3分的优异成绩,全面超越OpenAI o3、Gemini2.5 Pro等顶尖闭源模型,彰显了其强大的问题分解与多步骤推理能力。

### 数学能力:
在数学推理领域,LongCat-Flash-Thinking的表现堪称惊艳,已跻身全球顶尖模型行列。面对更具挑战性的HMMT和AIME基准测试,该模型更是取得突破性进展,不仅超越OpenAI o3,与Qwen3-235B-A22B-Thinking等领先模型水平相当,充分验证了其解决复杂数学问题的超凡实力。

### 代码能力:
作为开源模型的性能标杆,LongCat-Flash-Thinking在编程领域同样表现卓越。在LiveCodeBench测试中,其79.4分的成绩显著领先其他开源模型,并与顶级闭源模型GPT-5不相上下,证明其在高难度编程竞赛问题上的强大解题能力。此外,在OJBench基准测试中,该模型以40.7分的亮眼表现,持续保持极强竞争力,接近Gemini2.5-Pro的领先水平。

美团LongCat-Flash-Thinking模型性能惊艳 接近GPT5顶尖水平插图2

### 智能体能力:
LongCat-Flash-Thinking在工具增强型推理(Tool-augmented Reasoning)方面表现突出,尤其在智能体工具调用(Agentic Tool Use)上展现出强劲实力。在2-Bench测试中,其74.0分的成绩刷新了开源模型的SOTA记录,同时在SWE-Bench、BFCL V3和VitaBench等基准测试中,也持续保持超强竞争力,凸显了其在复杂场景下的智能决策能力。

### ATP形式推理能力:
在MiniF2F-test基准测试中,LongCat-Flash-Thinking的pass@1得分高达67.6,大幅领先所有参与评估的模型,在pass@8和pass@32等更高难度测试中同样保持领先优势,充分展现了其在生成结构化证明和形式化数学推理方面的绝对领先地位。

目前,LongCat-Flash-Thinking已全面开源至HuggingFace和Github平台,用户可通过官网进行实时体验,共同探索AI推理技术的无限可能。

最新快讯

2026年02月12日

18:09
微新创想:2026年2月12日 宝马正式启用全新Alpina品牌视觉体系 宝马在2026年2月12日正式启用了全新的Alpina品牌视觉体系。这一举措标志着宝马自2022年完成对Alpina的收购以来,经过三年多的整合与过渡,终于在2025年12月31日合作协议到期后,全面接管并主导Alpina品牌。 新品牌视觉体系以更加简洁和现代的设计语言呈现。Alpin...
18:09
微新创想:2026年2月,北京灵心巧手科技宣布完成近15亿元B轮融资。本轮融资由道得投资、盛世投资领投,十余家知名投资机构及产业方跟投。公司聚焦‘灵巧手+云端智脑’具身智能平台,已自主研发Linker Hand系列灵巧手、动捕遥操系统及灵巧操作数字孪生平台。 融资将用于核心技术研发、产能提升及全栈基座能力建设,加速推动灵巧手在工业、科研与开发场景的规模化落地...
18:09
微新创想:2026年2月12日,哈尔滨城市中心福朋喜来登酒店在道里区尚志大街正式开业,成为该品牌首次进驻哈尔滨的标志性项目。酒店地理位置优越,距离哈尔滨站仅1公里,哈尔滨西站约9公里,哈尔滨太平国际机场则有37公里的车程,交通便利,便于商务出行与游客抵达。 酒店毗邻地铁2号线尚志大街站,出行便捷,是连接城市各主要区域的理想枢纽。酒店整体设计融合现代风格与北国...
18:09
微新创想:2026年2月,德国法兰克福,德意志交易所宣布将以11亿欧元分两批收购泛大西洋投资集团所持ISS Stoxx剩余20%股权 ISS Stoxx是全球知名指数与ESG数据提供商,服务于资本市场机构投资者,助力其识别投资机会、评估组合风险并应对监管变化 此次收购将使德意志交易所实现对ISS Stoxx的100%控股,强化其在可持续金融数据与指数解决方案...
18:09
微新创想:国产医疗 AI 领域再次迎来里程碑式的突破 2026 年 2 月 12 日 科大讯飞正式发布了新一代星火医疗大模型 X2 作为基于全国产算力训练的星火 X2 大模型家族的重要成员 该模型在医疗垂直领域的专业表现引发了行业高度关注 核心突破:多项任务超越国际顶尖模型 依托于星火 X2 底座的算法迭代与专业思维链强化学习 星火医疗大模型 X2 在多项关...
17:39
微新创想:2026年2月12日,Forbes Travel Guide(FTG)公布2026年星级大奖。本次榜单覆盖全球100多个国家和地区,为旅行者提供了权威的住宿与餐饮推荐。 丽思卡尔顿游艇系列旗下Ilma号荣获全球首个五星级邮轮称号。这一成就不仅体现了该邮轮在服务与设施上的卓越表现,也标志着邮轮行业在高端服务认证方面迈出了重要一步。 Ilma号的船上餐...
17:39
微新创想:2026年2月12日,金融科技平台Adyen正式推出新工具Personalize,作为其Adyen Uplift支付优化套件的一部分。该工具面向全球Adyen商户,能够根据购物者的实时行为和偏好,动态调整结账页面。这一创新举措不仅提升了用户的支付体验,还帮助商家优化支付流程,从而降低支付处理成本。 Personalize的推出标志着Adyen在提升...
17:39
微新创想:2026年2月12日,微软AI负责人穆斯塔法·苏莱曼透露,公司正自主研发顶尖大模型,目标实现AI技术“真正的自给自足”。此举源于2025年10月与OpenAI关系重组后的新战略。微软依托千兆瓦级算力与顶级训练团队,重金投入数据建设,并计划年内推出首代自研模型。 微软本财年拟投入1400亿美元强化AI基建,同时拓展医疗等垂直领域应用,强调“人文主义超...
17:39
微新创想:2026年2月12日,Seed Sparkle Lab开发的国产生活模拟游戏《星砂岛》正式登陆Steam开启抢先体验。游戏首发享七折优惠,售价68.6元。玩家可在星砂岛体验田园生活、饲养萌宠、捕鱼探索及沉浸自然风光。 微新创想:《星砂岛》作为一款生活模拟类游戏,为玩家提供了一个充满治愈感与探索乐趣的虚拟世界。游戏画面精致,场景设计细腻,让玩家仿佛置...
17:39
微新创想:2026年2月12日,受AI热潮推高DRAM/NAND成本及全球存储颗粒短缺影响,Valve公司尚未确定Steam Machine的发售日期与售价。该设备被定义为‘具备游戏机体验的PC’,定位介于传统PC与主机之间。 Steam Machine是Valve推出的一款专为游戏设计的设备,旨在为玩家提供更接近游戏主机的体验,同时保留PC的灵活性和可扩展...
17:39
微新创想:克莱斯勒(中国)汽车销售有限公司近日宣布,自2026年2月12日起将召回部分进口牧马人车型。此次召回涉及2018年1月22日至2021年6月30日期间生产的车辆,共计22003辆。 此次召回的主要原因是部分车辆的组合仪表装配了错误的软件版本。这一问题导致发动机故障指示灯无法正常点亮,进而影响车辆的排放控制功能。由于不满足机动车排放标准及车载诊断系统...
17:39
微新创想:2月12日,美团宣布升级“问小团”AI管家。这一升级将为用户提供更加智能和精准的服务。即日起至春节假期结束,用户在美团APP内提问与本地吃喝玩乐相关的需求时,“问小团”将能够深度思考,整合平台商户信息,并进行二次校验。同时,它还会结合真实的用户评价,提供可交易的精准推荐。 微新创想:为了进一步提升用户体验,美团还特别上线了春节专区。用户可以在专区中...