美团LongCat-Flash-Thinking模型性能惊艳 接近GPT5顶尖水平

微新创想9月23日重磅消息,美团LongCat团队宣布正式推出全新一代高效推理模型——LongCat-Flash-Thinking。这款模型在继承LongCat-Flash-Chat极致速度优势的基础上,实现了性能与专业性的双重飞跃,堪称业界革新之作。综合权威评测显示,LongCat-Flash-Thinking在逻辑推理、数学计算、代码生成及智能体交互等多个关键领域,已达到全球开源模型的顶尖水平(SOTA),部分任务表现更是逼近闭源模型GPT5-Thinking的卓越水准。

尤为突出的是,LongCat-Flash-Thinking不仅大幅提升了智能体自主调用外部工具的效率,还开创性地扩展了形式化定理证明能力,成为国内首个同时掌握”深度思考+工具调用”与”非形式化+形式化”双重推理能力的大语言模型。该团队强调,在高复杂度任务(如数学难题、代码调试、智能体决策)处理上,新模型展现出惊人的性能优势。

美团LongCat-Flash-Thinking模型性能惊艳 接近GPT5顶尖水平插图1

### 通用推理能力:
LongCat-Flash-Thinking凭借卓越的通用推理能力,在需要严谨逻辑结构化的任务中表现尤为亮眼。其在ARC-AGI基准测试中以50.3分的优异成绩,全面超越OpenAI o3、Gemini2.5 Pro等顶尖闭源模型,彰显了其强大的问题分解与多步骤推理能力。

### 数学能力:
在数学推理领域,LongCat-Flash-Thinking的表现堪称惊艳,已跻身全球顶尖模型行列。面对更具挑战性的HMMT和AIME基准测试,该模型更是取得突破性进展,不仅超越OpenAI o3,与Qwen3-235B-A22B-Thinking等领先模型水平相当,充分验证了其解决复杂数学问题的超凡实力。

### 代码能力:
作为开源模型的性能标杆,LongCat-Flash-Thinking在编程领域同样表现卓越。在LiveCodeBench测试中,其79.4分的成绩显著领先其他开源模型,并与顶级闭源模型GPT-5不相上下,证明其在高难度编程竞赛问题上的强大解题能力。此外,在OJBench基准测试中,该模型以40.7分的亮眼表现,持续保持极强竞争力,接近Gemini2.5-Pro的领先水平。

美团LongCat-Flash-Thinking模型性能惊艳 接近GPT5顶尖水平插图2

### 智能体能力:
LongCat-Flash-Thinking在工具增强型推理(Tool-augmented Reasoning)方面表现突出,尤其在智能体工具调用(Agentic Tool Use)上展现出强劲实力。在2-Bench测试中,其74.0分的成绩刷新了开源模型的SOTA记录,同时在SWE-Bench、BFCL V3和VitaBench等基准测试中,也持续保持超强竞争力,凸显了其在复杂场景下的智能决策能力。

### ATP形式推理能力:
在MiniF2F-test基准测试中,LongCat-Flash-Thinking的pass@1得分高达67.6,大幅领先所有参与评估的模型,在pass@8和pass@32等更高难度测试中同样保持领先优势,充分展现了其在生成结构化证明和形式化数学推理方面的绝对领先地位。

目前,LongCat-Flash-Thinking已全面开源至HuggingFace和Github平台,用户可通过官网进行实时体验,共同探索AI推理技术的无限可能。

最新快讯

2025年11月16日

14:23
为庆祝华硕显卡业务三十周年这一重要里程碑,品牌特别推出全球限量1000张的ROG Matrix RTX 5090非公版显卡,以彰显其旗舰荣耀。这款显卡定价高达3999美元,是英伟达公版建议零售价的两倍,其奢华定价进一步印证了其无与伦比的顶级定位。作为华硕产品矩阵中的巅峰之作,ROG Matrix系列始终致力于为玩家提供极致性能体验,此次搭载最新一代GPU技术...
14:23
为庆祝任天堂娱乐系统(NES)在美国市场成功发行40周年,一场特殊的座谈会汇聚了多位前公司高管,他们首次公开分享了当年一段鲜为人知的决策内幕。据透露,任天堂曾一度认真考虑为NES打造一款带有木纹贴面的外观设计,刻意模仿当时风靡市场的雅达利2600游戏机,试图通过这种熟悉感来降低消费者对新一代游戏机的抵触情绪。这一想法的诞生,源于1983年美国游戏业遭受重创后...
14:23
华硕近日正式官宣旗下全新Dual GeForce RTX 50系列EVO显卡家族,这一消息由权威科技媒体VideoCardz率先披露。该系列共推出四款旗舰产品,涵盖RTX 5060 Ti与RTX 5060两个核心型号,分别提供基础版与超频版两种选择,整体核心频率区间精准覆盖2497MHz至2632MHz,为用户带来极致的游戏与创作体验。 新品在硬件设计上实现...
14:23
深圳地铁创新服务升级,自11月15日起在多条线路试点周末骑行友好服务,为绿色出行增添新选择。此次试点覆盖2号线、8号线、6号线及6号线支线,精选后海、福田、大梅沙、科学馆、光明城等13个重点出入口,让乘客在周末出行时能更便捷地兼顾骑行与公共交通。 试点服务将于每周六日运营,乘客可携带符合规范的单座人力自行车进站,但需注意车辆轮径不得超过28英寸。为确保服务有...
13:48
东风日产全新天籁・鸿蒙座舱车型即将于11月21日在广州车展震撼亮相,这标志着全球首款搭载鸿蒙座舱5的燃油车正式问世。新车以全新V-Motion前脸设计脱颖而出,星环贯穿灯与双子星大灯的巧妙融合,不仅显著提升了视觉辨识度,更大幅扩展了照明范围,为驾驶者带来全方位的安全保障。 内饰设计方面,全新天籁・鸿蒙座舱车型更是将豪华与科技完美融合。15.6英寸悬浮中控屏成...
13:48
戴尔与微软于当地时间11月16日联合宣布,备受瞩目的“Azure原生Dell PowerScale”服务正式进入公开预览阶段。这一创新解决方案将戴尔先进的OneFS存储系统无缝引入Azure云平台,为企业提供强大且可靠的非结构化数据存储支持,特别适用于人工智能、高性能计算等数据密集型场景。 该服务为用户提供了两种灵活的部署模式:戴尔全托管和自主管理。无论选择...
12:39
2025年11月,中国领先的数字教育科技公司易点天下与全球云计算巨头阿里云正式签署战略合作协议,共同开启AI漫剧出海新篇章。此次合作聚焦于人工智能技术与国际内容传播领域,双方将整合顶尖算力资源、创新内容生产体系及多元化营销变现渠道,联手打造覆盖创意策划、制作发行到商业变现的全链路垂直解决方案。作为重要里程碑,此次合作将显著加速中国AI漫剧的全球化布局进程,有...
12:39
2025年11月16日凌晨,日本鹿儿岛县樱岛火山突然爆发两次剧烈喷发,引发全球关注。第一次喷发发生在当地时间0时57分,火山喷出的浓烟直冲高空达4400米,火山口附近的碎石被抛射至800至1200米范围内,场面十分壮观。第二次喷发则发生在2时28分,喷烟高度虽略有下降至3700米,但碎石扩散范围进一步扩大至1000至1400米区域,显示出火山活动的持续性和危...
12:39
2025年11月16日,备受瞩目的2025人工智能+大会在北京隆重举行。在此次盛会中,智谱AI董事长刘德兵发表了重要讲话,详细阐述了公司坚定不移的开源战略及其深远意义。据刘德兵透露,智谱AI目前已成功开源超过40款人工智能模型,涵盖自然语言处理、计算机视觉等多个领域,为全球AI研究者提供了宝贵的资源。 刘德兵强调,开源是推动人工智能技术革新的核心动力。通过开...
12:39
2025年11月16日,备受瞩目的“2025人工智能+”大会主论坛隆重举行,宇树科技创始人兼CEO王兴兴先生发表了题为《机器人产业协同创新之路》的主旨演讲。在演讲中,王兴兴先生深刻剖析了当前机器人产业发展面临的挑战,并提出了具有前瞻性的发展建议。他指出,机器人产业的规模化发展亟需打破企业间的壁垒,通过构建更加开放的合作生态,加强与开源社区的深度合作,实现关键...
12:39
江西省湖口县公安局近日传来重大战果,成功侦破一起横跨全国十余省份的系列电信诈骗案,捣毁一个以提供“手机BL解锁”服务为幌子实施诈骗的犯罪团伙。这一案件的侦破不仅为广大受害者挽回了经济损失,也进一步净化了网络环境,彰显了公安机关打击电信诈骗犯罪的坚定决心。 案件线索源于9月29日,湖口县一名居民向警方报案,称其在闲鱼平台轻信一名自称“品牌官方售后”的骗子,按照...
12:39
2025年11月16日,北京市海淀区委网信办公布了2025年度IPv6规模部署和应用优秀案例名单,去哪儿网全站IPv6改造项目凭借其卓越的技术创新成果,成功入选技术创新类案例。这一荣誉不仅彰显了去哪儿在数字化转型方面的前瞻布局,更凸显了其在网络基础设施升级领域的卓越实践。 该项目通过全面升级至IPv6协议,实现了网站访问速度与安全性的显著提升。IPv6采用1...