美团LongCat-Flash-Thinking模型性能惊艳 接近GPT5顶尖水平

微新创想9月23日重磅消息,美团LongCat团队宣布正式推出全新一代高效推理模型——LongCat-Flash-Thinking。这款模型在继承LongCat-Flash-Chat极致速度优势的基础上,实现了性能与专业性的双重飞跃,堪称业界革新之作。综合权威评测显示,LongCat-Flash-Thinking在逻辑推理、数学计算、代码生成及智能体交互等多个关键领域,已达到全球开源模型的顶尖水平(SOTA),部分任务表现更是逼近闭源模型GPT5-Thinking的卓越水准。

尤为突出的是,LongCat-Flash-Thinking不仅大幅提升了智能体自主调用外部工具的效率,还开创性地扩展了形式化定理证明能力,成为国内首个同时掌握”深度思考+工具调用”与”非形式化+形式化”双重推理能力的大语言模型。该团队强调,在高复杂度任务(如数学难题、代码调试、智能体决策)处理上,新模型展现出惊人的性能优势。

美团LongCat-Flash-Thinking模型性能惊艳 接近GPT5顶尖水平插图1

### 通用推理能力:
LongCat-Flash-Thinking凭借卓越的通用推理能力,在需要严谨逻辑结构化的任务中表现尤为亮眼。其在ARC-AGI基准测试中以50.3分的优异成绩,全面超越OpenAI o3、Gemini2.5 Pro等顶尖闭源模型,彰显了其强大的问题分解与多步骤推理能力。

### 数学能力:
在数学推理领域,LongCat-Flash-Thinking的表现堪称惊艳,已跻身全球顶尖模型行列。面对更具挑战性的HMMT和AIME基准测试,该模型更是取得突破性进展,不仅超越OpenAI o3,与Qwen3-235B-A22B-Thinking等领先模型水平相当,充分验证了其解决复杂数学问题的超凡实力。

### 代码能力:
作为开源模型的性能标杆,LongCat-Flash-Thinking在编程领域同样表现卓越。在LiveCodeBench测试中,其79.4分的成绩显著领先其他开源模型,并与顶级闭源模型GPT-5不相上下,证明其在高难度编程竞赛问题上的强大解题能力。此外,在OJBench基准测试中,该模型以40.7分的亮眼表现,持续保持极强竞争力,接近Gemini2.5-Pro的领先水平。

美团LongCat-Flash-Thinking模型性能惊艳 接近GPT5顶尖水平插图2

### 智能体能力:
LongCat-Flash-Thinking在工具增强型推理(Tool-augmented Reasoning)方面表现突出,尤其在智能体工具调用(Agentic Tool Use)上展现出强劲实力。在2-Bench测试中,其74.0分的成绩刷新了开源模型的SOTA记录,同时在SWE-Bench、BFCL V3和VitaBench等基准测试中,也持续保持超强竞争力,凸显了其在复杂场景下的智能决策能力。

### ATP形式推理能力:
在MiniF2F-test基准测试中,LongCat-Flash-Thinking的pass@1得分高达67.6,大幅领先所有参与评估的模型,在pass@8和pass@32等更高难度测试中同样保持领先优势,充分展现了其在生成结构化证明和形式化数学推理方面的绝对领先地位。

目前,LongCat-Flash-Thinking已全面开源至HuggingFace和Github平台,用户可通过官网进行实时体验,共同探索AI推理技术的无限可能。

最新快讯

2025年11月16日

15:28
近日 Valve 官方工程师 Yazan Aldehayyat 在一次内部交流中透露了关于新一代 Steam 主机的关键信息,这款备受期待的次世代游戏设备将带来颠覆性的性能体验。根据最新测试数据显示,其综合性能已超越当前市面上 70% 的个人电脑配置,并且能够流畅运行 Steam 平台所有游戏。这一突破性成果的取得,源于 Valve 团队基于海量 Steam...
15:28
2025年“双11”购物狂欢节圆满落下帷幕,快手平台知名主播蛋蛋(杨润心)在独立创业后的首次大型促销活动中交出了一份亮眼的成绩单。据统计,蛋蛋在此次活动中成功实现直播总成交额高达55亿元,充分展现了其强大的商业价值和带货实力。 作为快手平台的头部主播,蛋蛋同时也是全网首位粉丝数量突破亿级别的女性主播,其影响力在直播电商领域无人能及。自2019年正式开启直播生...
15:28
北京穿越者公司昨日隆重举行穿越者壹号载人飞船试验舱的下线仪式,这一里程碑事件标志着中国商业载人航天事业实现了从方案论证到系统落地的关键性突破,为未来载人航天任务的顺利开展奠定了坚实基础。该试验舱肩负着国内首次全尺寸载人飞船着陆缓冲关键技术的验证任务,其成功下线将为中国载人航天技术的进一步发展提供重要支撑。 据悉,这款直径四米、高三米的返回舱采用了创新的双曲面...
15:28
在备受瞩目的2025人工智能+大会上,阶跃星辰首席执行官姜大昕发表了题为《智能终端:AI时代的核心枢纽》的主题演讲,为与会者描绘了人工智能与智能终端融合发展的宏伟蓝图。姜大昕指出,随着AI技术的不断演进,智能终端正逐渐从辅助工具升级为连接人与数字世界的核心节点,尤其在“人·车·家”三大生活场景中展现出颠覆性的应用潜力。他特别强调,随着智能驾驶技术的加速落地,...
15:28
英伟达Shield TV自2015年问世以来,凭借其兼具电视盒子与游戏主机双重身份的独特定位,赢得了众多用户的青睐。如今正值该系列十周年之际,英伟达官方发布了备受期待的Shield Experience 9.2.2版本更新,为用户带来了一系列贴心且实用的功能优化,其中无障碍功能的改进尤为引人注目。 此次更新在遥控器及手柄配对过程中加入了语音提示音,让用户能够...
15:28
在近日备受瞩目的特斯拉股东大会上,埃隆·马斯克以惊人的前瞻性视角,向全球观众描绘了一幅未来科技蓝图。他大胆预测,借助Neuralink公司突破性的脑机接口技术,人类或许能在短短20年内实现一项颠覆性创举——将人类心智的"动态快照"上传至特斯拉最新研发的人形机器人Optimus体内,从而开创数字永生的全新纪元。这一宏伟构想巧妙地融合了Neuralink的神经科...
14:56
2025年11月16日,中通快递正式宣布在即将到来的快递旺季期间,将大规模部署近3000台无人配送车,服务范围覆盖全国250多个主要城市。这一战略举措标志着中通在智能物流领域的重大突破,其无人车队每日可高效运送超20万件包裹,累计运行里程已突破2000万公里,这一规模在当前国内快递行业无人配送领域堪称领先。通过引入先进的无人驾驶技术,中通旨在有效缓解快递旺季...
14:56
2025年11月16日,携程集团传来振奋人心的消息,其雄心勃勃的温室气体减排目标已成功通过国际权威机构科学碳目标倡议(SBTi)的严格验证。这一里程碑式的成就不仅标志着携程在可持续发展领域的坚定承诺,更使其成为亚太地区首家同时获得近期减排目标与净零排放目标双重认证的在线旅游企业,彰显了其在行业内的领先地位与创新精神。 此次通过SBTi认证,是携程集团积极响应...
14:56
2025年11月16日,汉威科技在投资者互动平台上明确表示,其柔性传感器产品线目前产能充足,完全能够满足下游市场的强劲需求。公司已建成一条年产能超过千万支的柔性传感器超净印刷与组装生产线,其中一期产线扩建工程已于今年顺利竣工并正式投产。汉威科技强调,未来将密切关注市场动态与客户需求变化,灵活调整扩产策略,确保持续稳定供货。该系列传感器凭借卓越性能,已广泛应用...
14:56
2025年11月16日,全球汽车巨头雷诺与日产在重启战略联盟方面迈出了关键一步,双方于法国巴黎和日本横滨同步展开新一轮高层谈判。此次谈判汇聚了两国汽车行业的顶尖代表,旨在通过深化合作,整合双方资源,共同应对日益激烈的全全球电动汽车市场竞争格局。根据多方消息透露,此次合作可能涉及多个核心领域,包括共享电动车平台研发、先进电池技术的联合攻关以及全球范围内的联合采...
14:56
11月16日,承载着湖北制造的一批装修建材通过中欧班列(武汉)成功抵达罗马尼亚阿拉德,标志着这条国际物流大动脉再次实现新突破。这批货物从新疆阿拉山口启程,跨越亚欧大陆,途经哈萨克斯坦、俄罗斯、白俄罗斯、波兰等多个国家,最终在匈牙利布达佩斯完成枢纽转运,最终抵达目的地。此次新线路的开通不仅丰富了中欧班列(武汉)的全球服务网络,更显著提升了中欧班列在连接中国与中...
14:56
英特尔全新酷睿Ultra 7 255U处理器正式登陆市场,然而实际测试结果却揭示了其性能表现存在严重的不稳定性问题。这款处理器作为155U的升级换代产品,在不同设备上的表现差异令人意外。据科技媒体Notebook Check最新报道,搭载该处理器的惠普17t笔记本出现了明显的"性能循环"现象,时钟频率周期性大幅波动直接导致游戏体验大打折扣,严重影响用户流畅运...