美团LongCat-Flash-Thinking模型性能惊艳 接近GPT5顶尖水平

微新创想9月23日重磅消息,美团LongCat团队宣布正式推出全新一代高效推理模型——LongCat-Flash-Thinking。这款模型在继承LongCat-Flash-Chat极致速度优势的基础上,实现了性能与专业性的双重飞跃,堪称业界革新之作。综合权威评测显示,LongCat-Flash-Thinking在逻辑推理、数学计算、代码生成及智能体交互等多个关键领域,已达到全球开源模型的顶尖水平(SOTA),部分任务表现更是逼近闭源模型GPT5-Thinking的卓越水准。

尤为突出的是,LongCat-Flash-Thinking不仅大幅提升了智能体自主调用外部工具的效率,还开创性地扩展了形式化定理证明能力,成为国内首个同时掌握”深度思考+工具调用”与”非形式化+形式化”双重推理能力的大语言模型。该团队强调,在高复杂度任务(如数学难题、代码调试、智能体决策)处理上,新模型展现出惊人的性能优势。

美团LongCat-Flash-Thinking模型性能惊艳 接近GPT5顶尖水平插图1

### 通用推理能力:
LongCat-Flash-Thinking凭借卓越的通用推理能力,在需要严谨逻辑结构化的任务中表现尤为亮眼。其在ARC-AGI基准测试中以50.3分的优异成绩,全面超越OpenAI o3、Gemini2.5 Pro等顶尖闭源模型,彰显了其强大的问题分解与多步骤推理能力。

### 数学能力:
在数学推理领域,LongCat-Flash-Thinking的表现堪称惊艳,已跻身全球顶尖模型行列。面对更具挑战性的HMMT和AIME基准测试,该模型更是取得突破性进展,不仅超越OpenAI o3,与Qwen3-235B-A22B-Thinking等领先模型水平相当,充分验证了其解决复杂数学问题的超凡实力。

### 代码能力:
作为开源模型的性能标杆,LongCat-Flash-Thinking在编程领域同样表现卓越。在LiveCodeBench测试中,其79.4分的成绩显著领先其他开源模型,并与顶级闭源模型GPT-5不相上下,证明其在高难度编程竞赛问题上的强大解题能力。此外,在OJBench基准测试中,该模型以40.7分的亮眼表现,持续保持极强竞争力,接近Gemini2.5-Pro的领先水平。

美团LongCat-Flash-Thinking模型性能惊艳 接近GPT5顶尖水平插图2

### 智能体能力:
LongCat-Flash-Thinking在工具增强型推理(Tool-augmented Reasoning)方面表现突出,尤其在智能体工具调用(Agentic Tool Use)上展现出强劲实力。在2-Bench测试中,其74.0分的成绩刷新了开源模型的SOTA记录,同时在SWE-Bench、BFCL V3和VitaBench等基准测试中,也持续保持超强竞争力,凸显了其在复杂场景下的智能决策能力。

### ATP形式推理能力:
在MiniF2F-test基准测试中,LongCat-Flash-Thinking的pass@1得分高达67.6,大幅领先所有参与评估的模型,在pass@8和pass@32等更高难度测试中同样保持领先优势,充分展现了其在生成结构化证明和形式化数学推理方面的绝对领先地位。

目前,LongCat-Flash-Thinking已全面开源至HuggingFace和Github平台,用户可通过官网进行实时体验,共同探索AI推理技术的无限可能。

最新快讯

2026年02月12日

14:17
微新创想:2026年2月11日,路虎在欧洲展开冬季测试,新款燃油版揽胜的路测照片被CarBuzz媒体意外曝光。此次改款是自2021年现款揽胜发布以来,燃油版本首次迎来重要的设计升级。新车整体轮廓依旧保持经典风格,但在细节上进行了显著调整。全新设计的大灯组更加锐利,前脸格栅与进气口也进行了优化,使整体视觉效果更具现代感。尾灯部分则采用了横向拉长的设计,增强了辨...
14:17
微新创想:2026年2月11日 宝马M5 Touring旅行版改款车型在欧洲开展冬季测试 新车由CarBuzz媒体抓拍证实 外观升级前脸垂直分割保险杠及优化尺寸的双肾格栅 并更新尾灯设计 为满足欧六E排放新规 欧规V8发动机功率下调约40马力 但通过强化电机输出 综合功率维持717马力不变 该车型预计年内发布
14:17
微新创想:2025年,万豪国际旗下福朋喜来登品牌在大中华区签约项目同比增长18%,成为集团签约数量最多的品牌。这一显著增长不仅体现了品牌在市场中的强大吸引力,也反映了消费者对高品质旅居体验的持续追求。 新签约项目覆盖北京国贸、深圳福田、广州长隆等一线城市核心商圈,以及成都、杭州、长沙等新一线重点城市。这些区域都是商业与旅游活动高度活跃的地方,福朋喜来登通过精...
14:17
微新创想:2月7日,安徽阜阳太和县的一场特别婚礼吸引了众多目光——31岁的农村小伙马先生与24岁的埃及姑娘马诺雅喜结连理,在安徽老家举办了一场充满传统韵味的中式婚礼。这段跨国恋情的故事,从社交平台开始,最终绽放出幸福的花朵。 据悉,马先生与马诺雅的相识颇具缘分。马先生原计划前往埃及考察,偶然间在社交平台上看到了马诺雅发布的中文学习帖,两人因此结缘。随后,马先...
14:17
微新创想:近日,贵州一名男子在春节返程途中遭遇了意想不到的趣事——他将两只活鸭作为年货放置在汽车后备箱,不料行车途中,两只鸭子竟“大打出手”,激烈争斗并相互啄咬。这一戏剧性场景被记录下来并上传至网络后,迅速引发网友热议。 据当事人描述,这两只鸭子本是为春节准备的特色年货,原本安静地待在后备箱中。然而,随着车辆行驶,不知何故,两只鸭子突然“情绪失控”,展开了一...
14:17
微新创想:小米Tag终于在欧洲多国正式上架,这款备受期待的智能追踪器自传出消息以来就引发了广泛关注。如今,它已在全球多个市场亮相,成为小米在智能穿戴和物联网领域的重要布局之一。 法国官网显示,小米Tag的单个产品售价为17.99欧元,约合人民币147.97元。四件套的售价为59.99欧元,约合人民币493.44元。价格方面,相比苹果AirTag,小米Tag更...
14:17
微新创想:2026年2月12日 字节跳动 Seed 团队正式发布新一代视频创作模型 Seedance2.0 该版本采用统一的多模态音视频联合生成架构 标志着 AI 视频生成从“单点突破”正式迈向“全能协作”的工业级应用阶段 核心技术跃迁 从“能画”到“懂物理”相比1.5版本 Seedance2.0在复杂交互与运动场景下的可用率大幅提升 模型通过出色的物理还原...
14:17
微新创想:国产大模型出海赛道再传重磅进展。据界面新闻援引第一财经报道,MiniMAX M2.5模型即将正式上线。这款备受期待的新一代大模型,目前已在海外版本的 MiniMAX Agent 产品中率先开启内测。 核心看点:国际化布局。MiniMAX选择首先在海外市场进行新模型的实战演练,显示出其加速全球化落地、角逐国际 AI 应用市场的雄心。这一策略不仅有助于...
13:14
微新创想:2026年2月12日,北京大学物理学院与电子学院联合团队宣布成功构建全球首个基于集成光量子芯片的大规模量子密钥分发网络——“未名量子芯网”。这一突破性成果标志着量子通信技术迈出了重要的一步。 该网络支持20个芯片用户并行通信,两两之间的通信距离可达370公里,成功突破了传统无中继通信的限制。这一能力不仅提升了量子通信的传输范围,也为构建更广泛的量子...
13:14
微新创想:2026年2月12日,加密借贷平台BlockFills宣布暂停用户提款及限制平台交易。该措施自2月5日起实施,至今仍在持续。暂停原因系比特币等主流加密资产价格近期剧烈波动,引发流动性压力。BlockFills未透露恢复时间表,仅表示正积极评估风险并优化资金管理。平台称此举旨在保障资产安全与运营稳定,受影响用户包括全球范围内的出借人及借款人。
13:14
微新创想:2026年2月12日,韩国个人信息保护委员会对路易威登、迪奥和蒂芙尼韩国公司分别处以213.85亿、122.396亿和24.192亿韩元罚款,合计逾360亿韩元,约合1.7亿元人民币。此次处罚源于三家企业在顾客信息管理方面存在严重漏洞,导致大规模个人信息泄露事件的发生。 路易威登涉及的个人信息泄露人数最多,达360万人。迪奥的泄露人数为195万人,...
13:14
微新创想:2026年2月12日,联想集团发布2025/26财年第三财季业绩报告。报告显示,截至2025年12月31日,联想集团的总营收达到1575亿元人民币,同比增长18%。这一成绩不仅展现了公司在全球市场的强劲竞争力,也标志着其在多个业务领域实现了稳步增长。 经调整后的净利润同比增长36%,进一步体现了联想集团在成本控制和盈利能力方面的显著提升。在三大核心...