美团开源数学定理证明模型LongCat-Flash-Prover打破行业记录 - 微新创想

2026-03-24 11:05:25 AI动态 2 次阅读

微新创想：2026年3月24日，美团龙猫（LongCat）团队正式开源专门用于数学形式化与定理证明的深度学习模型——LongCat-Flash-Prover。该模型针对大语言模型在严密逻辑推演中的短板，通过将形式化推理拆解为自动形式化（Auto-Formalization）、草稿生成（Sketching）与证明生成（Proving）三大原子能力，实现了从“概率预测答案”向“严谨逻辑证明”的范式转变。

微新创想：在结合工具集成推理（TIR）策略下，该模型在 MiniF2F-Test 基准测试中仅需72次推理预算即可达到97.1% 的通过率，刷新了开源 Prover 模型的 SOTA 纪录。此外，在 MathOlympiad-Bench 与 PutnamBench 等高难度竞赛级任务中，其表现亦全面超越现有开源模型。

微新创想：技术层面，LongCat-Flash-Prover 采用了基于 TIR 的“混合专家迭代”框架。通过集成 Lean4Server 校验、语义及定理一致性检测以及针对9种作弊行为的合法性验证，模型有效解决了逻辑漏洞与代码欺骗问题。

微新创想：在训练阶段，团队引入分层 Masking 策略与 Token 层面 Staleness 控制，显著提升了 MoE 架构下强化学习的稳定性。随着 AI 推理能力从自然语言模糊处理转向计算机可验证的形式化语言，此类 Prover 模型正逐渐超越算法跑分范式，转化为基础科学研究的“底座设施”。

微新创想：这一突破预示着 AI 深度参与前沿数学探索与文献自动化验证的时代正在加速到来。

2026年03月24日

12:09

百词斩深夜服务器故障网友崩溃官方承诺补救方案

百词斩深夜服务器故障网友崩溃官方承诺补救方案

微新创想：3月23日深夜百词斩服务器突发故障影响用户学习 3月23日深夜，百词斩服务器出现突发波动，导致部分用户无法正常使用App。不少网友在社交平台上反馈，学习数据上传失败、基础信息获取失败等问题频繁出现。一些用户表示，这样的情况对于每天坚持打卡背单词的学习者来说非常困扰，甚至有人感叹：“你知道这对于每天起来打卡背单词的人来说多急吗@百词斩我已急哭。” 百...

12:09

河南夫妻极简婚礼省4万买实用品总花费不到7000元

河南夫妻极简婚礼省4万买实用品总花费不到7000元

微新创想：最近，河南一对新婚夫妻的婚礼视频在网上火了。视频里的主角是袁先生和他的妻子，他们这场婚礼那叫一个与众不同，主打一个“极简风”。一般来说，婚礼那都是各种讲究，车队、仪式啥的，可袁先生两口子的婚礼完全不按套路出牌。婚车装饰就花了2块钱，新娘化妆也才200元，车队更是直接省了。而且啊，整个婚礼筹备就用了20多天，没有那些煽情环节，人到齐了直接开饭，总花...

11:43

老铺黄金2025年营收净利双增超200%品牌力驱动业绩爆发

微新创想：老铺黄金在3月23日发布了2025财年的业绩公告，展示了其强劲的增长势头。报告期内，公司总收入达到273.03亿元，相比去年同期实现了221%的显著增长。净利润方面，老铺黄金也表现亮眼，达到48.68亿元，同比增长230.5%。此外，销售额高达313.75亿元，同比增长220.3%，充分体现了公司在市场中的竞争力和品牌影响力。老铺黄金在报告期内实...

11:43

阿里巴巴成立两家数据科技公司强化AI与数据服务协同发展

微新创想：3月24日，杭州晓天数据科技有限公司与杭州衡宇数据科技有限公司在杭州正式成立。两家企业由同一法定代表人魏虎担任，注册资本均为100万元人民币。其业务范围广泛，涵盖互联网数据服务、软件开发以及大数据和人工智能基础平台等多个领域。这两家公司均由阿里巴巴旗下的浙江爱橙技术发展有限公司全资控股，显示出阿里在数据技术领域的持续投入与战略布局。微新创想：此次...

11:43

文远知行2025年营收增长89.6% 自动驾驶出租车收入翻倍

微新创想：文远知行-W（00800.HK）于2026年3月23日公布了2025财年全年业绩报告全年营业收入达到6.85亿元人民币同比增长89.6% 其中自动驾驶出租车业务收入为1.5亿元人民币增长幅度高达209.6% 净亏损较去年同期有所收窄降至16.55亿元人民币截至2025年底公司全球自动驾驶车队规模已达到2113辆在中国市场运营车辆数量...

11:43

至格科技亿元级融资加码AR光波导研发与产能扩张

微新创想：2026年3月，北京至格科技完成新一轮亿元级融资，由长江证券创新投资领投，北京市新材料产业投资基金、东科创资本跟投。此次融资标志着公司在增强现实（AR）领域的重要进展，进一步巩固了其在光学显示技术方面的领先地位。微新创想：公司专注AR光学显示模组及表面浮雕光栅衍射光波导技术研发，自主掌握光栅设计、母版加工和纳米压印三大核心技术。这些技术构成了至格...

11:43

中通集团开展急救员公益培训提升员工应急救护能力

微新创想：3月24日，中通快递在集团总部举办了一场急救员公益培训活动。此次培训特别针对一线员工，旨在积极响应“5分钟社会急救”公益项目的号召，全面提升员工在突发情况下的现场应急救护能力。培训内容涵盖了心肺复苏、自动体外除颤器（AED）的使用以及气道异物梗阻的处置等关键急救技能，通过系统的理论讲解与实际操作演练相结合的方式，确保每位参训人员都能深入理解和掌握这...

11:43

益普索Vision AI革新在家使用测试提升用户体验洞察效率

微新创想：2026年3月，益普索（Ipsos）正式推出Vision AI解决方案，应用于全球市场洞察与产品开发领域。该方案融合视频采集、行为观察技术与视觉AI，革新传统在家使用测试（IHUTs）。微新创想：它通过实时捕捉用户真实产品使用行为，关联其主观反馈，有效弥合‘言行差距’。企业可借此以更高效率、更大规模和更深层次识别关键体验痛点与优化方向，加速产...

11:37

无短板小屏旗舰一加15T参数全面升级对比一加13T

无短板小屏旗舰一加15T参数全面升级对比一加13T

微新创想：一加15T将于今晚19:00正式发布新机定位小屏党的梦中情机一加15T的发布备受期待，这款新机被定位为小屏用户的理想选择。在发布会前夕，一加中国区总裁李杰透露了更多关于新机的信息，他表示这一代一加15T不是简单的升级，而是从内到外的全面革新。整机性能、续航、影像等核心方面均有显著提升，成为一款几乎没有短板的小屏旗舰手机。从李杰公布的发布会彩排...

11:36

男大学生突发躁狂症一周挥霍5万元频繁深夜致电同学

男大学生突发躁狂症一周挥霍5万元频繁深夜致电同学

微新创想：3月24日消息，福建一名18岁男大学生，原本品学兼优、懂事稳重，可寒假回家后却性情大变，举止怪异，让家人从疑惑逐渐变得恐慌。据报道，男生每天晚上把自己关在房间里搞研究，常常熬到天亮才睡。家人一问，他就说自己在研发一项颠覆性新科技，可始终拿不出任何实际成果。除了沉迷不切实际的发明，他还频繁在深更半夜拨打同学电话，滔滔不绝地畅谈人生和所谓的创作构想，...

11:36

邻里纠纷装9个摄像头对拍二审调解拆除设备

邻里纠纷装9个摄像头对拍二审调解拆除设备

微新创想：邻里之间本该和和气气，可西安市雁塔区有对邻居却因为装摄像头的事儿闹上了法庭。近日，雁塔区法院公布了这起邻里隐私权纠纷案，事情的来龙去脉让人唏嘘。原来，杜某、石某夫妇和邻居庞某刚因为相邻权问题产生了矛盾。也不知道是谁先起的头，两边都在自家安装了摄像头，而且这些摄像头的拍摄范围可不小，都能拍到对方家里的情况。这一下，双方心里都不痛快，感觉自己的隐私被...

11:36

“大湾鸡”与7岁英歌女孩斗舞萌翻全网网友直呼可爱加倍

微新创想：最近广东省城市篮球联赛的赛场上掀起了一阵热潮，一段“大湾鸡”与“英歌女孩”庄恩琪的斗舞视频在网络上迅速走红，引发了广大网友的热烈讨论。视频中，两人在赛场上展开了一场别开生面的舞蹈对决，不仅展现了各自的魅力，也让观众们感受到了浓厚的地域文化氛围。 “大湾鸡”作为广东体育城市联赛的吉祥物，以其独特的形象和充满喜感的舞蹈动作赢得了无数观众的喜爱。它那憨态...