字节Seed Prover1.5数学模型夺IMO金牌 AI推理再创新高

字节跳动旗下 Seed AI 团队近日传来重大突破,其自主研发的数学推理模型 Seed Prover1.5 在国际数学奥林匹克(IMO)比赛中斩获金牌,以35分的优异成绩达到金牌标准,这一成就标志着人工智能在数学领域取得了里程碑式的进展。Seed Prover1.5 基于先进的 Scaling Law 理论,在16.5小时内成功攻克IMO2025的前五道题目,仅失手于最后一题,其表现与谷歌 Gemini 并列顶尖,远超字节此前模型的效率——后者完成四道题需耗时三天且仅获银牌。这一突破不仅刷新了AI数学推理的纪录,更确立了Seed Prover1.5作为行业新标杆的地位。

字节Seed Prover1.5数学模型夺IMO金牌 AI推理再创新高插图1

Seed Prover1.5的卓越表现源于其创新的技术架构,核心在于大规模强化学习的深度应用。通过持续训练,模型证明题目的成功率从50%大幅提升至近90%,这一跨越式的进步充分展现了AI在复杂逻辑推理中的潜力。更令人瞩目的是,Seed Prover1.5还在北美数学竞赛Putnam中刷新了历史最佳成绩,进一步印证了其超凡的解题能力。

技术报告揭示了Seed Prover1.5两项关键创新:Agentic Prover与Sketch Model。Agentic Prover采用全新的形式化数学推理范式,借助Lean等形式语言实现可验证的证明过程。相较于传统自然语言推理,该方法更为严谨但也更具挑战性。为攻克这一难题,Seed Prover1.5设计了多工具调用机制,可实时检索Lean数学库Mathlib或编写Python脚本辅助计算,确保推理过程的准确性与高效性。而Sketch Model则模拟人类数学家的解题思维,允许模型先完成非正式的证明草稿,系统会自动生成关键引理与逻辑框架,再转化为形式化证明。通过混合奖励信号的强化学习策略,Sketch Model既提升了整体逻辑规划能力,又显著降低了复杂问题的求解难度。

字节Seed Prover1.5数学模型夺IMO金牌 AI推理再创新高插图2

Seed Prover1.5的成功不仅彰显了字节跳动在AI数学推理领域的研发实力,更为未来数学研究开辟了新路径。该模型在算法设计、工具整合与学习策略上的创新,为AI辅助数学教育提供了宝贵参考。论文完整版已发布于arxiv,链接:https://arxiv.org/pdf/2512.17260

最新快讯

2025年12月25日

17:56
12月19日 夜幕低垂 华灯璀璨 浙江丽水松阳县公安局象溪派出所的接报案大厅里 出现了一群令人难忘的"访客"——七名小学生 他们结伴而来 稚嫩的脸庞上写满了认真与期待 敲响了派出所的大门 原来这群孩子在放学后玩耍时 因一件小事发生了争执 你一言我一语 各执一词 气氛一度十分紧张 争执陷入僵局时 有孩子提议道 "咱们去找警察叔叔评评理吧!" 这个提议立刻得到了...
17:56
近日,河南南阳发生了一起令人痛心的儿童意外事件,一名年仅一岁的宝宝在家中不幸误服了紫草油,而家长在紧急处理过程中的不当行为,更是让孩子的病情雪上加霜。这瓶本用于皮肤护理的紫草油,原本是家长准备给孩子涂抹臀部的,然而意外却在此刻发生,宝宝不慎将其中的一口误饮。母亲发现这一幕时,内心充满了焦虑与恐慌,她本能地用手抠孩子的喉咙,试图催吐,希望孩子能够将误饮的紫草油...
17:55
微新创想12月25日重磅消息,微博热门话题#iPhone18Pro左上角挖孔设计#强势登顶热搜榜,引爆全网热议。据权威媒体报道,苹果公司计划对即将推出的iPhone 18 Pro系列进行颠覆性外观升级,该机型将彻底告别备受争议的灵动岛药丸形挖孔设计,转而采用左上角单打孔方案,并首次搭载屏下Face ID技术,旨在全面提升用户的使用体验。 据产业链资深人士透露...
17:55
微新创想12月25日消息,一加Turbo系列将于1月份亮相,该机主打旗舰级性能和持久续航,号称是超标普及价位段前所未见的游戏体验。一加中国区总裁李杰表示,这次我们给大家准备的新Turbo料很足,我们打破行业缓慢下放普及、等级森严的惯例,以行业最快的速度、最大的诚意给大家超标带来了很多和旗舰一样的好东西,针对中端手机游戏、续航体验...
17:55
小米汽车于12月25日发布重要消息,正式开启OTA冬季大版本升级推送,为用户带来六大核心功能革新,全面覆盖智能驾驶安全、人机交互体验及娱乐服务三大领域。此次升级以智能驾驶系统为核心亮点,实现多项关键性突破:Xiaomi HAD增强版通过算法优化,显著提升纵向跟车与横向变道的驾驶质感,能够精准预判前方路况变化,实现更平稳的减速控制与更流畅的变道并线操作。同时,...
17:45
2025年12月25日 上海——享道出行携手上海市工人疗养院正式发布《网约车司机健康体检报告》,这份权威报告基于上海市总工会与市交通工会联合支持的“网约车司机专属公益体检”项目真实数据,全面揭示了网约车司机这一特殊职业群体的健康状况。报告指出,当前网约车司机群体普遍面临血压异常、代谢综合征“三高”(高血压、高血糖、高血脂)以及脂肪肝等健康风险,这些问题已对从...
17:45
2025年12月22日,备受瞩目的日本H3火箭8号机在鹿儿岛县种子岛宇宙中心成功点火升空,其搭载的“引路5号”导航卫星原计划借此进入预定轨道,为日本乃至亚太地区的卫星导航系统提供关键支持。然而,在飞行过程中,火箭第二级发动机出现意外,燃烧过程提前终止,导致推力不足,卫星最终未能达到预定轨道高度。这一突发状况立即引起了日本航天界的广泛关注。 日本宇宙航空研究开...
17:45
2025年12月25日,科德数控正式宣布其沈阳工厂产能扩张计划,预计在全面达产后将实现整机年产能约60台。这一产能提升标志着公司生产能力的显著增强,为满足日益增长的市场需求奠定了坚实基础。 作为公司产能布局的重要补充,银川工厂的达产目标同样令人瞩目。据公司介绍,该工厂建成后将成为德创系列五轴卧式铣车复合加工中心的核心生产基地,年产能预计可达90台,同时配...
17:45
2025年12月25日,中国光伏龙头企业隆基绿能与欧洲领先的光伏储能工程承包商Solarpro正式达成战略合作协议。双方将携手在匈牙利赫维什北部地区共同投资建设一座装机容量达450MW的BC光伏电站。这一项目一旦建成,将成为欧洲区域内规模最大的同类光伏发电设施,为欧洲清洁能源转型注入强劲动力。 此次合作充分体现了隆基绿能的技术优势与Solarpro的工程实力...
17:45
2025年12月25日,备受瞩目的甘肃至浙江±800千伏特高压直流输电工程配套项目迎来重大进展,其配套的330千伏新能源送出工程正式获得甘肃省能源局的核准批复。这一关键性决策由甘肃省能源主管部门权威批准,不仅彰显了地方政府对清洁能源发展的坚定支持,更标志着陇电入浙工程配套电网建设进入实质性实施阶段。 该工程地处甘肃省境内,作为特高压直流输电工程的重要补充,其...
17:45
2025年12月25日,全球领先的生物制药公司阿斯利康正式宣布,其与日本第一三共公司联合研发的抗体偶联药物德曲妥珠单抗(商品名:优赫得)在中国获得国家药品监督管理局(NMPA)批准的第五项适应症。这一重要里程碑意味着该创新药物将可被用于治疗特定类型的晚期乳腺癌患者,为临床治疗提供了新的有效选择。 该药物主要针对既往经内分泌治疗失效的不可切除或转移性HR阳性、...
17:45
12月25日,备受市场关注的深圳大鹏佳兆业金沙湾大酒店01不动产二次拍卖突然撤回,引发行业热议。根据阿里资产司法平台最新披露的信息,此次撤回拍卖的主要原因被标注为"需进一步核实涉案财产有关拍卖事宜"。该不动产标的物权利人明确为佳兆业集团旗下深圳市金沙湾大酒店有限公司,评估价值高达9.88亿元,而此次起拍价设定为5.53亿元,折合起拍单价约为5600元/平方米...