Mini-o3开源模型突破传统实现超长视觉推理深度思考

Mini-o3开源模型突破传统实现超长视觉推理深度思考插图1

字节跳动与香港大学强强联手,共同研发出突破性的开源视觉推理模型——Mini-o3,为多轮视觉推理技术领域带来革命性进展。与以往仅支持1-2轮对话的视觉语言模型(VLM)相比,Mini-o3在训练阶段设定了6轮对话限制,却在测试环节实现了数十轮的推理扩展,显著增强了处理复杂视觉问题的能力。该模型在高难度视觉搜索任务中的深度推理表现,已达到当前技术前沿水平,其卓越性能源于三大核心设计要素的精妙融合。

Mini-o3开源模型突破传统实现超长视觉推理深度思考插图2

首先,研究团队精心构建了VisualProbe视觉探测数据集,内含数千个专为探索性推理设计的视觉搜索难题,为模型提供了丰富的认知训练素材。其次,他们创新性地开发了迭代数据收集流程,使模型能够自主学习深度优先搜索、试错探索和目标维持等多元推理策略,大幅提升了认知灵活性。最后,团队提出的超轮次掩码策略在强化学习过程中巧妙规避了对达到最大交互轮次的回答进行惩罚,这一创新显著提高了训练效率与测试扩展性。

Mini-o3开源模型突破传统实现超长视觉推理深度思考插图3

Mini-o3的训练过程采用双阶段设计,第一阶段通过冷启动监督微调(SFT)激活多轮工具使用能力,研究团队通过上下文学习方式积累了大量高质量推理轨迹。第二阶段引入强化学习(RL)机制,通过降低图像像素限制和引入超轮次掩码技术,使模型互动轮次和推理能力得到质的飞跃。在多个视觉搜索基准测试中,Mini-o3的表现全面超越现有开源模型,展现出强大的技术优势。

对比实验进一步证实,冷启动SFT技术和超轮次掩码机制是提升推理能力的两大关键支柱。此外,合理的最大像素预算设置对模型性能优化同样至关重要。Mini-o3的问世不仅在技术上树立了新标杆,更为未来多轮视觉推理发展指明了创新方向。这一突破性成果表明,无需依赖海量训练资源,深度思考和复杂推理已成为可能,为人工智能领域注入了新的活力。论文详情请参阅:https://arxiv.org/pdf/2509.07969

最新快讯

2025年09月16日

12:42
2025年9月16日10时35分,河南许昌市气象台紧急发布暴雨红色预警信号,林科所实测降水量已突破100毫米大关。据最新气象监测数据显示,受强对流天气系统持续影响,未来2小时内,许昌市中心城区大部分区域或将面临超过100毫米的强降雨挑战。 面对严峻的汛情形势,许昌市防汛抗旱指挥部于10时45分果断将防汛应急响应提升至二级。这一决策旨在全面启动应急预案,强...
12:42
UPS近期正式宣布对亚洲航空网络进行重大战略调整,将资源重点投向深圳亚太转运中心与澳大利亚悉尼金斯福德·史密斯机场之间的直飞航线。这一关键航线已从原有规模大幅提升至每周5班,整体运力增长超过4倍,为亚洲主要市场与澳大利亚之间的货物运输效率带来革命性突破。此次升级举措显著缩短了从中国、日本、韩国等核心区域出发的国际物流时间,实现货物配送周期从原先的3个工作日压...
12:42
9月15日,备受市场关注的旭辉集团股份有限公司传来重大利好消息,其旗下全部公司债重组方案获得顺利通过,涉及的总本金规模高达约100.6095亿元人民币。这一重组方案的成功实施,不仅覆盖了旭辉控股集团旗下所有现存的公司债券,更为企业未来的稳健运营奠定了坚实基础。 旭辉控股集团首席财务官杨欣在公告中明确表示,当前房地产市场正处于筑底期,行业转型压力不容忽视。面对...
12:42
九思增材近日正式宣布成功完成Pre-A+轮融资,领投方为极壳科技。作为国内领先的超精细金属3D打印服务商,该公司凭借在新材料应用、高精度工艺和低成本规模化制造领域的深厚积累,已构建起强大的核心竞争力。九思增材致力于为3C终端设备、工业机器人及高端消费品等多元化领域提供兼具高强度、高韧性和高效率的全工序打印产品,服务范围覆盖钛合金、铝合金、不锈钢等主流金属材料...
12:42
9月16日,行业内部消息显示,华为汽车业务单元(车BU)正与广汽丰田加速深化战略合作,计划在未来两年内联合推出三款重磅新车。其中,备受关注的铂智7车型预计将于明年正式上市,该车型将率先搭载华为鸿蒙座舱5.0系统,并配备全新的华为电机系统,为用户带来更智能、更高效的驾驶体验。 根据合作规划,2027年双方将推出两款旗舰车型,这两款车型将全面应用华为最新的乾崑智...
12:42
9月16日,方大集团在官方互动平台上明确回应了外界关于其是否涉足电池业务的疑问。公司方面表示,目前方大集团的业务重心主要集中在幕墙系统、消防产品以及轨道交通设备三大领域,并未进入电池相关产业。这一表态进一步印证了方大集团在产业布局上的专注与清晰。 针对部分市场猜测,方大集团特别强调,公司现阶段既没有与电池产业链相关的研发项目,也暂无任何电池产品的生产计划。这...
12:42
Kimi开放平台重磅推出Kimi K2官方高速版API限时特惠活动,以震撼5折优惠力度,持续整整一个月,为广大开发者带来前所未有的机遇。此次特惠活动旨在让更多用户能够以更低的成本,更高效地体验Kimi K2的卓越性能。 Kimi K2官方高速版API在模型参数上与kimi-k2-0905保持高度一致,同时将上下文长度大幅提升至256K,为用户提供了更广阔的创...
12:42
2025年9月16日,敦煌网正式对外公布商家综合指标考核规则的全面调整方案,这一重要举措旨在从源头上降低商家的运营成本与理解成本,同时有效解决考核指标重复设置、标准不统一等长期困扰行业的问题。此次调整的核心目标在于通过优化考核体系,显著提升商家的整体运营效率、商品质量以及客户满意度,从而构建更加健康、可持续的电商生态。据悉,新规则已于9月12日发布,并将于9...
12:11
Meta AI 近期正式发布了 MobileLLM-R1 系列轻量级边缘推理模型,这一创新成果已在 Hugging Face 平台公开发布。该系列模型参数规模覆盖从 140M 到 950M 的广泛区间,其核心设计理念聚焦于高效执行数学运算、编码任务以及科学推理,令人惊喜的是,即便在参数总量不足 10 亿的条件下,依然实现了令人瞩目的性能表现。 MobileL...
12:11
VEED重磅发布全球首款AI会说话视频模型Fabric 1.0,以颠覆性的技术重新定义视频创作边界。只需一张静态图片,即可生成具有逼真唇形同步和自然面部表情的动态视频,彻底打破传统视频制作的成本与时间壁垒。官方数据显示,Fabric 1.0将视频生成成本降低60倍,速度提升7倍,最长支持1分钟内容生成,这一突破性成果迅速引发科技界强烈关注,开发者与内容创作者...
12:11
2025中国企业500强榜单及分析报告于9月16日由中国企业联合会与中国企业家协会联合发布,引发广泛关注。卓尔智联集团凭借其卓越的经营业绩,成功跻身中国企业500强,位列第164位,同时荣获中国战略性新兴产业领军企业100强称号,排名升至第65位。这一双料入榜成绩不仅彰显了卓尔智联集团在行业内的领先地位,更体现了其稳健的经营策略与持续的创新动力。 此次发布的...
12:11
安帝康生物近日传来振奋人心的消息,公司在抗呼吸道病毒创新药研发领域取得重大突破,已成功布局包括"一粒"治愈流感新药、口服抗新冠特效药及抗RSV药物在内的多款前沿产品。其中备受瞩目的口服抗新冠特效药CN-2021,计划于今年正式进入临床试验阶段。这款创新药物以奈玛特韦结构为基础进行深度优化,临床前研究数据惊艳亮相,展现出超越同类的Best-in-Class潜力...