MiniMax M2.5开源发布 低成本Agent时代全面开启

微新创想:MiniMax 发布 M2.5 模型,这是其 M2 系列在 108 天内的第三个版本。该模型不仅开源权重同步上线魔搭 ModelScope,更在能力、效率、成本三个方面实现了突破性进展。M2.5 在编程、搜索、办公等多个应用场景中表现出色,为用户提供了从零代码使用到私有化部署的全流程接入方案。此外,MiniMax 还推出了工具调用与推理参数调优的完整实战指南,推动低成本 Agent 时代的到来。

微新创想:M2.5 在多项权威评测中取得了优异成绩。SWE-Bench Verified 得分达到 80.2%,超越了 GPT-5.2 并接近 Claude Opus4.5。在 Multi-SWE-Bench 测试中,M2.5 以 51.3% 的表现位居多语言编程能力行业第一。BrowseComp 得分高达 76.3%,在搜索与工具调用能力方面大幅领先。编程能力方面,M2.5 展现出架构师级别的规划能力,覆盖完整的开发生命周期,支持多平台全栈开发,其框架泛化能力优于 Claude Opus4.6。搜索任务中,模型能够减少 20% 的轮次消耗,专家级搜索表现卓越。办公场景中,M2.5 融合了金融、法律等行业知识,展现出高阶办公能力,内部评测显示其对主流模型的胜率高达 59.0%。

MiniMax M2.5开源发布 低成本Agent时代全面开启插图1

微新创想:M2.5 在性能上也有显著提升,其速度较 M2.1 提高了 37%,与 Claude Opus4.6 的耗时持平,但成本仅为后者十分之一。这一突破性的表现得益于 MiniMax 在技术创新方面的持续投入。M2.5 的快速迭代主要源于三大核心技术的创新:一是 Forge 原生 Agent RL 框架,实现了约 40 倍的训练加速;二是 CISPO 算法保障大规模训练的稳定性,有效解决了长上下文信用分配难题;三是创新的 Reward 设计,能够在模型效果与响应速度之间取得良好平衡。这些技术的融合使得 MiniMax 内部 30% 的日常任务和 80% 的新提交代码得以由 M2.5 完成,M2 系列在 108 天内 SWE-Bench Verified 得分从 69.4% 飙升至 80.2%,迭代速度远超行业主流模型。

微新创想:为了满足不同用户的需求,M2.5 提供了多种部署方式,包括零代码使用、API 调用和本地部署。非技术用户可以通过 MiniMax Agent 网页端轻松上手,平台已有超过 10000 个用户创建了可复用的 “Expert” 工具。开发者可以选择调用魔搭免费 API 或官方 API,官方还推出了 Lightning 和标准版两个 API 版本,成本仅为同类模型的十分之一到 twentieth。本地部署方面,M2.5 支持 SGLang、vLLM、Transformers、MLX 四种方案,分别适用于高并发生产、中小规模生产、快速验证和 Mac 本地开发等不同场景,并提供了各方案的硬件要求和详细操作步骤。

微新创想:M2.5 还原生支持结构化工具调用,能够并行调用多个工具。通过 vLLM 或 SGLang 部署,用户可以直接使用 OpenAI SDK 格式进行调用,而其他框架则需要手动解析 XML 格式输出。同时,官方提供了工具结果回传模型的完整流程和最佳实践,帮助用户更高效地实现自动化任务。在推理参数方面,官方推荐使用 temperature=1.0、top_p=0.95、top_k=40 的配置,以达到最佳效果。不同场景下,用户可以根据需求灵活调优参数。此外,M2.5 对 10 多种编程语言和多种脚手架均具备优秀的适配性,使得编程提示词能够充分利用模型的架构师思维,提升开发效率与质量。

最新快讯

2026年02月14日

19:00
微新创想:2026年2月13日,苹果美国官网正式下线iWork独立介绍页。访问该链接将重定向至通用的“Apple Apps”页面。这一变动标志着苹果正式结束以“iWork”品牌统称Pages、Numbers和Keynote三款办公应用的历史。未来,这三款应用的相关介绍将被整合进“生产力”板块,同时同步推广Creator Studio。 苹果此举表明其正在逐步...
19:00
微新创想:2025年8月,安全研究员Eaton Zveare发现印度达瓦药房(DavaIndia Pharmacy)后台存在一个未加防护的超级管理员API接口 该漏洞自2024年末起一直保持开放状态,未被及时发现和处理 攻击者利用此漏洞可以创建具有高权限的账户,进而访问大量敏感信息 受影响的订单数据包含客户的姓名、联系方式、地址以及药品详情等重要信息 此外,...
19:00
微新创想:2026年2月13日,OpenAI宣布为Codex、Sora等产品上线全新计费引擎。这一更新标志着OpenAI在服务管理与用户体验方面迈出了重要一步。新系统不仅整合了速率限制、实时用量追踪和信用点数扣减功能,还引入了更加智能的支付机制。 微新创想:用户在达到使用上限后,系统将自动切换至信用支付模式,从而避免了传统计费方式中常见的‘强制中断’问题。这...
19:00
微新创想:2026年2月14日,全球第二大黄金生产商Agnico Eagle Mines首席执行官Ammar Al-Joundi表示,公司财务稳健、运营高效,已准备好在出现合适机会时推进并购活动。这一表态显示出Agnico Eagle Mines在战略方向上的重要转变。 微新创想:过去多年,Agnico Eagle Mines主要致力于内生增长,通过优化现有...
19:00
微新创想:2026年2月14日,据公开报道,前微软必应搜索负责人兼前Win11开发团队主管米哈伊尔·帕拉申科披露,微软在Windows 11中移除垂直任务栏功能。这一决定是为了贯彻“对称美学”的UI设计原则。 开始菜单被设计为居中布局,左侧用于承载信息流与小组件,右侧则定义为系统控制区。这种布局方式强调了界面的平衡感和视觉统一性。而垂直任务栏由于与左右分区的...
17:27
微新创想 今日字节跳正式发布豆包大模型2.0(Doubao-Seed-2.0)系列。此前,字节跳已推出Seedance 2.0视频模型和Seedream 5.0 Lite图像模型,此次豆包大模型2.0的发布进一步完善了其大模型产品矩阵。豆包2.0是针对大规模生产环境进行系统性优化的版本,旨在更好地完成真实世界的复杂任务,提升用户体验和应用效率。 目前豆包2....
17:27
微新创想 在当前AI技术迅猛发展的背景下,越来越多的职场人士开始感受到来自人工智能的潜在威胁。这种焦虑情绪在各行各业中蔓延,尤其在白领群体中表现得更为明显。微软人工智能部门CEO穆斯塔法苏莱曼近日在接受《金融时报》专访时,对AI的未来发展做出了大胆预测。他指出,未来12到18个月内,许多白领工作将被人工智能完全自动化,这一趋势已经初现端倪 苏莱曼特别提到...
17:27
微新创想 腾讯旗下光子工作室群近日发布了2026年校园招聘信息,面向两款全新3A大作项目招募人才。此次招聘主要面向策划类和美术类岗位,均提供转正机会,工作地点涵盖广州和深圳。招聘信息显示,光子R工作室正在积极拓展其在游戏开发领域的影响力,吸引更多有才华的年轻开发者加入。 《雪中悍刀行》是一款定位为3A双端武侠动作游戏的作品,基于同名现象级网络小说改编。该游戏...
17:24
微新创想:2月14日,字节跳动宣布拟将旗下游戏公司沐瞳科技出售给沙特公共投资基金(PIF)旗下的Savvy Games Group。根据相关消息,交易金额超过60亿美元,约合414.52亿元人民币。此次交易预计将在2026年2月签署股权收购协议(SPA)。 此次出售是字节跳动在全球游戏业务布局上的一项重要战略调整。通过出售沐瞳科技,字节跳动可以进一步集中...
17:24
微新创想:2025年12月12日,云存储服务商Backblaze公布了年度机械硬盘可靠性数据。此次数据涵盖截至2025年底的硬盘监控情况,总计监控硬盘数量达到341,664块,其中337,192块被纳入统计分析。统计范围内包含了30个不同型号的硬盘,所有型号均出现了故障案例。然而整体年化故障率(AFR)仅为1.30%,这是自2022年以来的最低水平。 微新创...
17:24
微新创想:2026年2月14日 微信官方公众号“微信派”发布播客 微信支付产品经理“飞哥”就红包规则答疑 针对近期用户对红包规则的诸多疑问 飞哥在播客中进行了详细解答 单个红包上限设置为200元 是出于对用户体验的考量 飞哥表示这一限制旨在保持红包活动的趣味性 同时避免给用户带来过大的心理压力 关于“第二位手气最佳”“网速影响金额”等传闻 飞哥明确指出 红包...
17:24
微新创想:2月14日,京东集团向全球90万名员工发布新春贺信。信中明确,未来三年将持续加大人工智能领域投入,目标带动形成万亿规模AI生态。京东强调国际化是必选项,将依托全球供应链能力建设,推进具备独特竞争力的出海战略。此举旨在强化技术驱动与全球化双轮发展,提升长期增长动能。