阿里Qwen3-Max性能超GPT5成地表最强 满分数学推理创纪录

微新创想9月24日讯 2025云栖大会今日盛大开幕,备受瞩目的阿里通义旗舰模型Qwen3-Max震撼问世,其卓越性能超越GPT5、Claude Opus 4等国际顶尖模型,强势跻身全球前三行列。这款创新力作不仅彰显了阿里在人工智能领域的领先地位,更将大模型技术推向了新的高度。

据悉,Qwen3-Max精心打造了指令(Instruct)与推理(Thinking)两大版本,其预览版在Chatbot Arena排行榜上已斩获第三名的好成绩,而正式版预计将再次刷新纪录。作为通义千问家族中规模最大、能力最强的基础模型,Qwen3-Max拥有高达36T tokens的预训练数据量和超过万亿的总参数,展现出惊人的Coding编程能力和Agent工具调用能力。

阿里Qwen3-Max性能超GPT5成地表最强 满分数学推理创纪录插图1

在大模型运用Coding解决真实世界问题的SWE-Bench Verified测试中,Instruct版本以69.6分的优异成绩位列全球第一梯队;在聚焦Agent工具调用能力的Tau2-Bench测试中,Qwen3-Max更是取得突破性的74.8分,不仅超越Claude Opus4和DeepSeek-V3.1,更彰显了其强大的实用价值。

与此同时,Qwen3-Max的推理增强版本Qwen3-Max-Thinking-Heavy同样表现亮眼,通过结合工具调用和并行推理技术,其推理能力创下新高。特别是在聚焦数学推理的AIME 25和HMMT测试中,该模型均以满分100分的卓越表现刷新纪录,实现了国内大模型在该领域的零的突破。

Qwen3-Max推理模型之所以能够取得如此骄人成绩,关键在于其能够像人类一样灵活调动工具,通过编写代码高效解题。此外,测试时增加的计算资源也为模型表现提供了有力支撑,使其在复杂任务中游刃有余。

阿里Qwen3-Max性能超GPT5成地表最强 满分数学推理创纪录插图2

目前,通义千问系列模型已实现从0.5B到超万亿的全尺寸覆盖,旗下三百余款大模型各具特色,能够满足不同场景下的多样化需求。即日起,广大用户即可在通义千问QwenChat上免费体验Qwen3-Max的强大功能,或通过阿里云百炼平台调用API服务,亲身感受这一人工智能技术的震撼魅力。

最新快讯

2026年02月11日

08:26
2026年2月10日,美国搜索引擎DuckDuckGo宣布其AI平台Duck.ai正式推出实时语音聊天功能。该功能采用加密WebRTC传输与匿名化音频处理,由OpenAI提供底层模型支持,但DuckDuckGo作为中间方严格隔离数据流。语音仅在通话中临时传输,会话结束即销毁,双方均不得留存或用于训练。用户无需注册即可免费试用(限每日额度),订阅版售价10美...
08:26
2026年2月11日,波士顿动力公司宣布CEO罗伯特·普莱特卸任,由首席财务官阿曼达·麦克马斯特临时接任。普莱特自2020年起执掌公司,任职长达30年,曾主导Spot商业化及Atlas人形机器人研发。该公司总部位于美国马萨诸塞州,历经Alphabet、软银、现代汽车三轮收购。此次变动旨在推进管理层平稳过渡,继任者遴选工作已启动。
08:26
2月25日,三星将在全球线上发布会推出Galaxy S26系列手机。该系列将首次深度集成人工智能技术,涵盖影像优化、语音交互与系统自适应等场景。发布会定于韩国首尔时间晚间举行,面向全球同步直播。此举旨在强化其在AI终端领域的竞争力,应对苹果及华为等厂商的同类布局。新机预计3月起在全球主要市场陆续上市。
08:26
2026年2月11日,芬兰奥卢大学研究人员成功开发出一种新型纳米颗粒操控与分离技术。该方法可高效、高纯度分离合成微粒及细胞外囊泡等纳米级结构,突破了生物技术中长期存在的操作精度与分离效率瓶颈。技术适用于血液分析、癌症早期诊断、细胞间通信研究及纳米药物递送等领域。相关成果已发表于《分析化学》期刊。
08:26
2026年2月14日(星期六)情人节当天,苹果公司面向全球Apple Watch用户推出年度“心脏月挑战”。活动鼓励用户通过完成高强度运动合上健身记录中的绿色“锻炼圆环”,以提升心血管健康。用户可使用Apple Watch原生体能训练App或兼容第三方应用(如Nike Run Club、Strava)记录数据,系统将实时监测心率与动作强度以确认有效锻炼。成...
08:26
2月9日,维达力科技股份有限公司向港交所提交上市申请,中金公司与德意志银行为联席保荐人。该公司成立于1991年,专注PVD界面增强技术,服务消费电子、智能汽车等领域。据灼识咨询,其为全球最大的消费电子金属组件PVD解决方案提供商。2024年营收51.99亿元,溢利6.18亿元,同比增长70%。控股股东合计持股约57.25%,庄氏家族成员主导治理层。IPO前...
08:26
微新创想:2025年7月2日,我国爱因斯坦探针(EP)卫星在巡天中发现异常X射线源EP250702a(即GRB 250702B)。该事件亮度峰值达3×10⁴⁹ erg/s,辐射特征前所未见。 此次发现引起了全球天文学界的广泛关注。后续全球多台望远镜开展跨波段联合观测,以获取更多关于这一现象的数据。不同波段的观测有助于科学家更全面地理解事件的本质和物理机制。 ...
08:26
微新创想:截至2026年1月31日,国内14家主要理财公司合计管理规模为24.59万亿元,相比2025年12月末减少了约8150亿元。这是自2025年11月达到历史峰值以来,连续第二个月出现下滑。此次规模回落主要受到春节假期提前带来的居民阶段性赎回行为影响,同时债市波动也对理财产品净值表现造成了压力。 从数据覆盖范围来看,此次统计涵盖了全国性银行的理财子公司...
08:26
微新创想:2026年2月,由日本7个IT行业团体组成的联盟,就苹果在日调整App Store规则一事发声。该联盟涵盖600多家企业,旨在推动更公平的数字市场环境。 此举是针对苹果为落实《移动软件竞争法》于2025年12月实施的新规。新规允许应用在应用商店之外进行支付与分发,但对通过网页进行交易的商家收取最高15%的佣金,同时对在应用商店之外分发的应用加收额外...
08:26
微新创想:2026年2月11日,OpenAI正式向Plus、Pro以及ChatGPT Go用户推出ChatGPT深度研究工具的更新版本。此次更新不仅提升了用户体验,还增强了工具的功能性,使其更加适合专业研究和数据分析需求。 新功能中,全屏报告查看器成为一大亮点。用户可以通过该查看器更清晰地浏览生成的报告内容,同时支持目录导航功能,便于快速定位所需信息。此外,...
08:26
微新创想:2026年2月10日,谷歌宣布以公开预览形式,在美国、英国等六国向Fitbit Premium订阅用户开放AI健康教练服务,首次支持iOS平台。这项新功能标志着谷歌在健康科技领域的进一步拓展。 该AI健康教练服务基于Gemini模型,能够通过5到10分钟的初始对话,为用户提供量身定制的健康目标。随后,系统会在用户晨起、锻炼后及睡前推送个性化的健康建...
08:26
微新创想:2月9日 全球首个融合整车、动态交通与模拟气候的“三位一体”智能驾驶实验室在重庆建成投用 该实验室面积超过5000平方米 可模拟大雾、暴雨、黎明黄昏等极限环境 雾效能在30分钟内实现10米至1千米能见度连续调节 首创智能拖拽系统 最高速度达130公里/小时 可精准复现“鬼探头”等高危场景 项目由招商车研主导建设 着眼于智能网联汽车预期功能安全测试的...