阿里Qwen3-Max性能超GPT5成地表最强满分数学推理创纪录 - 微新创想

2025-09-24 14:36:51 互联网 5 次阅读

微新创想9月24日讯 2025云栖大会今日盛大开幕，备受瞩目的阿里通义旗舰模型Qwen3-Max震撼问世，其卓越性能超越GPT5、Claude Opus 4等国际顶尖模型，强势跻身全球前三行列。这款创新力作不仅彰显了阿里在人工智能领域的领先地位，更将大模型技术推向了新的高度。

据悉，Qwen3-Max精心打造了指令（Instruct）与推理（Thinking）两大版本，其预览版在Chatbot Arena排行榜上已斩获第三名的好成绩，而正式版预计将再次刷新纪录。作为通义千问家族中规模最大、能力最强的基础模型，Qwen3-Max拥有高达36T tokens的预训练数据量和超过万亿的总参数，展现出惊人的Coding编程能力和Agent工具调用能力。

在大模型运用Coding解决真实世界问题的SWE-Bench Verified测试中，Instruct版本以69.6分的优异成绩位列全球第一梯队；在聚焦Agent工具调用能力的Tau2-Bench测试中，Qwen3-Max更是取得突破性的74.8分，不仅超越Claude Opus4和DeepSeek-V3.1，更彰显了其强大的实用价值。

与此同时，Qwen3-Max的推理增强版本Qwen3-Max-Thinking-Heavy同样表现亮眼，通过结合工具调用和并行推理技术，其推理能力创下新高。特别是在聚焦数学推理的AIME 25和HMMT测试中，该模型均以满分100分的卓越表现刷新纪录，实现了国内大模型在该领域的零的突破。

Qwen3-Max推理模型之所以能够取得如此骄人成绩，关键在于其能够像人类一样灵活调动工具，通过编写代码高效解题。此外，测试时增加的计算资源也为模型表现提供了有力支撑，使其在复杂任务中游刃有余。

目前，通义千问系列模型已实现从0.5B到超万亿的全尺寸覆盖，旗下三百余款大模型各具特色，能够满足不同场景下的多样化需求。即日起，广大用户即可在通义千问QwenChat上免费体验Qwen3-Max的强大功能，或通过阿里云百炼平台调用API服务，亲身感受这一人工智能技术的震撼魅力。

2026年02月11日

05:34

黑石集团2亿美元参投Anthropic获超200亿美元融资

微新创想：2026年2月11日，黑石集团宣布投资2亿美元参与人工智能公司Anthropic新一轮融资。据知情人士透露，按3500亿美元估值计算，黑石对Anthropic的持股总规模升至约10亿美元。这表明黑石集团对Anthropic的技术实力和未来发展前景充满信心。 Anthropic总部位于美国旧金山，专注于开发Claude系列大语言模型。公司自成立以来，...

05:34

斐济群岛附近发生6.2级深源地震专家解读震源深度与影响

微新创想：2月11日凌晨4时44分，斐济群岛地区发生了一次6.2级左右的地震。根据中国地震台网的自动测定，此次地震的震中位于南纬20.99度，西经178.42度。地震的震源深度属于深源，这意味着地震能量释放的位置较深，通常对地表的影响相对较小。此次地震发生后，相关部门迅速进行了监测和评估。目前尚未发布海啸预警，表明地震可能不会引发大规模的海啸灾害。同时，地...

04:29

阿布扎比MGX拟参与Anthropic新一轮融资布局中东AI战略

微新创想：2026年2月11日，阿布扎比投资机构MGX据称正接近参与人工智能公司Anthropic的新一轮融资。该交易涉及阿联酋阿布扎比与美国加州（Anthropic总部所在地）之间的资本合作。MGX与Anthropic的合作将有助于推动中东地区在全球人工智能领域中的影响力。此次投资被认为是对Anthropic现有业务模式的重要补充。Anthropic作为...

02:56

Alphabet欧洲发债110亿美元全球债务突破300亿

微新创想：2026年2月11日美国科技巨头Alphabet在欧洲市场完成债券发售累计募资110亿美元此举使其2026年以来全球债券发行总额达300.1亿美元发债地点为欧洲主要金融中心发行主体为Alphabet Inc. 资金将用于一般公司用途包括回购股票偿还到期债务及营运资本补充此次发债反映其在低利率环境下优化资本结构的战略意图亦显示国际投...

01:51

特斯拉任命乔·沃德为全球销售负责人强化国际市场协同与交付效率

微新创想：2026年2月11日特斯拉宣布任命现任欧洲、中东和非洲区副总裁乔·沃德接任全球销售业务负责人此次调整自即日起生效公司表示此举旨在整合区域销售资源强化全球市场协同与交付效率乔·沃德自2019年起在特斯拉任职历任英国德国等多国销售高管具备丰富的国际市场管理经验公司强调此次任命不涉及组织架构大规模变动原有区域销售团队保持稳定运行以确...

00:13

吉利银河M7米兰首秀东方美学插混SUV续航突破1730km

微新创想：2026年2月10日，吉利银河全新插混SUV M7在意大利米兰正式亮相。该车为银河L7中期改款车型，车身加长60mm，风阻系数优化至0.27cd。采用“飞檐虎视”前脸、“旭日东升”尾灯等东方美学设计，彰显出中国智造的独特魅力。搭载EM-i插混系统，该车型提供两种电池版本，纯电续航最高可达225km。满油满电综合续航达到1730km，大幅提升了用户...

00:13

奥迪2026年在华推出8款新车油电双线加速转型

微新创想：2026年2月，奥迪在中国市场启动入华以来规模最大的产品攻势，全年将推出8款全新及改款车型。此次布局覆盖燃油、插混、纯电三大动力形式，涵盖Q5L、A6L、A6L e-tron及纯电车型E7X等重点车型。微新创想：行动旨在应对豪华车市场电动化转型趋势，延续油电并进策略，依托PPC燃油平台与PPE纯电平台，强化本土化智能座舱与驾驶辅助系统适配。微新...

00:13

《GTA6》第三支预告片或于8月初突袭发布强化财报预期

微新创想：据Insider Gaming编辑Tom Henderson在2月7日的播客中透露，R星可能在2026年8月初以“无预告突袭”的方式发布《GTA6》第三支预告片。这一举动不仅是为了吸引玩家关注，更旨在配合Take-Two当季的财报电话会议，通过预告片强化投资者对游戏未来的期待。 R星一直以来都以高调且富有创意的营销策略著称。此次选择在财报会议上发布...

00:13

《生化危机5》重制版或2月13日State of Play公布引猜测

微新创想：2026年2月10日卡普空《生化危机5》Xbox Series版现身ESRB官网标注含“内购”内容暗示为完整重制版 2026年2月10日卡普空宣布《生化危机5》Xbox Series版已出现在ESRB官网并标注了“内购”内容这一举动引发了玩家对游戏版本的猜测认为可能是完整重制版虽未列PS5版但索尼定于2月13日举行State of...

2026年02月10日

23:12

深圳第零智能港股IPO申请提交拓展融资渠道助力智能硬件与AI终端发展

微新创想：2026年2月10日，深圳第零智能科技股份有限公司正式向香港交易所递交上市申请。公司注册地及运营主体位于广东深圳，拟通过首次公开发行股票募集发展资金。本次IPO由民银资本独家保荐。递表标志着该公司迈出港股上市关键一步，旨在拓展资本市场融资渠道，支持其在智能硬件与AI终端领域的研发及商业化进程。作为一家专注于智能硬件与AI终端技术的企业，第零智能近...

23:12

摩根大通：AI冲击被高估软件股估值低位迎反弹机遇

微新创想：2026年2月10日，摩根大通策略师Dubravko Lakos-Bujas团队指出，市场对AI短期颠覆软件行业的担忧不切实际，软件股正迎来反弹契机该行认为，近期无差别抛售已导致板块估值处于历史低位，叠加持仓出清、悲观情绪过度及基本面稳健，风险平衡转向上行建议投资者增配高质量、抗AI颠覆能力强的软件股此次调整源于市场担忧AI工具冲击传统Saa...

23:12

谷歌推出隐私搜索结果删除工具可清除证件号及露骨图像

微新创想：2026年2月10日，谷歌在美国正式推出升级版隐私搜索结果管理功能。这一更新旨在进一步增强用户对个人隐私的控制能力，让用户能够更方便地管理网络上的个人信息。用户可以通过“关于你的搜索结果”页面，提交驾照、护照号、社安号（SSN）等敏感信息。系统会自动扫描互联网，查找包含这些信息的网页链接，并通知用户。用户可以申请移除对应的搜索结果，从而减少个人信...