Zoom创新联邦AI刷新全球最难AI考试纪录

在人工智能领域,长期以来一直由谷歌、OpenAI 和 Anthropic 等顶尖实验室主导着大模型的竞争格局。然而,上周 Zoom 公司通过一场视频会议中的震撼表现,打破了这一局面。其人工智能系统在被誉为“人类最后的考试”(Humanity’s Last Exam,HLE)这一顶级基准测试中,以48.1%的成绩刷新了世界纪录,超越了此前由谷歌Gemini3Pro保持的45.8%。这一突破引发了业界广泛关注,也让人们开始思考:一家非底层模型厂商如何能够反超模型巨头?

面对这一质疑,Zoom首席技术官、前微软AI大将黄学东给出了令人耳目一新的答案。他透露,Zoom并没有选择通过烧钱训练自己的万亿参数大模型,而是开发了一套精密的“联邦式人工智能方法”。这套方法的核心在于三个关键组件:Z评分器(Z-Scorer)、探索-验证-联合策略以及流量控制器。

Z评分器作为系统的核心大脑,负责实时评估来自OpenAI、Google和Anthropic等多个模型的响应,并挑选出针对特定任务的最优解。探索-验证-联合策略则是一套智能体(Agent)工作流,通过让多个人工智能系统进行“辩证协作”,互相挑战并完善推理结果。而流量控制器则是Zoom构建的一个极其聪明的人工智能“调度中心”,通过集成而非自研,实现了“超越任何单一模型极限”的性能表现。

Zoom创新联邦AI刷新全球最难AI考试纪录插图1

这一创新成果在开发者社区引发了巨大争议。以工程师Max Rumpf为代表的批评者认为,Zoom只是通过API“套壳”了别人的成果,在对实际用户意义有限的基准测试中刷分,这种“剽窃他人劳动果实”的行为并无实质技术贡献。然而,另一派观察家如开发者朱宏成则认为,在AI评估中胜出必然需要“模型联邦”。这好比数据竞赛平台Kaggle的获胜者总是依赖模型集成,而非单打独斗。这种策略在商业上极其聪明:它避免了昂贵的算力投入,同时让Zoom能在不同供应商之间灵活切换,彻底摆脱了供应商锁定。

黄学东将这一成就视为对Zoom战略的验证。对于Zoom的3亿用户而言,更有意义的较量将在即将上线的AI Companion3.0中展开。虽然48.1%在HLE这种涉及高等数学与哲学的考试中代表了机器智能的前沿,但用户更在乎的是:当数亿人开始使用它总结会议、提取行动项时,这套“联邦大脑”能否真的比单一模型更省时、更准确。

最新快讯

2026年01月16日

13:20
2026年1月16日,深圳。在“星耀出海·聚力同行——2025 Lazada & Daraz Seller Awards”盛典上,店小秘ERP荣获Lazada颁发的“优秀服务商奖”。该奖项旨在表彰在跨境电子商务领域为卖家提供高效、创新服务的技术支持方。店小秘ERP凭借其在订单管理、多平台协同及物流集成等方面的卓越表现脱颖而出。此次获奖体现了其在助力中国商家...
12:47
腾讯官方近日正式宣布,旗下领先的3D生成平台混元3D Studio迎来重大升级,正式推出1.2版本并面向全体用户开启公测。此次更新以突破性的技术革新,显著提升了3D资产生成的专业水准与精细化控制能力,用户无需任何申请即可直接体验最新功能。 在核心组件生成技术方面,混元3D Studio集成的PartGen模块已升级至1.5版本。其核心拆分精度实现了从$102...
12:19
1月13日,现代汽车CEO何塞·穆诺兹访问北汽集团,强调中国市场为其全球战略核心。双方将深化合作,强化技术与人员支持,开放电动化、智能化核心技术,并推动现代高端品牌进入中国。北京现代2025年销量达21万辆,连续6个月同比增长。根据“智启2030”计划,未来4-5年将推出20款新车,目标年销50万辆。
12:19
2026年1月16日,Etsy宣布与谷歌合作,上线代理式AI购物功能。美国用户可通过Google搜索的AI Mode及Gemini应用,直接购买Etsy平台精选商品。该功能允许已登录用户在不跳转至Etsy官网的情况下,在谷歌的AI对话界面中完成浏览、选择与下单全流程。此举旨在提升购物便捷性,借助谷歌的生成式AI技术优化消费者体验,标志着电商平台进一步融入A...
12:19
2026年1月9日,NASA宣布StarBurst卫星已通过极端温度与振动测试,并完成与卫星平台的集成。该卫星旨在探测短伽马射线暴,追溯金、银等重元素起源。测试在马歇尔太空飞行中心进行,包括18天热平衡试验和真空“烘烤”除气,确保其在轨稳定性。2025年8月运抵多伦多大学后,完成最终集成。项目计划于2026年6月前达成发射就绪状态,预计最早2027年发射,...
12:19
2026年1月16日,广州文化集团在微信公开课PRO上宣布,旗下“广州礼物·山海鳌宝”系列盲盒正式入驻微信小店并开启预售。用户可通过微信搜索“广州礼物”进入小店预购,也可通过微信蓝包赠友。该系列盲盒计划于2月中旬正式面世,发货时将向用户发送通知。此举标志着广州文创产品在社交电商领域的新布局。
12:19
2026年1月16日,日本知名企业三菱正式宣布达成一项重大战略投资,将以52亿美元的价格全面收购全球领先的能源技术公司AETHON。这场备受瞩目的商业交易在日本东京正式敲定,标志着三菱在新能源领域迈出了关键性的一步,为其未来的可持续发展战略奠定了坚实基础。 此次收购不仅体现了三菱对清洁能源产业的高度重视,更彰显了其在全球能源转型浪潮中的前瞻性布局。通过这次战...
12:19
2026年1月22日,《最终幻想7:重制版 Intergrade》将在Switch 2和Xbox Series X/S平台发售,并首发搭载“精简流程”辅助功能。该功能可将角色生命值、魔法值设为满值,敌方伤害固定为9999,并提供最大数量道具,降低战斗难度,便于专注剧情体验。PS5与PC版将于同日获免费更新支持。试玩版已开放一月,存档可继承并赠限定奖励。1月...
12:19
2026年,全球半导体行业将迎来历史性突破,总收入预计首次跨越1万亿美元的里程碑,同比增长率高达30.7%。这一增长主要得益于人工智能技术的迅猛发展,其中存储IC市场规模预计将实现约90%的惊人增幅。在计算与数据存储领域,收入规模将突破5000亿美元大关,年增速达到41.4%,展现出强大的市场活力。与此同时,消费电子和无线应用领域也将成为重要的增长引擎,共同...
12:19
2026年1月16日,罗马仕正通过渠道商低价清理充电宝库存。27000毫安款售价45元,33瓦快充款70元,量大可议价,产品均具3C认证并可登机。据悉,这批产品为3C认证被取消前生产,售价低于成本,属小幅亏损清仓。此举旨在快速去库存,减轻供应链压力。
12:19
2026年1月16日,英伟达已修正其技术论文中关于数据中心铜使用量的错误表述,将每吉瓦机架铜母线用量从“50万吨”更正为200吨,仅为原数值的0.04%。此次修改回应了外界对其数据单位误用的质疑,此前有报道指出该错误可能导致数据中心铜需求被严重高估。调整后,市场对铜资源的需求预期或将显著下调。
12:19
2026年1月16日,拓斯达重磅发布旗下四足机器人新品——"星仔",正式进军具身智能产品领域。作为拓星纪系列的核心成员,这款智能机器狗不仅拥有专业级夜视系统与双光云台配置,更具备出色的环境适应能力。其最大负载能力高达80kg,能够轻松跨越20cm以上的障碍物及楼梯,在复杂地形中展现出卓越的机动性能。特别值得一提的是,星仔能够在浓烟、有毒气体等极端恶劣环境下稳...