Zoom创新联邦AI刷新全球最难AI考试纪录

2026-01-16 11:47:01 AI动态 3 次阅读

在人工智能领域，长期以来一直由谷歌、OpenAI 和 Anthropic 等顶尖实验室主导着大模型的竞争格局。然而，上周 Zoom 公司通过一场视频会议中的震撼表现，打破了这一局面。其人工智能系统在被誉为“人类最后的考试”（Humanity’s Last Exam，HLE）这一顶级基准测试中，以48.1%的成绩刷新了世界纪录，超越了此前由谷歌Gemini3Pro保持的45.8%。这一突破引发了业界广泛关注，也让人们开始思考：一家非底层模型厂商如何能够反超模型巨头？

面对这一质疑，Zoom首席技术官、前微软AI大将黄学东给出了令人耳目一新的答案。他透露，Zoom并没有选择通过烧钱训练自己的万亿参数大模型，而是开发了一套精密的“联邦式人工智能方法”。这套方法的核心在于三个关键组件：Z评分器（Z-Scorer）、探索-验证-联合策略以及流量控制器。

Z评分器作为系统的核心大脑，负责实时评估来自OpenAI、Google和Anthropic等多个模型的响应，并挑选出针对特定任务的最优解。探索-验证-联合策略则是一套智能体（Agent）工作流，通过让多个人工智能系统进行“辩证协作”，互相挑战并完善推理结果。而流量控制器则是Zoom构建的一个极其聪明的人工智能“调度中心”，通过集成而非自研，实现了“超越任何单一模型极限”的性能表现。

这一创新成果在开发者社区引发了巨大争议。以工程师Max Rumpf为代表的批评者认为，Zoom只是通过API“套壳”了别人的成果，在对实际用户意义有限的基准测试中刷分，这种“剽窃他人劳动果实”的行为并无实质技术贡献。然而，另一派观察家如开发者朱宏成则认为，在AI评估中胜出必然需要“模型联邦”。这好比数据竞赛平台Kaggle的获胜者总是依赖模型集成，而非单打独斗。这种策略在商业上极其聪明：它避免了昂贵的算力投入，同时让Zoom能在不同供应商之间灵活切换，彻底摆脱了供应商锁定。

黄学东将这一成就视为对Zoom战略的验证。对于Zoom的3亿用户而言，更有意义的较量将在即将上线的AI Companion3.0中展开。虽然48.1%在HLE这种涉及高等数学与哲学的考试中代表了机器智能的前沿，但用户更在乎的是：当数亿人开始使用它总结会议、提取行动项时，这套“联邦大脑”能否真的比单一模型更省时、更准确。

2026年01月16日

13:20

Zoom创新联邦AI刷新全球最难AI考试纪录

最新快讯

2026年01月16日

店小秘ERP获Lazada优秀服务商奖

腾讯混元3D Studio1.2公测：笔刷交互八视图生成，3D建模更精准高效

现代CEO访北汽：加码中国战略

Etsy接入谷歌AI购物功能

NASA StarBurst卫星完成关键测试

广州礼物“鳌宝”盲盒微信首发预售

三菱52亿美元收购AETHON强化新能源布局

《最终幻想7：重制版》将推跨平台新功能

2026年全球半导体收入首破万亿人工智能驱动行业高速增长

罗马仕亏本清理充电宝库存

英伟达修改论文数据下调铜用量

拓斯达星仔四足机器狗发布最大负载80kg可越障上楼