
在人工智能领域,长期以来一直由谷歌、OpenAI 和 Anthropic 等顶尖实验室主导着大模型的竞争格局。然而,上周 Zoom 公司通过一场视频会议中的震撼表现,打破了这一局面。其人工智能系统在被誉为“人类最后的考试”(Humanity’s Last Exam,HLE)这一顶级基准测试中,以48.1%的成绩刷新了世界纪录,超越了此前由谷歌Gemini3Pro保持的45.8%。这一突破引发了业界广泛关注,也让人们开始思考:一家非底层模型厂商如何能够反超模型巨头?
面对这一质疑,Zoom首席技术官、前微软AI大将黄学东给出了令人耳目一新的答案。他透露,Zoom并没有选择通过烧钱训练自己的万亿参数大模型,而是开发了一套精密的“联邦式人工智能方法”。这套方法的核心在于三个关键组件:Z评分器(Z-Scorer)、探索-验证-联合策略以及流量控制器。
Z评分器作为系统的核心大脑,负责实时评估来自OpenAI、Google和Anthropic等多个模型的响应,并挑选出针对特定任务的最优解。探索-验证-联合策略则是一套智能体(Agent)工作流,通过让多个人工智能系统进行“辩证协作”,互相挑战并完善推理结果。而流量控制器则是Zoom构建的一个极其聪明的人工智能“调度中心”,通过集成而非自研,实现了“超越任何单一模型极限”的性能表现。

这一创新成果在开发者社区引发了巨大争议。以工程师Max Rumpf为代表的批评者认为,Zoom只是通过API“套壳”了别人的成果,在对实际用户意义有限的基准测试中刷分,这种“剽窃他人劳动果实”的行为并无实质技术贡献。然而,另一派观察家如开发者朱宏成则认为,在AI评估中胜出必然需要“模型联邦”。这好比数据竞赛平台Kaggle的获胜者总是依赖模型集成,而非单打独斗。这种策略在商业上极其聪明:它避免了昂贵的算力投入,同时让Zoom能在不同供应商之间灵活切换,彻底摆脱了供应商锁定。
黄学东将这一成就视为对Zoom战略的验证。对于Zoom的3亿用户而言,更有意义的较量将在即将上线的AI Companion3.0中展开。虽然48.1%在HLE这种涉及高等数学与哲学的考试中代表了机器智能的前沿,但用户更在乎的是:当数亿人开始使用它总结会议、提取行动项时,这套“联邦大脑”能否真的比单一模型更省时、更准确。
