GPT-5需5万张H100 GPU短缺风暴来袭全球需求达43万张

2023-08-07 08:16:06 互联网 46 次阅读

OpenAI联合创始人兼兼职科学家Andrej Karpathy近日在公开文章中深入剖析了英伟达GPU短缺问题，引发科技界广泛关注。一张广为流传的图表揭示了各科技巨头在GPU配置上的惊人规模：GPT-4训练可能动用了10000至25000张A100 GPU，Meta拥有约21000张A100，Tesla部署了约7000张，Stability AI则使用了5000张。此外，Falcon-40B模型在384张A100上完成训练，Inflection AI则采用3500张H100和H100混合配置来打造与GPT-3.5同等性能的模型。

根据马斯克最新表态，GPT-5研发可能需要30000至50000张H100 GPU。尽管摩根士丹利曾预测GPT-5将使用25000张GPU并已开始训练，但Sam Altman随后澄清称GPT-5尚未启动训练。然而Altman此前曾直言GPU资源极度紧缺，表示”用户用得越少越好”，因为OpenAI根本没有足够的GPU可用。

在《Nvidia H100 GPU：供需》深度分析文章中，Karpathy揭示了科技公司GPU使用现状：目前全球AI领域对H100的需求已累计约43万张。生成式AI浪潮持续高涨，对算力提出更高要求，众多初创企业纷纷采用英伟达最新推出的H100 GPU进行模型训练。马斯克甚至将GPU比作”比药物更难获得的资源”，而Altman也透露OpenAI因GPU限制推迟了多项短期计划。

大型科技公司年度报告中频繁出现GPU相关议题。微软在最新财报中强调GPU是其云业务增长的”关键原材料”，并警告称基础设施短缺可能导致数据中心运营中断。据行业估算，全球企业对H100的需求总量约432000张，按每张35k美元计算，总需求规模高达150亿美元。此外，国内互联网公司对H800等高端GPU需求旺盛，而Jane Street、JP Morgan等金融巨头也纷纷部署数百至数千张A/H100 GPU。

H100之所以成为首选，主要得益于其更优的技术性能：相比A100，H100在16位推理速度提升3.5倍，16位训练速度提升2.3倍，同时缓存延迟更低并支持FP8计算。尽管H100成本仅是A100的1.5-2倍，但综合系统成本优势显著。不过部分企业因成本、容量限制及现有软件兼容性等因素，仍在权衡是否升级至H100。

供应链问题而非产能不足才是GPU短缺主因。英伟达高管明确指出，GPU产能主要受限于供应链，尽管英伟达全力生产，但芯片制造所需其他组件产能不足。台积电作为H100独家代工厂，其5nm产能主要分配给苹果、高通、AMD等客户，导致H100生产受限。爆料称台积电4个5nm生产节点中，H100仅使用N5或N5P的4N节点，且需与英伟达、苹果等共享产能。此外，CoWoS 3D堆叠封装技术瓶颈，以及SK Hynix等HBM内存供应商产能不足，进一步加剧了H100短缺。

英伟达首席财务官Colette Kress在财报电话会议中透露，下半年GPU供应将大幅提升，但未提供具体数据。一位私有云负责人指出，GPU短缺已形成恶性循环：稀缺性导致企业囤积GPU，反而加剧了市场供需矛盾。根据英伟达路线图，H100下一代产品预计2024年末至2025年初发布，期间将推出120GB水冷版H100，但据爆料到2023年底所有H100已售罄。

获取H100算力主要通过云计算平台。算力云服务商如CoreWeave、Lambda从OEM采购H100后提供租赁服务，而Azure、GCP等大型云平台则直接与英伟达合作或向OEM采购。戴尔、联想等OEM厂商销售H100/HGX服务器，初创企业通常选择租赁而非自建数据中心，因为自建需考虑高昂的暗光纤线路铺设成本。

云平台比较显示，Oracle云服务可靠度不及AWS、GCP、Azure三大平台，但提供更全面技术支持。AWS和GCP在InfiniBand网络建设上落后于Azure，而英伟达似乎更倾向于向非竞争性云平台分配GPU资源。私有云负责人建议初创企业优先选择预定云服务或托管云服务，并指出Oracle、Azure云服务优于GCP和AWS，但具体分配策略仍存在不确定性。

英伟达通过配额制度分配H100，优先保障与自身有合作关系的AI公司。Inflection AI作为被英伟达投资的人工智能企业，通过测试CoreWeave提供的H100集群获得优先资源。当前GPU需求既包含真实需求，也存在市场炒作成分：一方面是ChatGPT等产品引发的市场追捧，另一方面是企业囤积GPU以备不时之需。无论如何，英伟达在GPU领域仍占据绝对主导地位。