H100显卡融资23亿背后：英伟达铁杆关系揭秘

2023-09-05 08:26:21 互联网 36 次阅读

2023年8月3日，华尔街与硅谷联手创造了一项震撼业界的壮举：一家创业公司成功获得了23亿美元的债务融资，其抵押物是全球最硬的通货——英伟达H100显卡。这家备受瞩目的公司名为CoreWeave，主营业务是AI私有云服务，通过构建拥有海量GPU算力的数据中心，为AI创业公司和大型商业客户提供算力基础设施。截至目前，CoreWeave累计融资5.8亿美元，目前处于B轮融资阶段，估值高达20亿美元。

CoreWeave成立于2016年，由三位华尔街大宗商品交易员共同创立。公司最初的主营业务是挖矿，通过采购大量GPU组建矿机中心，尤其在币圈低潮时，会逆周期囤积大量显卡，也因此与英伟达建立了深厚的合作关系。2019年，CoreWeave开始将这些矿机改造为企业级数据中心，向客户提供AI云服务。尽管初期业务发展并不温不火，但ChatGPT的诞生后，大模型的训练和推理对算力的巨大需求，让拥有数万张显卡的CoreWeave迅速崛起，客户和风投纷至沓来。

然而，令人费解的是，CoreWeave累计融资仅5.8亿美元，账面GPU净值不超过10亿美元，公司整体估值也只有20亿美元，却仍能通过抵押获得23亿美元的贷款。华尔街一向精于算计，为何如此慷慨？原因很可能在于CoreWeave虽然账面尚未拥有这么多显卡，但已获得英伟达的供货承诺，尤其是H100。CoreWeave与英伟达的紧密关系在硅谷已是公开的秘密。这种关系的根基源于CoreWeave对英伟达的绝对忠诚和支持——坚持使用英伟达的显卡，坚决不自主研发芯片，在显卡市场低迷时帮助英伟达囤积库存。对黄仁勋而言，这种关系的价值远超与微软、谷歌和特斯拉的普通合作关系。因此，尽管H100显卡供应紧张，英伟达仍将大量新卡分配给CoreWeave，甚至不惜限制对亚马逊和谷歌等大厂的供应。黄仁勋在电话会议中高度评价：“一批新的GPU云服务提供商会崛起，其中最著名的是CoreWeave，他们做得非常好。”

在获得23亿美元融资的前一周，CoreWeave对外宣布，将耗资16亿美元在德州建设一个占地42,000平方米的数据中心。凭借与英伟达的关系和优先配货权，CoreWeave成功从银行获得建设资金——这种模式让人联想到房地产开发商拿地后立即贷款的模式。因此，可以说，一份H100的供货承诺，堪比房地产黄金时代的土地批文。

H100显卡的稀缺性在今年4月接受采访时得到马斯克的抱怨：“现在似乎连狗都在买GPU。”讽刺的是，特斯拉早在2021年就发布了自研的D1芯片，由台积电代工，采用7nm工艺，号称能替代当时英伟达主流的A100。然而两年过去，英伟达推出了更强大的H100，而特斯拉的D1没有后续迭代，因此当马斯克试图组建自家人工智能公司时，仍不得不向黄仁勋低头求购显卡。

H100显卡于去年9月20日正式推出，由台积电4N工艺代工。相较于前代A100，H100单卡在推理速度上提升3.5倍，训练速度提升2.3倍；若采用服务器集群运算，训练速度更是能提高9倍，原本一周的工作量现在只需20小时。相比A100，H100单卡价格更高，约是A100的1.5至2倍，但训练大模型的效率提升了200%，因此“单美元性能”更高。若搭配英伟达最新的高速连接系统方案，每美元的GPU性能可能提升4至5倍，因而备受客户追捧。

抢购H100显卡的客户主要分为三类：第一类是综合型云计算巨头，如微软Azure、谷歌GCP和亚马逊AWS等。这些公司财力雄厚，常试图“包圆”英伟达的产能，但同时也对英伟达的垄断地位不满，暗中研发芯片以降低成本。第二类是独立的云GPU服务商，如CoreWeave、Lambda和RunPod等。这类公司算力规模相对较小，但能提供差异化服务，英伟达也大力扶持他们，甚至直接投资了CoreWeave和Lambda，目的明确：给那些私自造芯的巨头们上眼药。第三类是自建LLM（大语言模型）的大小公司，既有Anthropic、Inflection、Midjourney等初创企业，也有苹果、特斯拉、Meta等科技巨头。它们通常一边使用外部云服务商的算力，一边采购GPU自建数据中心——有钱的多买，没钱的少买，各取所需。

在这三类客户中，微软Azure至少拥有5万张H100，谷歌云手上有约3万张，Oracle大约有2万张，特斯拉和亚马逊也至少有1万张，CoreWeave据称有3.5万张的额度承诺（实际到货约1万张）。其他公司很少超过1万张。这三类客户总共需要多少张H100呢？根据海外机构GPU Utils的预测，当前H100需求约43.2万张。其中OpenAI需要5万张训练GPT-5，Inflection需要2.2万张，Meta需要2.5万张（也有说法是10万张），四大公有云厂商每家至少需要3万张，私有云行业需要10万张，其他小模型厂商也有10万张需求。

英伟达2023年的H100出货量约50万张，目前台积电的产能仍在爬坡，到年底H100显卡的供应紧张状况将得到缓解。但长期来看，随着AIGC应用的爆发，H100的供需缺口将持续扩大。根据金融时报的报道，2024年H100的出货量将高达150万至200万张，较今年的50万张提升3至4倍。而华尔街的预测更为激进：美国投行Piper Sandler认为，明年英伟达在数据中心上的营收将超过600亿美元（FY24Q2：103.2亿美元），按此数据推算，A+H卡的出货量接近300万张。还有更夸张的估计。某H100服务器最大代工厂（市占率70%-80%），从今年6月开始陆续出货H100服务器，7月份产能逐步提升。一份最新调研显示，该代工厂认为2024年A+H卡的出货量将在450万至500万张之间。这对英伟达而言意味着“泼天的富贵”，因为H100的暴利程度远超其他行业。

为了揭示H100的暴利程度，不妨将其物料成本（BOM）彻底拆解。如图所示，H100最通用的版本H100 SXM采用台积电CoWoS的7晶粒封装，6颗16G的HBM3芯片分列两排紧紧围绕着中间的逻辑芯片。这也构成了H100的三大核心部分：逻辑芯片、HBM存储芯片、CoWoS封装，除此之外，还有PCB板及其他辅助器件，但价值量不高。

H100拆机图显示，核心逻辑芯片尺寸为814mm²，产自台积电最先进的台南18号工厂，采用“4N”工艺，实际为5nm+。由于5nm下游手机等领域的景气度不佳，台积电在保供逻辑芯片上毫无压力。这块逻辑芯片由12寸（面积70,695mm²）的晶圆切割产生，理想状态下可切出86块，但考虑到“4N”工艺80%的良率及切割损耗，最终一张12寸晶圆只能切出65块核心逻辑芯片。这块核心逻辑芯片的成本是多少？台积电2023年一片12寸晶圆对外报价为13,400美元，折算下来单块约200美元。接下来是6颗HBM3芯片，目前由SK海力士独家供应，这家起源于现代电子的企业，2002年几乎要委身于美光，依靠政府输血及逆周期产能战略，如今在HBM量产技术上至少领先美光3年（美光卡在HBM2e，海力士2020年中期量产）。HBM的具体价格各家讳莫如深，但据韩媒说法，HBM目前是现有DRAM产品的5至6倍。而现有GDDR6 VRAM的价格约为每GB3美元，如此推算HBM的价格约为每GB15美元。因此，一张H100 SXM在HBM上的花费约为1500美元。尽管今年HBM价格不断上涨，英伟达、Meta高管也亲赴海力士“督工”，但下半年三星的HBM3将逐步量产出货，加上韩国双雄的扩张血脉，预计明年HBM将不再是瓶颈。而真正瓶颈的是台积电的CoWoS封装，这是一种2.5D封装工艺。相比直接在芯片上打孔（TSV）、布线（RDL）的3D封装，CoWoS在成本、散热及吞吐带宽上更具优势，对应HBM的成本和散热，以及GPU的关键吞吐带宽。因此，高存力、高算力的芯片离不开CoWoS封装。英伟达、AMD四款GPU均采用CoWoS，是最好的佐证。CoWoS的成本是多少？台积电22年财报显示，CoWoS工艺占总营收7%，海外分析师Robert Castellano根据产能及裸晶尺寸推算，封装一块AI芯片能给台积电带来723美元的营收。因此，上述三大核心成本项合计约2500美元，其中台积电占1000美元（逻辑芯片+CoWoS），SK海力士占1500美元（未来三星可能加入），再算上PCB等材料，整体物料成本不超过3000美元。而H100的售价为35,000美元，毛利率超过90%。过去十年英伟达毛利率约60%上下，今年Q2受高毛利A100/A800/H100拉动，毛利率已站上70%。这反常识：英伟达严重依赖台积电代工，后者地位无人撼动，甚至能卡英伟达脖子。但3.5万美元的卡，制造它的台积电仅拿1000美元（收入而非利润）。不过，用毛利率定义暴利对芯片公司意义不大，从沙子算起，毛利率更高。一张4N工艺的12寸晶圆，台积电对外报价约1.5万美元，英伟达能加个零卖给客户，自然有其诀窍。这个诀窍的秘密在于：英伟达本质上是一个伪装成硬件厂商的软件公司。软硬一体的护城河英伟达最强大的武器，就藏在毛利率减去净利率的部分。在本轮AI热潮前，英伟达毛利率常年65%上下，净利率通常30%。今年Q2受高毛利A100/A800/H100拉动，毛利率站上70%，净利率更是高达45.81%。近3财年英伟达单季度毛利率与净利率英伟达目前全球有超过2万名员工，多为高薪软硬件工程师，根据美国猎聘Glassdoor数据，平均年薪超20万美元。近十年英伟达研发费用率绝对值高速增长，稳态下维持在20%以上。当然，若终端需求爆发，如2017年深度学习、21年挖矿、今年大语言模型，营收分母骤升，研发费用率会短暂跌至20%，利润相应非线性暴增。而在英伟达众多研发项目中，CUDA最为关键。03年Ian Buck团队为解决DirectX编程门槛问题，推出Brook编程模型，即CUDA雏形。06年Buck加入英伟达，说服黄仁勋研发CUDA。因支持C语言并行计算，CUDA迅速成为工程师首选，让GPU走上通用处理器（GPGPU）道路。CUDA成熟后，Buck再次劝说黄仁勋，要求所有GPU必须支持CUDA。06年CUDA立项，07年推出产品，当时英伟达年营收仅30亿美元，却投入5亿美元。到17年，CUDA研发支出已超百亿。曾有私有云公司CEO表示，他们也曾考虑转用AMD显卡，但调试至少需两个月。为缩短时间，英伟达投入百亿走了20年。芯片行业半个世纪，从未有企业像英伟达一样，既卖硬件也卖生态，或如黄仁勋所说：“卖的是准系统”。因此，英伟达对标的是苹果——另一家卖系统的公司。从07年推出CUDA到成为全球印钞厂，英伟达并非没有对手。08年英特尔中断与英伟达合作，推出GPCPU，欲在PC领域“划江而治”。但英伟达通过产品迭代，将处理器推广至太空、金融、生物医疗等领域，10年后英特尔被迫取消独立显卡计划。09年苹果开发团队推出OpenCL，试图在CUDA上分一杯羹。但OpenCL在深度学习生态上远不如CUDA，许多框架要么在CUDA后支持OpenCL，要么根本不支持。深度学习掉队使OpenCL始终无法触及高附加值业务。15年AlphaGo初露锋芒，宣告AI时代来临。此时英特尔为赶上末班车，将AMDGPU装入系统芯片内，这是两家公司自80年代以来的首次合作。如今CPU老大、老二+GPU老二的市值之和仅是GPU老大英伟达的1/4。目前看来，英伟达的护城河几乎牢不可摧。尽管不少大客户暗中研发GPU，但庞大生态和快速迭代让他们无法撼动帝国根基，特斯拉就是明证。英伟达的印钞机生意，在可见未来将持续。唯一让黄仁勋烦恼的，是那个客户众多、需求旺盛却卖不进H100、却咬牙攻坚的地方——全世界只有一个。