A16Z深度解析AI算力成本：初创公司80%资金投入的可持续性分析

2023-10-13 10:03:24 互联网 42 次阅读

编者按：本文精选自微信公众号《有新Newin》（ID：NewinData），经微新创想授权转载。近期，知名投资人Stephanie Smith与资深科技记者Guido Appenzeller就当前人工智能创投生态展开深度对话，聚焦AI算力成本与市场可持续性等核心议题。本次对谈内容涵盖LLM训练成本、数据瓶颈、模型规模、训练数据量及硬件演进等多个维度，完整对话实录如下：

Stephanie Smith指出，Guido在最新文章中强调AI计算成本居高不下，并指出计算资源获取已成为AI企业成功的决定性因素。这一趋势不仅适用于构建超大规模模型的头部企业，更普遍的是，许多公司将其80%以上的融资资本投入计算资源。这一现象自然引发了一个关键问题：AI算力投入的可持续性究竟如何？

Guido Appenzeller回应道，早期阶段构建的核心技术需向完整产品形态演进，涉及更多功能验证与实施细节。若面向企业客户，还需处理复杂的行政管理事务，这意味着非AI传统软件开发工作量将显著增加，相应的人力成本也随之提升。他预测，虽然计算成本占比会随时间推移逐渐下降，但绝对金额在短期内仍将持续增长——毕竟当前AI繁荣期尚处于早期阶段。

Stephanie Smith强调，AI发展才刚刚起步。在第二部分讨论中，她指出计算需求短期内难以缩减，而基础设施的自主投资或租赁决策对企业的盈利能力具有决定性影响。此外，批处理规模、学习率及训练周期等参数也会显著影响最终成本构成。

Guido Appenzeller进一步解析，模型训练成本受多重因素影响。好消息是，当前主流模型多采用Transformer架构——这一AI领域的重大突破。相较于传统模型，Transformer架构具有更高的灵活性和并行处理能力，训练效率显著提升。具体而言，Transformer模型的推理时间约等于参数数量的两倍浮点运算，而训练时间则约为参数数量的六倍。以GPT-3为例，该模型拥有1750亿个参数，进行一次推理需约3500亿次浮点运算。这一计算方法可帮助企业评估所需计算能力、成本预测及定价策略，同时也能估算模型训练所需时长及AI加速器的浮点运算能力。

Stephanie Smith以GPT-3为例，直观展示模型训练与推理所需的计算资源。Guido Appenzeller指出，若采用理想化计算方式，基于GPT-3的参数数量与训练数据规模，可得出约3×10^23次浮点运算的需求——这一数字包含23个零，难以直观理解。以A100显卡为例（当前主流计算设备之一），其单秒可执行浮点运算次数已知。通过数据对比，可得出粗略的训练时长估算。考虑到A100租赁成本约1-4美元/小时，初步计算显示训练成本约50万美元。但需注意，该分析未考虑优化措施、内存带宽限制、网络瓶颈及多次测试运行等因素。实际观察显示，当前行业内的LLM训练成本已远超预期，可能达到数百万美元级别。主要原因是计算资源预约周期长，若需在2个月内使用全部显卡，实际成本可能增加12倍，相当于在基础成本上增加一个数量级。

Stephanie Smith补充道，与训练成本相比，推理成本要低得多。对于现代文本模型，训练数据规模约1万亿个token，而推理过程每个单词作为一个token输出，速度约是训练的1万亿倍。这意味着计算一个LLM的推理成本仅增加几分钱到几分之一钱。但需特别指出，推理成本受峰值容量约束影响显著——例如，若模型在周一上午9点达到使用峰值，企业仍需承担周六午夜时的全部费用，这会大幅推高成本。对于特定图像模型，可采用成本更低的显卡进行推理，因为模型规模较小，可在消费级显卡的服务器版本上运行，从而节省大量开支。

Stephanie Smith提出，正如前文所述，单纯堆砌低性能芯片无法弥补训练过程中的低效率。Guido Appenzeller强调，训练过程需要高度复杂的软件支持，因为跨卡数据分配的损耗可能超过硬件性能提升带来的收益。但对于推理而言，情况则截然不同。

Guido Appenzeller解释道，推理过程通常可在单张显卡上完成。以Stable Diffusion这类热门图像生成模型为例，其可在MacBook等消费级设备上运行，前提是设备具备足够的内存和计算能力。这意味着无需使用A100等高端显卡，即可实现成本可控的推理部署。

Stephanie Smith进一步提出，既然模型训练的计算量远超推理，且计算投入通常与模型质量正相关，那么是否意味着资本雄厚的传统企业将主导这场竞赛？Guido Appenzeller坦言，这是一个价值万亿美元级别的问题。他首先指出，训练LLM的高昂成本是阻碍开源LLM发展的重要原因——尽管许多开发者有意愿参与，但获取数百万美元级别的计算资源仍是巨大障碍。不过，他同时认为，随着技术进步，训练成本有望下降。一方面，数据获取可能成为新的瓶颈；另一方面，模型规模与最佳训练数据量存在对应关系。一个LLM若缺乏足够的数据支撑，其价值将大打折扣；反之，若数据量充足但模型规模过小，同样无法发挥应有效能。他比喻道，模型规模与人类知识积累存在某种平衡关系，就像大脑容量与教育年限的对应。当前大型模型已涵盖互联网约10%的内容（包括维基百科、海量书籍等），未来可能存在10倍级增长空间，但100倍级增长则难以实现——毕竟人类知识创造速度有限。因此，他预测训练成本可能达到峰值后趋于平稳，主要得益于硬件性能提升，但数据获取增长将放缓，除非出现新的数据生成方法。基于这一判断，他相信由资本驱动的巨头企业构建的模型，更像是一个加速器而非壁垒，因为资金充足的初创公司完全有能力训练LLM，未来该领域仍将涌现大量创新突破。