未来与现在,老黄 30 年的信念
编者按:本文来自微信公众号有新Newin(ID:NewinData),微新创想经授权发布。英伟达在上周结束了发布会,上月更早的时候,硅谷的两位知名投资人Sarah Guo和Elad Gil就与Jensen Huang(黄仁勋)在英伟达圣克拉拉的总部办公室展开了一次对话。在对话中,Jensen Huang讨论了更广泛的平台转变对开发者的意义,谈到了NVIDIA对气候和生物制药等领域的长期投资,这些领域将受益于人工智能的创新应用,上周发布的下一代芯片Hopper,以及英伟达为何以及如何选择解决当前无法解决的问题,并在对话末尾留了一个有趣的彩蛋~这次对话分为 9 个话题,如下:
01 Nvidia 的起源
Sarah Guo:我们从一开始说起,你在创办公司之前曾在 LSI(Large Scale Integration)和 AMD(Advanced Micro Devices)工作过,是什么样的经历呢?
Jensen Huang:他们给了我一份工作。我当时在俄勒冈州立大学,参加了学校组织的公司招聘日,面试了很多公司。有两家公司让我印象深刻,我喜欢设计芯片和计算机,当时我们计算机科学实验室贴着一张 AMD 的 32 位 CPU 29000的海报,我一直觉得能够设计那样的芯片很酷,还有一家由硅谷的初创公司,他们使用软件设计芯片,而不是手工设计,采用可编程逻辑,通过描述语言合成芯片。我选择去了 AMD,在那里设计微处理器,而我的办公室同事去了 LSI,她之后, LSI 团队告诉我他们也希望我来 LSI Logic 工作,在前同事的邀请下,我决定去 LSI,因为那是电子设计自动化行业的起步阶段,是用计算机设计芯片的开始,那可能是我经历过的最好的事情之一,也是每家公司都能够自研芯片的开始。那时候我有机会遇到一些优秀的计算机架构师,比如 Andy Bechtolsheim 是 Sun 的创始人,我也有幸与一些在 Silicon Graphics 工作的杰出架构师合作过,比如 John Rubenstein,他曾在 Dana Computer 工作,后来成为苹果的副总裁。所以在很小的时候,我就有机会与一些了不起的计算机架构师一起工作,从中学到了很多关于使用芯片构建计算机的知识,那是我早期的经历。
Sarah Guo:你们什么时候意识到必须创办一家公司呢?
Jensen Huang:那不是我的主意,是 Chris 和 Curtis 的想法,他们想离开 Sun,而我在 LSI Logic 工作得很好,我喜欢我的工作,我和 Lori 有两个孩子,就像你一样,他们不停地告诉我说他们想创办一家公司,真的需要我加入,我当时告诉他们我真的需要一份工作,无论如何,在创办之前他们需要想清楚怎么做。当时,计算机设计的价值在通用计算和使用加速器之间存在差异,大约 99% 的人相信通用计算,只有约 1% 的人相信加速器,在过去的 25 年里,99% 的人是正确的,所以我们决定创办一家加速计算的公司。当时,加速计算能做的事情主要是解决那些通用计算难以解决甚至无法解决的问题,我们的公司致力于解决那些普通计算机无法解决的问题。如果追溯这个使命的最终目标,我们走向了无人驾驶汽车、机器人、气候科学问题、数字生物学等领域。当然,最著名的领域之一就是 AI。
02 AI 优势与发展之道
Sarah Guo:所以在当前 AI 热潮之前,你们已经在广泛的应用领域工作了。Nvidia 在 AI 方面最初的技术优势是什么?你们是什么时候开始意识到这将成为重要的应用场景呢?
Jensen Huang:我们扩展了我们加速器的灵活性,使其更具通用性。我们发明了一种名为 CUDA 的新的计算模型。Elad Gil:这是非常令人兴奋的新技术。
Jensen Huang:我们需要一些加速计算,并希望我们的图形处理器变得越来越通用。一开始的原因是我们需要进行通用图像处理和后期效果相关的工作,例如你渲染图像然后进行后期效果处理,当然还有其他应用,我们希望给场景带来生机,所以我们必须进行物理处理,进行物理计算,有粒子物理、流体力学等等,因此我们扩大了加速计算平台的应用范围,使其变得越来越通用。通用性的问题在于,你越通用,你在特定领域的加速效果就越低,所以必须非常小心地找到那条线,这是我们公司的一个天赋,找到在一方面每一代产品都能给应用程序带来巨大的加速效果,远远超过 CPU 的能力,但是如果变得过于通用,就像 CPU 一样,如何用 CPU 来加速 CPU 呢?所以必须找到一种方法来平衡。另一方面,如果不扩大你所服务的应用领域,能够产生的研发资金就不足以赶上 CPU,因为 CPU 是全球研发预算最大的芯片,想一下这个问题,实际上几乎是不可能的,因为有一个规模较小的应用市场,在这个 10 亿美元市场中,你每年投资 1.5 亿美元,如何跟上几千亿美元规模的行业?这甚至是不合理的。所以必须非常小心地找到那个非常细小的市场,使得 1.5 亿美元能够异常地和疯狂地加速这个特定的应用,然后随着时间的推移,可以扩大应用范围,使市场规模从 10 亿美元增长到 50~100 亿美元,而不会掉进那个悬崖,这是我们努力寻找的平衡点,所以我们不断扩大通用性,这让我们进入了分子动力学模拟领域,就像这张图片看起来的样子,地震处理是另一个行业,通过这样一点一滴的努力,我们扩大了应用范围。我们做得不错的一点是确保无论使用我们的平台进行通用计算还是加速计算,始终保持架构的兼容性,原因是因为我们希望有一个能吸引开发者的平台;如果全球每一款 Nvidia 芯片都不兼容,开发者怎么能选择一款呢?即使他们了解到 CUDA 对他们来说很重要,他们该选择哪个芯片来开发应用呢?没有人能够弄清楚。所以,如果我们相信这个架构,如果我们希望它成为一个新的计算平台,那就让我们确保我们的每一款芯片的性能完全相同,就像 x86、ARM 或任何计算平台一样,所以在最开始的 5~10 年里,我们的 CUDA 客户很少,但我们使每一款芯片都兼容 CUDA,你可以回顾历史,看看我们的毛利率,开始时很低,然后变得更低,因为我们处在一个竞争激烈的行业中,我们仍在努力摸索如何做好我们的工作并建造成本效益高的产品,这本身就很具挑战性,然后我们又把它叠加在 CUDA 架构上,这个架构没有应用,就没有人为它买单。Elad Gil:这真是令人惊讶,因为现在当我与 AI 界的人交谈时,他们非常喜欢使用 Nvidia 的 GPU,原因之一是因为 CUDA 和可扩展互联的能力,所以你可以高度并行化这些处理,这是其他方法或现有市场上的架构无法做到的。
Jensen Huang:这个计算平台带来了一些奇迹般的效果。我们将它通过 Geforce 这张游戏卡带给全世界,这是 Geoffrey Hinton 实验室的第一款 GPU,想象一下,Jeff 走进来说:“这是几张 GPU,叫做 Geforce,你们应该试着用它来进行深度神经网络的训练”,但当时它仅仅是一张游戏卡。
03 从游戏跨界 Crypto 与 AIElad Gil:你当初有哪些应用想法?因为从你的观点来看,你从 90 年代开始创办公司时,从非常受欢迎但游戏领域开始,然后我开始越来越多地听到有关 Nvidia GPU 的消息,无论是在加密货币和挖矿的背景下,还是在 AI 的背景下,似乎这是两个市场,许多人都自然而然地选择了你们的产品,是因为你们针对这些群体进行市场营销吗?还是人们开始意识到他们需要的产品呢?
Jensen Huang:这就是计算平台的美妙之处,对吧?一开始你必须针对应用进行定位,我们做的第一个应用之一是地震处理,它们都是那种粒子物理学的应用;另一个是图像处理以及逆物理学,在一个特定的领域,我们只是去找人进行研究,我们去科学计算中心,问他们有哪些超出他们能力范围的问题?应用领域的清单包括量子化学、量子物理等等。
Elad Gil:那么你什么时候意识到,哇,这个 AI 的东西对我们来说真的很重要。
Jensen Huang:我想大约是在 2012 年吧。同时,Andrew Ang 联系了我们的首席科学家 Bill Daly,希望找到一种方法将他们正在研究的神经网络模型放入 GPU 中,这样他们就可以用几个 GPU 来进行训练,而不是使用成千上万台 CPU 服务器。几乎同时,Geoffrey Hinton 也联系了我们,我们开始听说这方面的事情,而且 Yann LeCun 在他的实验室也发生了同样的事情,所以在几个不同的实验室里,我们同时感受到了这种神经网络的出现,这引起了我们的注意。
Elad Gil:我想 2012 年也是 AlexNet 发布的一年,我觉得那真的是深度学习的一个转折点,至少在我记忆中,我认为那是一个令人激动的 AI 浪潮的开始,然后我觉得在接下来的 10 年里,创业公司并没有真正发生什么,但很多老牌公司开始采用这种技术。
Jensen Huang:我们在之前就开始感受到了,也听说过了,有一张图片吸引了我们所有人的注意力。
Sarah Guo:你曾经提到过早期的 AI 实验室使用 Nvidia 的游戏卡,因为你们解决了其他人无法解决的问题,并提高了效率和规模,在 Nvidia 开始投资某个应用程序时,他们是认为这是一个不断增长的应用程序,还是更像是一个平台,市场会接受它呢?
Jensen Huang:不是的。每次一个应用程序得到应用时,我们都会问自己,如何让它变得更好?这次是在深度学习方面,我们作出的重要观察是,这不仅仅是一个用于计算机视觉的新算法,虽然它在一开始主要应用在计算机视觉上,这对我们来说非常有帮助。如果仅仅是计算机视觉,我们可以将它用于各种有趣的应用,比如自动驾驶汽车和机器人技术。我们确实使用了它,但发现这可能是一种全新的软件编写方式,并且我们问自己,这对芯片设计、系统设计、互连、算法和系统软件有什么影响,以便真正思考的不仅仅是这个领域为什么如此令人兴奋,它为什么如此有效,这在本质上是个奇迹,ImageNet 在没有任何人为设计的特定算法的情况下,与 30 年的计算机视觉算法相比,一夜之间就达到了相当高的准确性,这是一次飞跃。首先,我们要问的问题是它为什么如此有效?它是否可扩展?如果它可扩展,那对计算机科学的其他领域有什么影响?这个能解决高维度问题的通用函数,只需要足够的数据进行训练,当时我们相信可以得到足够的数据,以及将这个模型系统地逐层训练到一个良好的状态。
04 更广泛的计算机科学转变Elad Gil:你能更详细地谈谈你是如何看待这种更广泛的计算机科学转变的吗?比如页面是如何生成和服务的,还有其他方面的变化,与 AI 的转变相关的。
Jensen Huang:现在快进 10 年,前 5 年我们一直在思考整个计算机科学的影响。与此同时,我们开发了各种新模型,从卷积神经网络到循环神经网络,再到长短期记忆网络,还有其他各种新模型,并且将它们扩展得越来越大,在感知模型方面取得了很大进展。当然,Transformer 是一个重要的里程碑,BERT 也是一个重要的里程碑,你们都对这个故事非常了解。
Sarah Guo:在 Transformer s和 BERT 等方面,你们是否看到了量的增长的变化?因为感觉这种具备注意力机制的架构使得模型的规模化成为可能,这也是产业发展的推动力。
Jensen Huang:嗯,你能够从空间数据和顺序数据中学习模式和关系,这一定是一种非常有效的架构,所以我认为从基本原理上来说,你可以想象 Transformer 会是一个重要的突破。此外,你可以并行训练它,真正将这个模型扩展起来,这非常令人兴奋。我认为当 Transformer 首次问世时,我们意识到它克服了循环神经网络和长短期记忆网络的局限性,我们现在可以以一种非常大规模的方式学习顺序数据。这非常令人兴奋,BERT 也非常令人兴奋,我们自己训练了一些早期的语言模型,取得了非常好的结果,但直到结合了强化学习和人类反馈,以及与检索模型、对话管理等方面的突破性工作结合起来,我们才真正看到了一些重大进展。直到各种要素开始融合,我们才意识到编程语言已经完全改变了。现在,在计算的历史上,编程计算机的语言是人类的语言,可以是任何一种人类语言,而且甚至不需要语法正确,任何人都可以编写计算机程序,这是一件了不起的事情。这是个大问题,因为你以不同的方式编程,它会写出不同的应用程序,这种新的计算模型的影响有多大?显然非常大,这也是为什么 ChatGPT 是历史上发展最快的应用程序的原因。
Sarah Guo:我们在节目中还有 Alex gravely,他是联合编写者的首席架构师,他最喜欢的用例是一些人告诉他他们以前不会编程,现在却可以了,我认为这种情况非常民主化。
Jensen Huang:真是令人惊奇,你可以给 ChatGPT 提供一个问题,它会逐步推理,但最后得出了错误的答案;但另一方面,你可以让它写一个解决同样问题的程序,它却能完美地解决问题,这种应用既可以推理解决问题,做得相当不错,已经非常接近了;另一方面,它也可以完全写出一个解决相同问题的程序,你必须真正思考一下这个意义。
Elad Gil:将它看作未来世界的某种形式的机器感知。
Jensen Huang:从技术上讲,我不知道那个词是什么意思,但我相信我们现在拥有一种软件,它能够推理和解决许多类型的问题,并且能够持续不断地提供解决方案或程序。
05 未来的开发者与专有模型Elad Gil:那么,展望未来,你如何考虑 Nvidia 的业务发展方向?你过去提到过 Nvidia 在训练模型方面做了一些非常有趣的事情,这将是你未来主要关注的一部分吗?还是主要关注芯片方面?你如何考虑推动研究并成为行业的基础平台的这种组合?Jensen Huang:我们是一家计算平台公司,我们必须向上游发展,以满足开发者的需求,问题聚焦在谁是开发者?起初,开发者是控制自己操作系统的人,所以在那些日子里,我们可能只需要到达设备驱动程序或稍微低一些的层面,以某种方式使开发者能够使用。对于科学计算和其他各种领域,开发者实际上正在使用某个求解器,他们需要将该领域的算法以某种方式表达出来,以便进行加速,这就是为什么当我们涉足多领域物理问题时,我们意识到我们必须开发算法本身,因为解决问题的算法与底层的计算机架构相关。架构的 CPU 通过以太网连接在一起,那个算法肯定与通过一个 GPU 内部的网络连接的数千个处理器以及数据中心内的数千个 GPU 不同。显然,算法必须被重新构建和重组。所以我们的公司在设计计算机算法方面非常擅长,可以是粒子物理学或流体力学的算法,当然也包括深度学习和神经网络。CUDA 实际上是一种用于加速深度学习的领域专用语言,我们已经为深度神经网络和光线追踪等计算机图形学做过这种工作,所有这些不同的领域库实际上是为了理解科学领域并重新设计算法,使其运行速度非常快。现在,未来的开发者是什么样的呢?我认为未来的开发者可能会使用大型语言模型或基础模型。如果有人能够通过微软使用 ChatGPT 或 OpenAI 的模型,我非常鼓励;如果有人能够通过谷歌使用它,我也非常鼓励。但是,如果有人需要为某个领域构建一个专有模型,可能需要创建一个新的基础模型,比如领域是蛋白质,或者领域是化学,或者领域是气候科学,或者是多物理学,那种基础模型是相当专业的,虽然它不是一个小市场,显然,因为药物发现领域很大,气候科学领域也很大,气候技术领域也很大。然而,它不太可能对每个人都有广泛的用途。因此,我们可能决定为 3D 图形、虚拟世界建立一个基础模型,因为它们对我们非常重要,我们可能决定为机器人技术建立一个基础模型,因为它涉及到我们非常擅长的领域交叉;即使如此,我们也可能只做到必要的程度,而不再深入,我们并不试图成为一个 AI 模型公司,我们试图帮助行业创建 AI 模型。Elad Gil:非常有道理,基本上是跟随客户的需求。
Jensen Huang:是的,然后在适当的时候将其移交给他们。我试图将这个原则与公司做出的一些非常长期的承诺相协调,比如 CUDA 是一个非常长期的赌注,我们 10 年前见过面,当时 Nvidia 的估值是现在的 1/ 100,并且面临着激进投资者等压力;当然,在那时做出长期赌注可能有些困难。
06 未来与现在,老黄 30 年的信念Elad Gil:我想知道,你如何平衡作为一家大型上市公司的压力和当今的机会,以及架构承诺或长期赌注,并对此进行优先排序。
Jensen Huang:投资未来和现在的可持续性并不冲突。对于所有初创公司和所有公司的 CEO 来说,挑战在于找到一种方法,能够以自己所信仰的核心信念为基础,并负担得起这样做,这就是公司的目的所在,所以这部分是信念,部分是技能。赚钱不是信念的问题,赚钱是技能的问题。这是一种可学习的技能。我花了很长时间才学会它,我承认这一点。我已经从事这个工作 30 年了,在前面的 20 年中,我还在试图弄清楚,但这是一种技能,学会赚钱和有效地管理公司这些都是技能,公司必须发展这些技能。我认为我们最终的做法是问自己,我们真的相信吗?如果我们真的相信做某件事,那么这就是公司的目的,是企业的唯一目的去追求自己的信仰,其他方面都取决于公司的聪明才智,尽力做好工作,建立人们愿意购买的产品,并尽可能提高成本效益,使公司更高效。这些都是技能。艰难的部分,事实证明,不是技能部分。我花了很长时间才学会它,但很多公司都知道如何赚钱。显然,赚钱不是那么困难,其他人也可以做到,困难的是单一地推进一种新的计算模型,我们称之为加速计算。我们相信,加速计算一方面可以帮助我们解决普通计算机无法解决的问题,另一方面它也为我们带来了许多令人惊叹的应用,比如我今天对数字生物学非常兴奋,比如我们对气候变化兴奋,对机器人技术和自动驾驶车辆也充满激情。如果不是因为我们追求那些在普通计算机上不可能的应用,我们为什么会发现所有这些东西?我们为什么会成为大型语言模型的工作么?因为大型语言模型几乎是不可能的。如果你在做一些几乎不可能的事情,就给我们打电话吧。我们可以提供工具帮你解决这些问题的,我希望我们能够发现这些未来的东西。另一方面,我们深信,总有一天所有事物都会被加速,这是非常清楚的,CPU 将会达到极限,你无法无限地扩展通用计算,而且你总是需要它,总是需要 CPU,但在未来,加速计算将是最佳前进方式。所以从一开始,30 年前,我们就坚信这一点,这也是我们创办公司的原因,这是真正的信念。
Sarah Guo:你对这个 30 年的信念得到了极大的证实,你肯定在公司经营的 30 年中的某个时刻,对自己的信念产生了怀疑。你是否曾经有过这样的经历?
Jensen Huang:你是说我不适合这份工作吗?
Sarah Guo:不,我是指你是否对加速计算以及它的重要性产生过怀疑。
Jensen Huang:第二个问题的答案是肯定的。首先,我不认为任何人应该认为他们适合这份工作,你几乎每天都应该审视自己,所以明确一点。