红杉资本青睐Hugging Face AI开源社区如何引领创造力浪潮

2023-07-10 08:56:21 互联网 42 次阅读

掌控表情符号的人正在推动AI重写规则

**前言**：这是一档由【微新创想】与聚焦创业投资市场的品牌咨询公司【赋雅FOYA】联合出品，每周为大家带来有趣、有料的海外独角兽商业故事。作者丨适道编辑丨海腰图源丨Hugging Face官方

Hugging Face是一家估值20亿美元的AI独角兽，拥有24位投资人，包括Lux Capital、红杉资本等。在大模型领域，我们已见证OpenAI获得微软的百亿美元投资，以及InflectionAI获得微软和英伟达的13亿美元融资。然而，Hugging Face这家估值”仅20亿美元”的公司，却是目前AI领域的创造力中心之一。它被称为”AI领域的Github”，不仅汇聚了众多开发者和产品经理在社区中研究和发布AI模型，还拥有超过5000个客户（其中3000个为付费客户）。

Hugging Face的核心是名为Transformers的自然语言处理库。其Transformers库在GitHub上拥有62000颗星和14000个分叉，显示开发者和数据科学社区对其技术的积极应用与改进。Transformers提供API，可轻松下载和训练最先进的预训练模型，降低计算成本、减少碳足迹，并节省大量训练时间。Hugging Face采用免费增值模式：客户可使用免费推理API获得基础AI推理能力，并通过社区支持；付费服务则允许客户轻松训练模型，提升推理API性能。此外，其产品还包括Datasets（多模态模型数据集）、Hub（模型和数据集托管服务）、Tokenizers（高速分词器）等。

这家潜力巨大的AI开源独角兽由法国小镇出身的极客Clem Delangue创立。他在都柏林大学求学时展现的极客精神和开源精神，塑造了Hugging Face独特的社区文化和企业文化。这位非典型创业者对AI有深刻理解，也对创业、开源社区及融资有自己的见解。本文结合红杉资本对Hugging Face的深度报道，以及创投圈著名播客20VC主理人Harry Stebbings对Clem Delangue的访谈，梳理了Hugging Face从0到1的进化道路，以及Clem Delangue的创业故事。

Hugging Face的开源精神源于创始人23岁时的大学经历。当时，Clem Delangue打造了教育平台UniShared，旨在解决全球学习资源分配不公问题，向每个人提供大学教育的机会。这一创举让他登上TEDx讲台。少年时代的Delangue来自法国北部小镇La Bassée，互联网的到来打破了他的世界局限。”当我得到自己的第一台电脑时，它就像一扇窗户，让我看到了更大的世界，那种感觉真是令人震惊。”他回忆道。UniShared虽未改变世界，却种下了开源和分享的种子，并让Google向他递出橄榄枝。Delangue拒绝后，加入巴黎计算机视觉创业公司Moodstocks，接触机器学习。

在巴黎的一次会议上，Delangue向Apple市场营销专家Guy Kawasaki介绍自己的应用。Kawasaki质疑机器学习能否识别所有物体。”他说的大意是，你无法创建规则来识别世界上所有的物体。”Delangue演示后，Kawasaki惊讶于应用正确识别了他的水瓶品牌并提取社交媒体评论。那一刻，Delangue意识到机器学习以新方式连接人与人的潜力。”两个从未见过面的人——一位法国极客工程师和这位美国硅谷的家伙——他们因为机器学习发现他们其实喜欢同一个饮料品牌。”Delangue说。

离开Moodstocks后，Delangue在初创公司负责产品与市场营销。2016年，他与Julien Chaumond（法国经济部门计算机工程师）重逢。两人共同参加斯坦福大学在线工程课程，组建30多人的学习小组，其中Thomas Wolf（科学训练的专利律师）加入。他们决定解决机器学习领域最棘手的问题：构建开放领域、会话式的AI聊天机器人。当时，Siri和Alexa已出现，但”它们极其无聊，只会做生产力相关的事情。我们对建立一个有趣的会话式AI感到兴奋。”Delangue说。

2016年，依赖深度神经网络的NLP领域仍处萌芽阶段，他们的目标近乎科幻。聊天机器人需整合多种模型，理解情感并生成答案，而管理海量训练数据是首要挑战。正是对不可能的挑战，使Hugging Face成为全球最大的开源AI社区。从一开始，Hugging Face团队就展现出开源社区的慷慨与民主精神，Delangue赋予员工权力，让他们自主发布功能。最终，这个聊天机器人活跃在社交网络和移动APP上，用户发送了超过十亿条信息。

Hugging Face转向开源的标志性时刻是发布自定义BERT模型。当时，Google发布的BERT过于复杂，且仅支持TensorFlow。Hugging Face一周内创建PyTorch版本，并免费开源。”那是个分水岭时刻”，红杉资本投资人Pat Grady说。Delangue被问及动机时，回答得简单直接：”我们只是觉得，这是许多人会喜欢使用的东西。”

Delangue在20VC访谈中强调开源对AI的重要性：”AI的进步基于开放科学和开源。所有人都能用最新算法搭建应用，形成正反馈循环，快速推进AI发展。没有开放科学，AI进度会慢很多年。”BERT模型的成功验证了Delangue早年的信念——分享知识对每个人都有益。

Hugging Face的使命随之改变：开始分享构建聊天机器人过程中积累的机器学习知识。他们逐渐成为工程师、研究人员的首选资源。在BERT适配版开发中，Delangue团队成为Transformer模型的专家。Transformer能从未标记数据中产生优秀结果，节省大量训练时间。Hugging Face建立为开发Transformer的首选开源中心，约20万种公共模型供用户访问。

Delangue意识到，理解这些工具需要社区。随着转向开源，Hugging Face正成为他希望建立的社区。红杉资本合伙人Sonya Huang说：”Delangue理解用户——他就是用户——并且他对草根社区有直觉。他以极其真实的方式培育它。”Delangue没有雇佣专职社区经理，而是亲自参与，在Twitter上发布bug修复信息，与10000多家公司解决功能问题。至今，Hugging Face160名员工都积极参与在线社区。”我们觉得如果我们开始拥有社区经理，那就是将所有成员都应负的责任外包出去。”Delangue说。

Hugging Face的庞大规模推动了其战略地位。视觉大模型Stable Diffusion选择将其模型、数据集和演示发布到Hugging Face，激发了用户引领的活动，如”一个橡皮鸭在讲台上发表演讲”和”被辐射的皮卡丘”等创意作品。2023年3月，Delangue在旧金山与Hugging Face用户举行临时聚会，超过400人使用密码ossftw（开源软件永远胜利）注册，最终约5000人（含三头羊驼）参加，现场充满狂欢派对与机器人竞赛的氛围。

AI原生创业公司将颠覆旧有企业。Delangue认为，AI已从后台技术演变为更奇妙（或可怕）的存在，数百万开发者和产品经理涌入AI领域。他主张任何投资AI的人都应加入Hugging Face社区。”如果用户不理解技术如何构建，会带来很多风险和误解。”Delangue认为，对通用人工智能崛起的担忧是错位的。他同意Andrej Karpathy的观点——AI是Software 2.0，是现代世界的重大进步，但不是万能的。AI是构建所有技术的新范式，但不是新的人类形式，它将为技术创造新能力。”大多数技术公司将编写AI。”

Delangue谈通用大模型与开源小模型的适用性：”有两种AI世界观，一种是通用大模型解决所有问题，另一种是许多开源小模型解决不同问题。选择取决于使用场景。如果你是Facebook，大模型能做任何事；如果你是消费品公司，需要针对场景优化AI模型。如何选择，取决于你如何定位自己。”对于企业是直接使用大模型API还是训练开源模型，Delangue的观点是：”直接使用OpenAI的API在开始阶段更快，但长期看，创业者没有建立核心竞争力。AI公司需要像传统软件公司编写代码一样，在机器学习范式中训练或定制模型。”

这是新公司颠覆旧有企业的巨大机会：旧企业选择容易的解决方案，而其他公司选择更具颠覆性的方式。AI发展太快，现有盈利方式可能3-5年后就不适用。Hugging Face采用免费增值模式，已有3000家付费客户（包括Bloomberg、Grammarly）。Delangue认为，首要任务是建立网络效应平台，被更多人采纳。”在AI领域，你期望公司愿意为AI付费，所以如果Hugging Face继续成为公司使用的第一AI平台，我们将能获得大量收入。”对于盈利，他强调逐步解锁学习阶段，从六位数收入开始，逐步到七位数、八位数和九位数。”在AI领域，底层技术的发展速度非常快，今天赚钱的方式可能三年后就不适用了。”

**非典型创始人：投资人不该抢创业者的活**
在与20VC的访谈中，Delangue介绍了自己的融资原则：
1. 两轮融资之间，不与外部投资者交谈，专注公司发展；
2. 融资快，获得足够资金后不再接触不熟悉的新投资人；
3. 选定投资人后，共度3天深度了解和尽调，确认目标一致、期望相似，能保持良好关系。