编者按:本文来自微信公众号硅兔赛跑(ID:sv_race),作者:Vivek Ramaswami & Sabrina Wu,编辑:Lexie, Kathy,微新创想经授权转载。Snowflake和Databricks作为数据库领域的双雄,长期在同一赛道竞技却鲜有正面交锋。而生成式AI浪潮的兴起,让这两家巨头纷纷通过收购布局,Snowflake斥资收购Neeva(企业级AI搜索引擎),Databricks以13亿美元收购MosaicML(ML模型部署),并低调完成对OmniML(模型压缩)的收购。表面上的合作默契逐渐被竞争姿态取代,两家公司选择在同一天举办年度盛会,向世界展示其在生成式AI领域的雄心。Snowflake自2020年上市以来市值已达579.2亿美元(2023.8.1),而Databricks虽未上市但估值已达380亿美元。在生成式AI的加持下,Databricks能否超越Snowflake?Snowflake又将如何突破自我?作为投资Snowflake的基金Madrona合伙人Vivek和投资人Sabrina,分享了他们对两家公司在生成式AI领域竞争的独到见解。
上周,数据和人工智能领域迎来重要时刻,Databricks和Snowflake分别在旧金山和拉斯维加斯举办年度会议(Databricks的Data and AI Summit和Snowflake的Summit)。两家巨头选择在同周举办重要活动绝非偶然。过去十年里,Snowflake和Databricks既是合作伙伴也是竞争对手,但这一周明显表明,它们已成为彼此的主要竞争者,而新的战场正是人工智能。两个会议的讨论和宣布几乎都聚焦于生成式人工智能,传递出重要信息:每家公司都必须从数据战略出发,才能构建生成式人工智能战略。Databricks和Snowflake都试图证明,为何他们能在这一旅程中为客户提供最佳支持。曾经是战略合作伙伴的两家公司,为何在人工智能新时代演变为激烈竞争者?让我们深入剖析。
【免责声明:Madrona曾投资SnowflakeC轮,并仍持有部分股份。】文章源自:Aspiring for Intelligence 硅兔编辑部翻译
01Snowflake:从数据仓库到数据云
Snowflake由数据库专家Benoît Dageville和Thierry Cruanes于2012年创立。他们敏锐地发现传统数据仓库存在”固化、昂贵且难以使用”的问题。Dageville和Cruanes与Vectorwise前CEO Marcin Zukowski合作,构建了基于三大核心前提的未来数据仓库:完全云架构、计算与存储分离实现无限扩展、弹性计算资源带来前所未有的查询处理速度。如今,Snowflake已从云数据仓库升级为”数据云”,为客户提供访问、构建、协作和变现数据的单一平台。十多年间,Snowflake成长为市值550亿美元的上市公司,服务6000多家客户,包括众多《财富》500强企业。Snowflake与Azure、AWS、GCP等主要云服务商合作,现正将目光转向人工智能领域。为实现这一目标,Snowflake在AI和机器学习领域展开了一系列收购和产品发布:Snowpark支持数据科学家使用首选编程语言进行端到端机器学习工作负载开发;2022年3月以8亿美元收购Streamlit,使客户能通过几行代码开发数据密集型应用;今年早些时候收购Neeva,加速企业与数据的交互和搜索,实现更具对话性的体验。
02Databricks:构建Lakehouse
Databricks成立于2013年,由包括现任CEO Ali Ghodsi在内的七位UC Berkeley AMPLab研究员创立。他们构思了Apache Spark这一大规模数据处理的开源统一分析引擎,现已成为主流数据处理框架。Databricks最初目标是商业化Spark,推出企业级Spark版本,满足大型组织的需求。随后发展为创新的”Lakehouse平台”,统一数据、分析和人工智能。Lakehouse概念融合了集成、存储、处理、治理、共享、分析和人工智能功能。过去十年中,Databricks成为全球估值最高的私人公司之一,2021年估值达380亿美元,近期实现10亿美元收入里程碑。他们服务成千上万的企业客户和开源用户,被视为最受瞩目的IPO之一。在持续增长中,Databricks逐渐将自己定位为人工智能领域的领导者,近期完成对MosaicML的13亿美元收购,并开源指令调优LLM Dolly,训练成本低于30美元。
03AI中的碰撞
Snowflake和Databricks都占据良好生态位,可利用企业为生成式AI做准备的结构性趋势。随着生成式AI应用普及,两家公司都试图将自己定位为战略性多产品数据平台。以下是各自会议的重要公告及对两家公司人工智能战略的总体看法。
Snowflake主要公告:
开发者公告:
1)原生应用框架:允许开发人员创建、分发和变现应用程序,基于Snowflake数据云扩展。
2)Snowpark容器服务:扩展数据可编程性和计算基础架构,支持编程语言、第三方软件,为全栈应用程序和LLM提供安全治理。
其他重要公告:Snowpipe流式处理功能;动态表格(材料化表格);Document AI服务;Iceberg Tables。
合作伙伴公告:
与NVIDIA合作将NeMo企业开发框架嵌入Snowflake数据云,支持客户构建和部署LLMs。
与Microsoft合作扩展Azure合作伙伴关系,整合OpenAI和Azure AI/ML服务。
与Weights & Biases合作,通过Snowflake容器服务加速ML模型迭代开发。
还宣布与Alteryx、Hex、Dataiku等公司的合作。
我们的看法:
直到最近,Snowflake未透露生成式AI计划,投资者对其竞争力表示担忧。2023年峰会展示Snowflake作为可信赖数据云提供商的强大愿景。与Nvidia合作及Snowpark容器服务发布,使Snowflake成为AI数据堆栈中更有竞争力的参与者。Snowflake的核心观点是,客户能在其数据云中安全访问、开发和部署LLMs,同时获得Nvidia GPU和AI软件加速计算。虽然令人印象深刻,但Snowflake在AI领域仍落后于Databricks。
Databricks主要公告:
开发者公告:
1)LakehouseIQ:基于LLM的自然语言接口,用于搜索和查询数据,理解客户数据架构和查询模式。
2)LakehouseAI:宣布Databricks ML新功能,包括LLMOps能力、向量搜索、特征服务和MLFlow Gateway。
3)MosaicML:峰会前宣布以13亿美元收购MosaicML,定位为”构建GenAI模型的机器”。
其他值得注意的公告:Delta Lake 3.0、MLFlow 2.5支持不同后端LLMs、Lakehouse Apps和智能监控。
我们的观点:
Databricks通过Lakehouse平台整合数据、AI模型、监控和治理能力,采取统一AI方法。客户能更高效开发GenAI解决方案,认为Databricks在机器学习开发方面更快速、经济、易用。通过对Dolly和MosaicML的投资,Databricks巩固了在GenAI领域的领导地位。Databricks强调Lakehouse是GenAI初创企业训练和部署模型的最佳方式,以成本效益方式利用专有数据。
04展望未来
尽管生成式AI热潮已持续8个多月,但过去一周表明Snowflake和Databricks正在展开激烈竞争。我们可以期待:
1.收购将继续进行→ Snowflake拥有约40亿美元现金,Databricks估值高且拥有交易资金,而AI和数据工具初创企业渴望在低迷的IPO市场找到出口。Neeva和MosaicML不会是最后一次收购,市场将出现整合。
2.客户将受益→ 在竞争升级中,客户将是最大赢家。两家巨头快速为平台添加新产品和服务,构建”一站式商店”,让数据科学家、工程师和AI从业者更高效合作,民主化AI访问。
3.Azure和AWS将赚取更多利润→ Snowflake和Databricks的AI扩张将增加对Azure和AWS计算需求,这些超大规模云服务提供商将受益。
无论谁在AI竞争中获胜,Snowflake和Databricks都处于良好位置,可利用这一代数据革命。尽管来自价值链不同部分,关系在过去十年中发生变化,但它们现在正处于一场奖励巨大的竞赛中。本文为专栏作者授权微新创想发表,版权归原作者所有。文章系作者个人观点,不代表微新创想立场,转载请联系原作者。如有任何疑问,请联系http://www.idea2003.com/。