Databricks 宣布达成一项重大战略交易,将以约 13 亿美元的估值收购生成式人工智能领域的领先初创公司 MosaicML。这一举措标志着 Databricks 在企业级 AI 解决方案领域的重大布局,旨在满足市场对构建类似 ChatGPT 的智能应用日益增长的需求。
Databricks 是一家总部位于旧金山的创新企业,专注于数据存储和管理技术,此次收购将使其先进的数据管理能力与 MosaicML 的语言模型平台实现完美融合。通过这一整合,企业将能够利用自身专有数据,以更低的成本自主构建高效的语言模型,摆脱对公开网络数据的依赖。目前,许多企业仍需借助第三方训练的语言模型,这往往涉及数据安全和隐私的顾虑。
MosaicML 是一家成立于 2021 年的旧金山初创公司,致力于将生成式人工智能的构建成本从数千万美元降至每个模型数十万美元。公司拥有 62 名员工,已成功筹集 6400 万美元资金。此次收购完成后,MosaicML 将作为 Databricks 的独立服务继续运营,进一步强化其在 AI 领域的竞争力。
生成式人工智能技术能够根据用户自然语言提示,生成原创文本、图像和计算机代码,应用前景广阔。自 OpenAI 于去年 11 月推出 ChatGPT 以来,企业对生成式 AI 的兴趣呈现爆发式增长。Anthropic、OpenAI 等公司通过授权现成语言模型,帮助企业构建定制化 AI 应用。然而,这些现成模型因训练数据涉及互联网噪音,可能影响结果准确性,且数据隐私问题引发企业担忧。
Databricks 首席执行官 Ali Ghodsi 强调:“从零构建模型时,你清楚需要什么内容。”他认为,现成模型因训练数据混杂无关信息,可能产生误导性结果。同时,企业对数据隐私和安全的顾虑也促使它们寻求更可控的 AI 解决方案。
机器学习专家和 AI 供应商指出,大型语言模型如 ChatGPT 在计算和综合能力上优势明显,但特定领域的模型虽规模较小,却具备强大的专业功能。毕马威美国人工智能负责人 Sreekar Krishna 认为,数据管理和模型选择仍是企业面临的核心挑战。“数据始终是成功的关键,”他强调,随着大型语言模型的普及,对高质量数据的需求将持续攀升。企业技术领导者正承受着数据准备的压力,因为数据是算法学习和预测的基础。
Replit 等公司已开始利用 Databricks 的数据管道,并将数据传输至 MosaicML 训练代码生成模型,展现了这一技术生态的潜力。Databricks 的 Lakehouse 技术通过统一数据、分析和 AI 编程工具,为企业构建 AI 应用提供强大支持。公司通过出租分析、AI 及云软件服务,为企业技术系统提供“镐和铲子”,助力 AI 应用落地。
Databricks 成立于十年前,由加州伯克利数据科学家团队创立。2021 年 8 月完成 16 亿美元融资后,其私募市场估值飙升至 380 亿美元。主要投资者包括摩根士丹利的 Counterpoint Global、安德烈森·霍洛维茨、贝莱·吉福德等。去年,公司年收入突破 10 亿美元。
PitchBook 数据显示,全球生成式 AI 市场支出预计今年年底达 426 亿美元,至 2026 年将增长至 981 亿美元,年复合增长率高达 32%。2023 年前 5 个月,生成式 AI 初创企业风险投资额已达 127 亿美元,较 2022 年的 48 亿美元大幅增长。
生物制药服务公司 Syneos HeAlth 的首席信息和数字官 Larry Pickett 表示,当前医疗数据训练模型的成本高达 100 万至 200 万美元。分析人士认为,特定领域的模型比通用模型更具价值,因为它们蕴含更多行业术语和专业知识。Pickett 期待通过使用小型预训练模型,大幅降低构建成本。“并非每个应用都需要 GPT-4,”Krishna 指出,大型语言模型正朝着精细化方向发展,未来将出现更小巧、可嵌入移动设备的模型,满足特定场景需求。