微新创想(Idea2003.com) 7月11日讯:Databricks 近期推出了一款具有里程碑意义的 Apache Spark 英文 SDK,这一创新工具将彻底改变 Spark 的使用体验。开发者现在可以通过简单的英文指令编写程序,例如输入「2022 USA national auto sales by brand」(美国 2022 年汽车销量),编译器会自动将其转换为 PySpark 或 SQL 代码执行。这一突破性功能极大地降低了数据科学和大数据处理的门槛。
Apache Spark™在全球范围内已取得辉煌成就,年下载量突破10亿次,覆盖208个国家和地区,成为推动大规模数据分析发展的关键力量。此次推出的英文 SDK 创新性地融合了生成式人工智能技术,使 Spark 变得比以往更加用户友好和易于操作。这一设计灵感源于 GitHub Copilot 在代码辅助领域的革命性影响,尽管 Copilot 功能强大,但用户仍需理解生成代码才能提交,审核人员也需要具备相应的代码理解能力,这限制了其更广泛的应用。
具体而言,Copilot 在处理 Spark 表和 DataFrames 时偶尔会出现上下文理解困难,例如误报不存在的 dept_id 列等问题,需要开发者手动修正。Databricks 正致力于解决这一痛点。他们发现,大型语言模型对 Spark 领域有着深刻的理解,因为 Spark 社区在过去十年中积累了大量开放且高质量的文本资源,包括 API 文件、开源项目、问答和教程等。基于这一洞察,Databricks 团队开发出这套英文版 SDK,让用户可以直接使用英文指令获取结果,大幅减少代码编写量。
Apache Spark 英文版 SDK 是一款简单而强大的工具,能够显著提升开发效率。它通过简化复杂任务、减少代码量,让用户更专注于从数据中挖掘价值。Databricks 表示,尽管英文版 SDK 目前仍处于早期开发阶段,但他们对其潜力充满信心。公司鼓励用户积极探索这一创新工具,亲身体验其带来的便利,并考虑为项目贡献自己的力量。不要只是旁观这场革命——成为这场革命的一部分。
值得一提的是,Databricks 此前已同意以约13亿美元的估值收购生成式人工智能初创公司 MosaicML,这一举措旨在满足企业对构建类似 ChatGPT 工具的快速增长需求。这一战略布局进一步巩固了 Databricks 在人工智能领域的领先地位,为其持续创新奠定了坚实基础。