Databricks 发布应用生成式人工智能的 Apache Spark 英文 SDK:可使用英文编写代码

站长之家(ChinaZ.com) 7月11日消息:Databricks 日前发布 Apache Spark 的英文 SDK,这是一个变革性的工具,旨在丰富 Spark 体验。

开发者可以使用英文指令编写程序,例如「2022 USA national auto sales by brand」(美国 2022 年汽车销量),编译器会将英文指令转换为 PySpark 或 SQL 代码来执行指令。

据官方介绍,Apache Spark™在全球 208 个国家和地区的年下载量超过 10 亿次,极大地推动了大规模数据分析的发展。英文 SDK 创新性地应用了生成式人工智能(Generative AI),使 Spark 比以往任何时候都更加友好和易于使用。

GitHub Copilot 已经彻底改变了人工智能辅助代码开发领域。虽然它功能强大,但它希望用户理解生成的代码才能提交。审核人员也需要理解代码才能进行审核。这可能是限制其更广泛应用的一个因素。它偶尔也会在上下文方面遇到困难,尤其是在处理 Spark 表和 DataFrames 时。例如出现不存在的 dept_id 列,这需要开发者发现并进行修正。

这是 Databricks 希望解决的问题。他们发现,大型语言模型非常了解 Spark,因为 Spark 社区在过去 10 年贡献了大量开放且高质量的文本,例如 API 文件、开源项目、问答和教程等。

因此,Databricks 团队使用了语言模型开发了一套英文版 SDK,用户可以直接在代码中使用英文指令来获取结果,从而减少所需编写的代码量。

Apache Spark 英文版 SDK 是一个极其简单但功能强大的工具,可以显着增强用户的开发过程。它旨在简化复杂的任务,减少所需的代码量,并让用户更加专注于从数据中获取见解。

Databricks 表示,虽然英文版 SDK 仍处于开发的早期阶段,但对其潜力感到非常兴奋。鼓励用户探索这个创新工具,亲身体验其好处,并考虑为该项目做出贡献。不要只是观察革命——成为革命的一部分。

此前 Databricks 同意以约 13 亿美元的估值收购生成式人工智能初创公司 MosaicML,此举旨在满足企业构建类似 ChatGPT 的工具的快速增长需求。

您可能还喜欢...

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注