无法使用 PySpark 和 Databricks Connect 连接到 Azure Data Lake Gen2

2024-04-15

最近,Databricks 推出Databricks Connect that

允许您使用 Spark 本机 API 编写作业,并让它们在 Azure Databricks 群集上远程执行,而不是在本地 Spark 会话中执行。

除非我尝试访问 Azure Data Lake Storage Gen2 中的文件,否则它工作正常。当我执行这个时:

spark.read.json("abfss://...").count()

我收到此错误:

java.lang.RuntimeException: java.lang.ClassNotFoundException: Class shaded.databricks.v20180920_b33d810.org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem not found   at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:2195)

有人知道如何解决这个问题吗?

更多信息:

  • 数据块连接 https://pypi.org/project/databricks-connect/5.3.1/版本:5.3.1

如果您安装存储而不是使用服务主体,您应该会发现这是有效的:https://docs.databricks.com/spark/latest/data-sources/azure/azure-datalake-gen2.html https://docs.databricks.com/spark/latest/data-sources/azure/azure-datalake-gen2.html

我在这里发布了一些有关 databricks connect 限制的说明。https://datathirst.net/blog/2019/3/7/databricks-connect-limitations https://datathirst.net/blog/2019/3/7/databricks-connect-limitations

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

无法使用 PySpark 和 Databricks Connect 连接到 Azure Data Lake Gen2 的相关文章

随机推荐