最近,Databricks 推出Databricks Connect
that
允许您使用 Spark 本机 API 编写作业,并让它们在 Azure Databricks 群集上远程执行,而不是在本地 Spark 会话中执行。
除非我尝试访问 Azure Data Lake Storage Gen2 中的文件,否则它工作正常。当我执行这个时:
spark.read.json("abfss://...").count()
我收到此错误:
java.lang.RuntimeException: java.lang.ClassNotFoundException: Class shaded.databricks.v20180920_b33d810.org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem not found at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:2195)
有人知道如何解决这个问题吗?
更多信息:
-
数据块连接 https://pypi.org/project/databricks-connect/5.3.1/版本:5.3.1
如果您安装存储而不是使用服务主体,您应该会发现这是有效的:https://docs.databricks.com/spark/latest/data-sources/azure/azure-datalake-gen2.html https://docs.databricks.com/spark/latest/data-sources/azure/azure-datalake-gen2.html
我在这里发布了一些有关 databricks connect 限制的说明。https://datathirst.net/blog/2019/3/7/databricks-connect-limitations https://datathirst.net/blog/2019/3/7/databricks-connect-limitations
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)