无法使用 PySpark 和 Databricks Connect 连接到 Azure Data Lake Gen2

2024-04-15

最近，Databricks 推出Databricks Connect that

允许您使用 Spark 本机 API 编写作业，并让它们在 Azure Databricks 群集上远程执行，而不是在本地 Spark 会话中执行。

除非我尝试访问 Azure Data Lake Storage Gen2 中的文件，否则它工作正常。当我执行这个时：

spark.read.json("abfss://...").count()

我收到此错误：

java.lang.RuntimeException: java.lang.ClassNotFoundException: Class shaded.databricks.v20180920_b33d810.org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem not found   at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:2195)

有人知道如何解决这个问题吗？

更多信息：

数据块连接 https://pypi.org/project/databricks-connect/5.3.1/版本：5.3.1

如果您安装存储而不是使用服务主体，您应该会发现这是有效的：https://docs.databricks.com/spark/latest/data-sources/azure/azure-datalake-gen2.html https://docs.databricks.com/spark/latest/data-sources/azure/azure-datalake-gen2.html

我在这里发布了一些有关 databricks connect 限制的说明。https://datathirst.net/blog/2019/3/7/databricks-connect-limitations https://datathirst.net/blog/2019/3/7/databricks-connect-limitations

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

Databricks

azuredatabricks

无法使用 PySpark 和 Databricks Connect 连接到 Azure Data Lake Gen2 的相关文章

从 pandas udf 记录

我正在尝试从 python 转换中调用的 pandas udf 进行日志记录因为在执行器上调用的代码不会显示在驱动程序的日志中我一直在寻找一些选项但到目前为止最接近的选项是这个one https stackoverflow com q
如何在 Mac 上使用 homebrew 安装 apache-spark 2.3.3

brew install apache spark只安装最新版本的 Spark 2 4 和 brew search apache spark没有给出任何其他选项有没有办法用自制程序安装旧版本的 Spark Type brew tap ed
Spark Scala：按小时或分钟计算两列的 DateDiff

我在数据框中有两个时间戳列我想获取它们的分钟差异或者小时差异目前我可以通过四舍五入获得日差 val df2 df1 withColumn time datediff df1 ts1 df1 ts2 但是当我查看文档页面时https
Spark：替换嵌套列中的空值

我想更换所有n a以下数据框中的值unknown 它可以是scalar or complex nested column 如果它是一个StructField column我可以循环遍历列并替换n a using WithColumn 但我希
Kubernetes WatchConnectionManager：执行失败：HTTP 403

我遇到错误Expected HTTP 101 response but was 403 Forbidden 在我使用以下命令设置新的 Kubernetes 集群之后Kubeadm当我提交下面遇到的 pyspark 示例应用程序时只有一个主
';'预期但发现“导入” - Scala 和 Spark

我正在尝试使用 Spark 和 Scala 来编译一个独立的应用程序我不知道为什么会收到此错误 topicModel scala 2 expected but import found error import org apache sp
Spark：出现心跳错误后丢失数据

我有一个在 Spark 集群上运行的 Python 程序有四个工作线程它处理一个包含大约 1500 万条记录的巨大 Oracle 表检查结果后发现大约有600万条记录没有插入我的写入功能如下 df write format jdbc
如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
PySpark：如何将带逗号的列指定为小数

我正在使用 PySpark 并加载csv文件我有一列包含欧洲格式的数字这意味着逗号替换点反之亦然例如我有2 416 67代替2 416 67 My data in csv file looks like this ID Reven
Spark问题中读取大文件 - python

我已经使用 python 在本地安装了 Spark 并在运行以下代码时 data sc textFile C Users xxxx Desktop train csv data first 我收到以下错误 Py4JJavaError Tra
在 Spark MLlib 上使用 Java 中的 Breeze

在尝试从Java使用MLlib时使用微风矩阵运算的正确方法是什么例如scala 中的乘法很简单 matrix vector 相应的功能在Java中是如何表达的有一些方法例如 colon times 可以通过正确的方式调用 breez
如何使用 Spark 2 屏蔽列？

我有一些表我需要屏蔽其中的一些列要屏蔽的列因表而异我正在读取这些列application conf file 例如对于员工表如下所示 id name age address 1 abcd 21 India 2 qazx 42 Ger
将 IndexToString 应用于 Spark 中的特征向量

Context 我有一个数据框其中所有分类值都已使用 StringIndexer 进行索引 val categoricalColumns df schema collect case StructField name StringType
IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
如何设置SPARK_HOME变量？

按照链接中的气泡水步骤进行操作http h2o release s3 amazonaws com sparkling water rel 2 2 0 index html http h2o release s3 amazonaws com
在 Spark 结构化流 2.3.0 中连接两个流时，左外连接不发出空值

两个流上的左外连接不发出空输出它只是等待记录添加到另一个流中使用套接字流来测试这一点在我们的例子中我们想要发出具有 null 值的记录这些记录与 id 不匹配或且不属于时间范围条件水印和间隔的详细信息如下 val ds1Map
错误：无法找到或加载主类 org.apache.spark.launcher.Main [重复]

这个问题在这里已经有答案了如果有人能帮我解决以下路径问题我将不胜感激我非常怀疑这与缺少路径设置有关但不知道如何修复它 rxie ubuntu Downloads spark echo PATH usr bin java usr lo
将 Tuple2 的值部分（即映射）合并为按 Tuple2 的键分组的单个映射

我在 Scala 和 Spark 中这样做我有和Dataset of Tuple2 as Dataset String Map String String 下面是值的示例Dataset A 1 gt 100 2 gt 200 3 gt 1
如何根据条件添加新列（而不面临 JaninoRuntimeException 或 OutOfMemoryError）？

尝试根据这样的条件创建具有多个附加列的 Spark 数据框 df withColumn name1 someCondition1 withColumn name2 someCondition2 withColumn name3 someCo
如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc

随机推荐

射线聚类算法

我知道显然有点的聚类算法但我有不同的场景我有许多光线它们的起点都在 3D 球体上并且其方向矢量向内指向球体一些光线指向 A 点其他光线指向 B 点等并带有一些噪声即光线彼此不完全相交是否有一种聚类算法可以让我根据光线指向的
将 ReadonlySpan 转换为 int 的最快方法？

我有一个带有字符串的文件 40070 我读它并将其转换为ReadonlySpan
如何在 Rails 4 中使用关注点

默认的 Rails 4 项目生成器现在会在控制器和模型下创建目录 concerns 我找到了一些有关如何使用路由问题的解释但没有找到有关控制器或模型的解释我很确定这与社区当前的 DCI 趋势有关并且愿意尝试一下问题是我应该如何使
在探索 Angular2 之前是否有必要先学习 TypeScript？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案在尝试学习 AngularJS 2 之前是否有必要先学习 TypeScript 没有必要学习 TypeScript 但我绝对建议您学习
C# 中防止子进程显示 shell 窗口

我正在使用 ffmpeg 编译视频我想防止它在执行操作时显示控制台这是我启动 ffmpeg 的方法 ProcessStartInfo si new ProcessStartInfo si Arguments string Format
编写自定义 webpack 解析器

我计划使用一组更复杂的约定来将资源导入到我的 webpack 项目中所以我正在尝试编写一个插件该插件应该重写请求的模块定位器的部分然后将其传递给解析器瀑布 https webpack js org development how to
ghc7.02 上的 runhaskell 错误

我在 ghc7 0 2 上创建了一个 yesod 应用程序当我使用命令时runhaskell devel server hs运行应用程序时发生错误 GHCi runtime linker fatal error I found a du
如何获取两个节点之间的最小路径的权重？

我有一个Python 中的networkx 图带有加权边我想获得两个节点之间的最小路径的权重目前我从 nx shortest path 实现中获取最短路径中的节点然后迭代每对并对每对节点之间的权重求和 shortest path
为什么启用自动刷新后使用空打印？

我在一段代码中发现了类似的东西 use IO Handle autoflush STDOUT 1 print 打印的目的是清空可能已满的缓冲区吗 The print强制立即输出缓冲区中的所有文本来自先前的打印该代码基本上禁用缓冲并刷新
在数据表过滤器表达式中转义字符的正确方法

我想知道是否有一个函数可以正确转义过滤器表达式的字符串文字例如 DataTable Select String Format name 0 MyName 如果 MyName 包含或许多其他关键字符则会生成异常这微软文档 http m
我可以在 VS 2008 的 Windows 窗体设计器中将默认修饰符从 Friend 更改为 Private 吗？

当我使用 C 在 Visual Studio 中开发 Windows 窗体应用程序时添加到窗体的每个控件默认标记为private 这就是我想要的使用 VB NET 时每个控件默认标记为Friend 相当于internal在 C 中即
为什么 jQuery .css('background-color') 返回 rgba(0,0,0,0) 表示“透明”？

我这里有一个盒子 http jsfiddle net U68p3 2 http jsfiddle net U68p3 2 具有透明背景当我用 jQuery 的 css background color 读取背景时它返回 rgba 0 0
PHP Elastic Search 过滤查询字符串搜索

所有人都希望使用过滤查询其中结果应包含来自 query string 以及应用的 term filter 的数据 GET blog search query filtered query query string fields descr
如何在Prestashop的产品列表中一次显示含税和不含税的产品价格？

在产品列表中我需要一次显示含税和不含税的产品价格我使用的是 Prestashop 1 6 版本现在产品列表中显示的是含税价格我也想显示不含税的价格我怎样才能做到这一点我已经寻找解决方案但无法找到适合我的工作解决方案找到以下块
仅一个循环的排序和非排序排列

我想按照给定长度的字典顺序对一个周期的排列进行排名和取消排名具有一个循环的排列是您可以在此循环中访问每个元素的位置 p 2 3 1 是一个循环的排列排名1 p 3 1 2 也有 1 个循环但等级为 2 因为排列在字典顺序上比第一个大
Ruby 解释器中的 React-Native 错误 + Bug：无法安装此模板所需的 iOS 项目的 CocoaPods 依赖项

我对苹果和应用程序编程非常陌生所以如果我没有以您可能期望的完美格式提出问题请原谅我几天前我购买了运行 M1 芯片的 MacBook Air 并且想使用 Xcode 和 React Native 进行编程当我执行常用命令 npx
将最短路径中的所有节点作为对象列表返回

我有以下 Cypher 查询它在 Neo4j 2 0 0 中运行良好 MATCH ab Point Latitude 24 96325 Longitude 67 11343 cd Point Latitude 24 95873 Longi
Clickonce winforms应用程序更新后启动缓慢

我们有一个 winforms 应用程序通过 clickonce 部署给用户并使用自动更新功能我们注意到对于我们的用户来说点击一次更新后应用程序需要几分钟的时间才会出现在此期间应用程序可执行文件正在运行 CPU 使用率相当高但
.NET 中的引导字节顺序

我正在创建一个像这样的GUID Guid g new Guid new byte 0 1 2 3 4 5 6 7 8 9 0xA 0xB 0xC 0xD 0xE 0xF Console WriteLine g 这输出 03020100 05
无法使用 PySpark 和 Databricks Connect 连接到 Azure Data Lake Gen2

最近 Databricks 推出Databricks Connect that 允许您使用 Spark 本机 API 编写作业并让它们在 Azure Databricks 群集上远程执行而不是在本地 Spark 会话中执行除非我尝试访

无法使用 PySpark 和 Databricks Connect 连接到 Azure Data Lake Gen2

无法使用 PySpark 和 Databricks Connect 连接到 Azure Data Lake Gen2 的相关文章

随机推荐

热门标签