在 Pyspark 中添加 python 外部库

2024-03-27

我正在使用 pyspark (1.6)，我想使用 databricks:spark-csv 库。为此我尝试了不同的方法但没有成功

1-我尝试添加一个我下载的jarhttps://spark-packages.org/package/databricks/spark-csv https://spark-packages.org/package/databricks/spark-csv，然后运行

pyspark --jars THE_NAME_OF_THE_JAR
df = sqlContext.read.format('com.databricks:spark-csv').options(header='true', inferschema='true').load('/dlk/doaat/nsi_dev/utilisateur/referentiel/refecart.csv')

但得到这个错误：

Traceback (most recent call last):
 File "<stdin>", line 1, in <module>
File "/usr/hdp/2.5.3.0-37/spark/python/pyspark/sql/readwriter.py", line 137, in load
return self._df(self._jreader.load(path))
 File "/usr/hdp/2.5.3.0-37/spark/python/lib/py4j-0.9-src.zip/py4j/java_gateway.py", line 813, in __call__
 File "/usr/hdp/2.5.3.0-37/spark/python/pyspark/sql/utils.py", line 45, in deco
return f(*a, **kw)
 File "/usr/hdp/2.5.3.0-37/spark/python/lib/py4j-0.9-src.zip/py4j/protocol.py", line 308, in get_return_value
py4j.protocol.Py4JJavaError: An error occurred while calling o53.load.
: java.lang.ClassNotFoundException: Failed to find data source: com.databricks:spark-csv. Please find packages at http://spark-packages.org
    at org.apache.spark.sql.execution.datasources.ResolvedDataSource$.lookupDataSource(ResolvedDataSource.scala:77)
    at org.apache.spark.sql.execution.datasources.ResolvedDataSource$.apply(ResolvedDataSource.scala:102)
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:119)
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:109)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:231)
    at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:381)
    at py4j.Gateway.invoke(Gateway.java:259)
    at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:133)
    at py4j.commands.CallCommand.execute(CallCommand.java:79)
    at py4j.GatewayConnection.run(GatewayConnection.java:209)
    at java.lang.Thread.run(Thread.java:745)
Caused by: java.lang.ClassNotFoundException: com.databricks:spark-csv.DefaultSource
    at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
    at org.apache.spark.sql.execution.datasources.ResolvedDataSource$$anonfun$4$$anonfun$apply$1.apply(ResolvedDataSource.scala:62)
    at org.apache.spark.sql.execution.datasources.ResolvedDataSource$$anonfun$4$$anonfun$apply$1.apply(ResolvedDataSource.scala:62)
    at scala.util.Try$.apply(Try.scala:161)
    at org.apache.spark.sql.execution.datasources.ResolvedDataSource$$anonfun$4.apply(ResolvedDataSource.scala:62)
    at org.apache.spark.sql.execution.datasources.ResolvedDataSource$$anonfun$4.apply(ResolvedDataSource.scala:62)
    at scala.util.Try.orElse(Try.scala:82)
    at org.apache.spark.sql.execution.datasources.ResolvedDataSource$.lookupDataSource(ResolvedDataSource.scala:62)
    ... 14 more

2-第二种方式：我从以下位置下载了一个库 zip 文件https://spark-packages.org/package/databricks/spark-csv https://spark-packages.org/package/databricks/spark-csv.

并运行：

/bin/pyspark --py-files spark-csv-1ae649285462df1af1411593e2abe589de2d704c.zip
df = sqlContext.read.format('com.databricks:spark-csv').options(header='true', inferschema='true').load('/dlk/doaat/nsi_dev/utilisateur/referentiel/refecart.csv')

但遇到了同样的错误。 3-第三种方式：

 pyspark --packages com.databricks:spark-csv_2.11:1.5.0

但它也不起作用，我得到了这个：

Python 2.7.13 |Anaconda 4.3.0 (64-bit)| (default, Dec 20 2016, 23:09:15)
[GCC 4.4.7 20120313 (Red Hat 4.4.7-1)] on linux2
Type "help", "copyright", "credits" or "license" for more information.
Anaconda is brought to you by Continuum Analytics.
Please check out: http://continuum.io/thanks and https://anaconda.org
Ivy Default Cache set to: /home/F18076/.ivy2/cache
The jars for the packages stored in: /home/F18076/.ivy2/jars
:: loading settings :: url = jar:file:/usr/hdp/2.5.3.0-37/spark/lib/spark-assembly-1.6.2.2.5.3.0-37-hadoop2.7.3.2.5.3.0-37.jar!/org/apache/ivy/core/settings/ivysettings.xml
com.databricks#spark-csv_2.11 added as a dependency
:: resolving dependencies :: org.apache.spark#spark-submit-parent;1.0
    confs: [default]

Spark 1.6 包含 Spark-csv 模块，因此您不需要任何外部库

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PySpark

sparksubmit

在 Pyspark 中添加 python 外部库的相关文章

在 pyspark 中找不到 col 函数

在pyspark 1 6 2中我可以导入col函数由 from pyspark sql functions import col 但当我尝试在GitHub 源代码 https github com apache spark blob br
Pyspark 出现 TypeError：无法 pickle _abc_data 对象

我正在尝试使用 pyspark 从 pickled 模型生成预测我使用以下命令获取模型 model deserialize python object filename with deserialize python object fil
如何将数组（即列表）列转换为向量

问题的简短版本考虑以下代码片段假设spark已经设置为一些SparkSession from pyspark sql import Row source data Row city Chicago temperatures 1 0 2
如何将 pip / pypi 安装的 python 包转换为 zip 文件以在 AWS Glue 中使用

我正在使用 AWS Glue 和 PySpark ETL 脚本并且想要使用辅助库例如google cloud bigquery作为我的 PySpark 脚本的一部分 The 文档说明这应该是可能的 https docs aws amaz
使用 sbt run 或 Spark-submit 脚本运行 Spark 应用程序的区别

我是 Spark 新手在学习这个框架时我发现据我所知用 Scala 编写的 Spark 应用程序有两种运行方式将项目打包成JAR文件然后使用spark submit脚本运行它直接使用 sbt run 运行项目我想知道这两种执
Pyspark 创建时间戳列

我使用的是火花2 1 0 我无法在 pyspark 中创建时间戳列我正在使用下面的代码片段请帮忙 df df withColumn Age lit datetime now 我正进入状态断言错误 col 应该是 Column 请帮忙
PySpark 在嵌套数组中反转 StringIndexer

我正在使用 PySpark 使用 ALS 进行协作过滤我原来的用户和项目 ID 是字符串所以我使用StringIndexer将它们转换为数字索引 PySpark 的 ALS 模型要求我们这样做安装模型后我可以获得每个用户的前 3 个
withColumn() 中的 PySpark list() 只能工作一次，然后 AssertionError: col 应该是 Column

我有一个 DataFrame 其中有 6 个字符串列名为 Spclty1 Spclty6 另外 6 个字符串列名为 StartDt1 StartDt6 我想将它们压缩并折叠成如下所示的列 Spclty1 StartDt1 Spclty6
Spark：如何使用动态嵌套数组转置和分解列

我应用了问题中的算法Spark 如何转置和分解具有嵌套数组的列 https stackoverflow com questions 69418239 spark how to transpose and explode columns wi
如何在 PySpark 中构建稀疏矩阵？

我是 Spark 新手我想制作一个稀疏矩阵专门用于推荐引擎的用户 ID 项目 ID 矩阵我知道如何在 python 中做到这一点如何在 PySpark 中做到这一点这是我在矩阵中的做法桌子现在看起来像这样 Session ID
Spark-2.1.0-bin-hadoop2.7\python：CreateProcess 错误=5，访问被拒绝

我尝试在 pyspark 上运行这个简单的代码但是当我执行收集时出现错误访问被拒绝我不明白出了什么问题我认为我拥有所有权利 x sc parallelize a 1 b 1 a 1 a 1 b 1 b 1 b 1 b 1 3 y x
“RDD”对象没有属性“_jdf”pyspark RDD

我是 pyspark 的新手我想对文本文件执行一些机器学习 from pyspark import Row from pyspark context import SparkContext from pyspark sql session
PySpark 将列除以其总和[重复]

这个问题在这里已经有答案了我试图将 PySpark 中的列除以它们各自的总和我的数据框此处仅使用一列如下所示 event rates 1 10 461016949152542 2 10 38953488372093 3 10 609
如何从不同列条件下的 PySpark 数据帧中提取数组元素？

我有以下内容PySpark 输入数据框 index valuelist 1 0 10 20 30 2 0 11 21 31 0 0 14 12 15 Where 索引双精度型值列表类型Vector it s 非数组从上面的输入数据框
delta Lake - 在 pyspark 中插入 sql 失败，并显示 java.lang.NoSuchMethodError: org.apache.spark.sql.catalyst.expressions.Alias

Dataproc 集群是使用映像创建的2 0 x带有 Delta io 包io delta delta core 2 12 0 7 0 Spark版本是3 1 1 Spark shell 启动于 pyspark conf spark sql
Spark任务仅在一个执行器上运行

大家好首先我知道这个线程的存在 Spark 中的任务仅在一个执行器上运行 https stackoverflow com questions 53425983 task is running on only one executor in
替换数据框中的重复列

我有一个data frame in pyspark 该数据框有一些带有特殊字符的列 cols df schema names cols abc test test abc eng test abc test reps def col ren
Spark VectorAssembler 错误 - PySpark 2.3 - Python

我正在使用 pySpark 2 3 0 并创建了一个非常简单的 Spark 数据框来测试 VectorAssembler 的功能这是较大数据框的子集其中我只选择了一些数字双精度数据类型列 gt gt gt cols index ho
Sparksql 多条件过滤（使用where子句选择）

您好我有以下问题 numeric registerTempTable numeric 我想要过滤的所有值都是文字空字符串而不是 N A 或空值我尝试了这三个选项 numeric filtered numeric filter nume
使用 PySpark 写入 Amazon S3 时，我得到 org/apache/hadoop/fs/StreamCapability

Problem 我尝试将 hadoop aws 与 pyspark 结合使用以便能够从 Amazon S3 读取写入文件方法安装软件包安装中hadoop aws以及相应的依赖项将其 Maven 坐标及其依赖项传递给spark j

随机推荐

小阴谋家 - 从哪里开始？

我刚刚打开小阴谋家我觉得我错过了一些东西第一个问题问这是一个原子吗但我没有看到原子是什么的任何定义我想我可以通过问题的答案推导出什么是原子但随后它继续问 l 的 car 是什么 l 的 cdr 是什么我不知道在问什么这本书
AngularJS：工厂 $http 服务

我试图理解 Angular 中工厂和服务的概念我在控制器下有以下代码 init function init http post services type getSource ID TP001 success function data
Java：具有重复键的 Json 可以使用 Jackson 进行映射

我有一个具有相同键但不同值的 json 文件如下所示 domains A name a type a1 B name r type g1 A name b type b1 这是来自外部系统如何转换json 到 java 映射对象并访问不
JQuery 如何 .find() 不区分大小写？
Fabric.loadSVGFromString 导致结果扭曲

我用 inkscape 编辑了 SVG
如何在xtable表格中放置颜色间距？

如何在xtable表格中放置颜色间距我使用以下说明生成表格 test table lt xtable summary test caption test floating FALSE align test table lt c l pri
DataGridView 中明显的内存泄漏

如何强制 DataGridView 释放其对绑定 DataSet 的引用我们有一个相当大的数据集显示在 DataGridView 中并注意到 DataGridView 关闭后资源没有被释放如果用户重复查看此报告他们最终会收到内存不足
我在 intellij 中的 jar 资源文件是只读的，我需要编辑它们

我已经尝试了几个小时来编辑我用作库的 jar 中的 java 文件但没有成功我已将资源标记为内容根和源根但我仍然无法编辑 jar 中的代码该项目编译并运行正确但我需要对资源文件进行调整但不能我尝试了所有我能想到的项目结构难道
kotlin如何通过delegate使用this来实例化viewmodel

我正在阅读 google android 架构示例并遇到了这个有人可以向我解释这个代表是如何工作的吗 private val viewModel by viewModels
如何在C++中“返回一个对象”？

我知道这个标题听起来很熟悉因为有很多类似的问题但我要求问题的不同方面我知道将东西放在堆栈上和将它们放在堆上之间的区别在Java中我总是可以返回对本地对象的引用 public Thing calculateThing Thing
Mono 可以在 rdlc 中创建/运行报告吗？

我从未使用过 mono 很好奇 mono 是否可以创建运行 rdlc 报告我正在寻找实现的是一个单声道 asp net mvc 应用程序用于使用 rdlc 创建报告并导出为 pdf 单声道可以吗有一些开源项目尝试在 NET 中实现
twitter 没有重定向到 android 应用程序中的回调 url

我的目标是允许使用 twitter4j 登录 Twitter 我用这个作为参考 https github com Sheikh Aman Android Samples blob master 1 20Sign inWithTwitterT
Jsoup：忽略 SSL 错误

我正在尝试下载https www deviantart com https www deviantart com使用 Jsoup v1 10 3 以及validateTLSCertificates false Java 8 已安装 Unli
使用 OpenTok 暂停视频通话

我一直在研究 webRTC 平台发现 OpenTok 似乎提供了最可定制的功能在深入研究之前我想确保它可以满足一项关键要求在两个用户 A 和 B 之间的 1 1 视频通话期间我希望其中一个用户让我们与用户 A 一起能够接收来自
Django - 无法获取 highchart 来显示数据

我尝试按照以下解决方案在 Highchart 的帮助下显示图表通过 JSON 将 Django 数据库查询集传递到 Highcharts https stackoverflow com questions 27810087 passing
在 Tensorflow 中训练简单模型 GPU 比 CPU 慢

我在 Tensorflow 中设置了一个简单的线性回归问题并在 1 13 1 中使用 Tensorflow CPU 和 GPU 创建了简单的 conda 环境在 NVIDIA Quadro P600 的后端使用 CUDA 10 0 然而
以编程方式与证书颁发机构通信

我以编程方式处理证书并与证书颁发机构进行通信我一直在 Windows 2008R2 上使用 C 处理 CertClient 和 CertEnroll COM 对象我可以生成请求并从 CA 获取证书我从这个例子开始 http blogs
为什么 Vim 会在文件末尾添加新行？

我经常使用 Wordpress 有时我会临时更改 Wordpress 核心文件以便了解正在发生的情况尤其是在调试时今天我有一个小小的惊喜当我准备将更改提交到 git 存储库时我注意到git status正在将 WordPress
AggregateItemReader 的位置和用例

附录在这里 http docs spring io spring batch trunk reference html listOfReadersAndWriters html列出读者AggregateItemReader但我无法在任何 S
在 Pyspark 中添加 python 外部库

我正在使用 pyspark 1 6 我想使用 databricks spark csv 库为此我尝试了不同的方法但没有成功 1 我尝试添加一个我下载的jarhttps spark packages org package databric

在 Pyspark 中添加 python 外部库

在 Pyspark 中添加 python 外部库 的相关文章

随机推荐

热门标签

在 Pyspark 中添加 python 外部库的相关文章