我们如何在pyspark中指定maven依赖

2024-04-05

在启动 Spark-submit / pyspark 时,我们可以选择使用以下命令指定 jar 文件--jars选项。我们如何在 pyspark.xml 中指定 Maven 依赖项?运行 pyspark 应用程序时,我们是否必须始终传递所有 jars,还是有更干净的方法?


我发现对于测试/开发非常实用的另一种方法是在脚本中创建 SparkSession 时,特别是通过添加config选项并通过 Maven 包依赖项传递spark.jars.packages这样:

from pyspark.sql import SparkSession


spark = SparkSession.builder.master("local[*]")\
        .config('spark.jars.packages', 'groupId:artifactId:version')\
        .getOrCreate()

这将自动从 Maven 存储库下载指定的依赖项(对于多个包依赖项,以逗号分隔的方式指定)(因此请仔细检查您的互联网连接)。

以同样的方式列出任何其他 Spark 参数here https://spark.apache.org/docs/latest/configuration.html#available-properties可以传递到 Spark Session。

有关 Maven 包的完整列表,请参阅https://mvnrepository.com/ https://mvnrepository.com/

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

我们如何在pyspark中指定maven依赖 的相关文章

随机推荐