在启动 Spark-submit / pyspark 时,我们可以选择使用以下命令指定 jar 文件--jars
选项。我们如何在 pyspark.xml 中指定 Maven 依赖项?运行 pyspark 应用程序时,我们是否必须始终传递所有 jars,还是有更干净的方法?
我发现对于测试/开发非常实用的另一种方法是在脚本中创建 SparkSession 时,特别是通过添加config
选项并通过 Maven 包依赖项传递spark.jars.packages
这样:
from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]")\
.config('spark.jars.packages', 'groupId:artifactId:version')\
.getOrCreate()
这将自动从 Maven 存储库下载指定的依赖项(对于多个包依赖项,以逗号分隔的方式指定)(因此请仔细检查您的互联网连接)。
以同样的方式列出任何其他 Spark 参数here https://spark.apache.org/docs/latest/configuration.html#available-properties可以传递到 Spark Session。
有关 Maven 包的完整列表,请参阅https://mvnrepository.com/ https://mvnrepository.com/
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)