我正在尝试运行一个 PySpark 脚本,当我在本地计算机上运行它时,它可以正常工作。
问题是我想从 S3 获取输入文件。
无论我如何尝试,我似乎都无法找到设置 ID 和秘密的位置。我找到了一些有关特定文件的答案
前任:通过 Spark(或更好:pyspark)在本地读取 S3 文件 https://stackoverflow.com/questions/29443911/locally-reading-s3-files-through-spark-or-better-pyspark但我想设置整个 SparkContext 的凭据,因为我在整个代码中重用 sql 上下文。
所以问题是:如何设置AWS访问密钥和秘密来触发?
P.S 我尝试了 $SPARK_HOME/conf/hdfs-site.xml 和环境变量选项。两者都没有工作...
谢谢
对于 pyspark,我们可以设置如下所示的凭据
sc._jsc.hadoopConfiguration().set("fs.s3n.awsAccessKeyId", AWS_ACCESS_KEY)
sc._jsc.hadoopConfiguration().set("fs.s3n.awsSecretAccessKey", AWS_SECRET_KEY)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)