问题非常简单:您有一个本地 Spark 实例(集群或仅在本地模式下运行),并且您想从 gs:// 读取数据
在 Spark 2.4.3 上,我需要执行以下操作才能从 Spark 本地启用 GCS 访问。我使用 JSON 密钥文件与client.id/secret
上面提出的。
In $SPARK_HOME/jars/
,使用阴影gcs-connector
从这里罐子:http://repo2.maven.org/maven2/com/google/cloud/bigdataoss/gcs-connector/hadoop2-1.9.17/否则我在传递依赖方面会遇到各种失败。
-
(可选)给我的build.sbt
add:
"com.google.cloud.bigdataoss" % "gcs-connector" % "hadoop2-1.9.17"
exclude("javax.jms", "jms")
exclude("com.sun.jdmk", "jmxtools")
exclude("com.sun.jmx", "jmxri")
-
In $SPARK_HOME/conf/spark-defaults.conf
, add:
spark.hadoop.google.cloud.auth.service.account.enable true
spark.hadoop.google.cloud.auth.service.account.json.keyfile /path/to/my/keyfile
一切正常。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)