从本地 Spark 实例读取 Google 存储 gs:// 文件系统

2023-11-29

问题非常简单:您有一个本地 Spark 实例(集群或仅在本地模式下运行),并且您想从 gs:// 读取数据


在 Spark 2.4.3 上,我需要执行以下操作才能从 Spark 本地启用 GCS 访问。我使用 JSON 密钥文件与client.id/secret上面提出的。

  1. In $SPARK_HOME/jars/,使用阴影gcs-connector从这里罐子:http://repo2.maven.org/maven2/com/google/cloud/bigdataoss/gcs-connector/hadoop2-1.9.17/否则我在传递依赖方面会遇到各种失败。

  2. (可选)给我的build.sbt add:

    "com.google.cloud.bigdataoss" % "gcs-connector" % "hadoop2-1.9.17"
        exclude("javax.jms", "jms")
        exclude("com.sun.jdmk", "jmxtools")
        exclude("com.sun.jmx", "jmxri")
    
  3. In $SPARK_HOME/conf/spark-defaults.conf, add:

    spark.hadoop.google.cloud.auth.service.account.enable       true
    spark.hadoop.google.cloud.auth.service.account.json.keyfile /path/to/my/keyfile
    

一切正常。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

从本地 Spark 实例读取 Google 存储 gs:// 文件系统 的相关文章

随机推荐