在spark中读取谷歌存储桶数据

2024-04-15

我已经按照这个博客读取了谷歌存储桶中存储的数据。https://cloud.google.com/dataproc/docs/connectors/install-storage-connector https://cloud.google.com/dataproc/docs/connectors/install-storage-connector效果很好。以下命令

hadoop fs -ls gs://the-bucket-you-want-to-list

给了我预期的结果。但是当我尝试使用 pyspark 读取数据时

rdd = sc.textFile("gs://crawl_tld_bucket/"),

它抛出以下错误:

`

py4j.protocol.Py4JJavaError: An error occurred while calling o20.partitions.
: java.io.IOException: No FileSystem for scheme: gs
    at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2660)
    at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2667)
    at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:94)
`

如何完成?


要访问 Google Cloud Storage,您必须包含 Cloud Storage 连接器:

spark-submit --jars /path/to/gcs/gcs-connector-latest-hadoop2.jar your-pyspark-script.py

or

pyspark --jars /path/to/gcs/gcs-connector-latest-hadoop2.jar
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在spark中读取谷歌存储桶数据 的相关文章

随机推荐