在spark中读取谷歌存储桶数据

2024-04-15

我已经按照这个博客读取了谷歌存储桶中存储的数据。https://cloud.google.com/dataproc/docs/connectors/install-storage-connector https://cloud.google.com/dataproc/docs/connectors/install-storage-connector效果很好。以下命令

hadoop fs -ls gs://the-bucket-you-want-to-list

给了我预期的结果。但是当我尝试使用 pyspark 读取数据时

rdd = sc.textFile("gs://crawl_tld_bucket/"),

它抛出以下错误：

py4j.protocol.Py4JJavaError: An error occurred while calling o20.partitions.
: java.io.IOException: No FileSystem for scheme: gs
    at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2660)
    at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2667)
    at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:94)
`

如何完成？

要访问 Google Cloud Storage，您必须包含 Cloud Storage 连接器：

spark-submit --jars /path/to/gcs/gcs-connector-latest-hadoop2.jar your-pyspark-script.py

pyspark --jars /path/to/gcs/gcs-connector-latest-hadoop2.jar

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PySpark

googlecloudplatform

googlecloudstorage

在spark中读取谷歌存储桶数据的相关文章

错误：从列表创建 Spark 数据帧时 TimestampType 无法接受对象

我正在尝试从以下列表创建一个数据框 data 1 abc 2020 08 20 10 00 00 I 1 abc 2020 08 20 10 01 00 U 1 abc 2020 08 21 10 02 00 U 2 pqr 2020 08
如何让 list_blobs 表现得像 gsutil

我只想获得 GCS 上假文件夹结构的第一级如果我运行例如 gsutil ls gs gcp public data sentinel 2 tiles 我得到一个这样的列表 gs gcp public data sentinel 2 til
在 Spark-submit 上的 _find_and_load 中获取文件“”，第 991 行

我目前使用的是Python 3 7 9 spark spark 2 4 6 bin hadoop2 6 在这个项目 venv 中我的设置为 kafka python 2 0 2 pip 21 2 4 py4j 0 10 9 pyspark
Google Cloud Platform：将上传的 MP4 文件转换为 HLS 文件

我正在构建一个平台允许用户将一些视频文件 20 40 秒从手机上传到服务器所有这些上传目前都运行良好文件通过nodejs云功能存储在谷歌存储桶中现在我想创建一个 gcp 转码器作业它将上传的 mp4 视频文件转换为 hls 视频
如何更改 SparkContext.sparkUser() 设置（在 pyspark 中）？

我是新来的Spark and pyspark 我使用 pyspark 之后我rdd处理中我试图将其保存到hdfs使用saveAsTextfile 功能但我得到一个没有权限错误消息因为 pyspark 尝试写入hdfs使用我的本地帐
Google App Engine - 破坏服务 URL 缓存

我终于设法让图像在 App Engine 上正确旋转现在我正在努力绕过缓存的图像而标准缓存清除技术不起作用因此第一次旋转图像时我得到了一个不同的 URL 并且图像被旋转第二次旋转它时我得到相同的 URL 只有在附加 s300
Dialogflow Google Assistant Alpha 版本始终失败，并显示以下消息：“For en：您的示例发音结构不正确。”

Google Assistant Alpha 版本无法正常工作它总是显示消息对于 en 您的示例发音结构不正确当您在操作发布后对其进行重命名时就会发生这种情况转到部署 gt 目录信息 gt 其他调用短语并将调用短语替换为更新的操
为什么 PySpark 中的 agg() 一次只能汇总 DataFrame 的一列？ [复制]

这个问题在这里已经有答案了对于下面的数据框 df spark createDataFrame data Alice 4 300 Bob 7 677 schema name High 当我尝试找到最小值和最大值时我只得到输出中的最小值 d
如何更改谷歌云数据存储类型名称？

我们正在使用google cloud datastore存储数据不幸的是最初没有遵循命名约定kinds现在我们想要改变数据存储中已存在的种类的名称我们已经积累了大量的数据并且生成这些数据涉及大量的计算因此仅仅为了重命名一种类型而再次
计算一次 GroupBy，然后将其传递给 Google DataFlow (Python SDK) 中的多个转换

我正在使用适用于 Apache Beam 的 Python SDK 在 Google DataFlow 上运行特征提取管道我需要运行多个转换所有这些转换都希望项目按键分组基于这个答案question https stackoverfl
获取 Google Cloud 服务帐户的开发者密钥

我已经启用了XML API https cloud google com storage docs interoperability并分配了一些开发者密钥 https cloud google com storage docs migrat
firebase批量更新和onWrite触发同步

我在同步两个 Firebase 云函数时遇到问题第一个函数对多个文档执行批量更新第二个函数由onWrite触发这些文档之一为了便于说明假设我有两个文档A and B 在两个单独的集合中第一个云功能更新两个文档A and B有消防库
如何将多行标签 xml 文件转换为 dataframe

我有一个包含多个行标签的 xml 文件我需要将此 xml 转换为正确的数据帧我使用了spark xml 它只处理单行标签 xml数据如下
Spark (Python) 中的 Kolmogorov Smirnov 测试不起作用？

我正在 Python Spark ml 中进行正态性测试看到了我的结果think是一个错误这是设置我有一个标准化的数据集范围 1 到 1 当我做直方图时我可以清楚地看到数据不正常 gt gt gt prices norm hist
通过过滤对 Pyspark Dataframe 进行分组

我有一个数据框如下 cust id req req met 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 我必须观察客户看看他们有多少要求看看
PySpark：如何将带逗号的列指定为小数

我正在使用 PySpark 并加载csv文件我有一列包含欧洲格式的数字这意味着逗号替换点反之亦然例如我有2 416 67代替2 416 67 My data in csv file looks like this ID Reven
如何在 Databricks 中使用 OPTIMIZE ZORDER BY

我有两个数据框来自三角洲湖表它们通过 id 列进行左连接 sd1 sd2 sql select a columnA b columnB from sd1 a left outer join sd2 b on a id b id 问题是我
计算 pyspark df 列中子字符串列表的出现次数

我想计算子字符串列表的出现次数并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
GCP BigQuery如何通过python api设置表的到期日期

我正在使用 BigQuery Python API 创建表并且想为该表设置一个到期日期以便该表会在特定天数后自动删除这是我的代码 client bq Client job config bq QueryJobConfig datase
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0

随机推荐

sequelize Model.hasOne 错误：模型未与 ModelTwo 关联

我已将sequelizejs 集成到我的express 框架中我配置了所有模型并尝试用它构建我的第一个查询我不断收到错误错误模型未与 ModelTwo 关联 app get function req res db Member f
错误“无法加载 Boto 的 S3 绑定。”

我遵循了提供的非常简洁的指南Django 存储 http django storages readthedocs org en latest backends amazon S3 html 从本地文件存储转换并遇到了此异常无法加载 Bo
空查询时的最大返回值

我有这样的疑问 int maxShoeSize Workers Where x gt x CompanyId 8 Max x gt x ShoeSize 将会有什么maxShoeSize如果8号公司根本没有工人呢 UPDATE 如何更改查询
格式 xml，漂亮的打印

我知道有两种漂亮打印或格式化 xml 的方法外壳工具 http www shell tools net 技巧 38 使用通用身份样式表和 Xalan 漂亮打印 XML http etutorials org XML xml hacks
以函数作为模板参数的部分特化拒绝

得到了这段代码该代码可以与以前版本的 gcc 一起编译良好 template
有没有办法获取历史 YouTube 订阅者信息？

目前我正在通过以下请求检索每日订阅者信息 var videoOptions part snippet contentDetails statistics id videoIds Send request youtube videos li
Jquery UI 结合了可排序和可拖动

我正在尝试组合一个可拖动面板顶部和一个可排序面板底部拖动工作正常但排序失败这是我的 JS 小提琴 http jsfiddle net dmUKY 9 http jsfiddle net dmUKY 9 拖放和排序功能共享drop
Objective C 中的继承问题

我创建了一个 SDMutableGrid 类以便我可以使用网格它只是 NSMutableArray 的子级其中包含的数组数等于网格中的行数目前程序在真正启动之前就退出了似乎是因为为 NSMutableArray 定义的方法在某种
通过控制台应用程序连接到 Oracle，不能通过 Web 服务连接

我无法通过 asmx Web 服务连接到 Oracle 模式而可以通过控制台应用程序 x86 连接到 Oracle 模式代码 var conn new OracleConnection Data Source xe User ID my
将多个值插入隐藏字段

我有一个选择列表您可以在其中选择多个城市选择城市时我想将邮政编码添加到隐藏字段我现在的解决方案将值插入到隐藏字段但是当 fx 时它会覆盖该值单击一个新城市它应该只附加到值中例如 value value1 value2 va
为 Flask 应用提供服务是否需要 WSGI 服务器和 HTTP 服务器？

使用 uWSGI 和 Nginx 设置 Flask 可能很困难我尝试以下这个 DigitalOcean 教程 https www digitalocean com community tutorials how to serve flas
ASP.Net WebApi STA 模式

This post http weblog west wind com posts 2012 Sep 18 Creating STA COM compatible ASPNET Applications使 WebApi 无法在 STA 模式
使用 Java 8 谓词的 JPA 存储库过滤器

我在使用 Spring Boot 的一次面试测试中有一个要求我必须创建一个端点该端点接受一堆可选请求参数然后根据这些参数如汽车型号车牌发动机类型制造商返回汽车列表司机租赁公司等汽车司机和制造商都是独立的实体我在 J
如何在保留原始数据帧的同时获得组级别的统计数据？

我有以下数据框 one lt c one NA NA NA NA two NA NA group1 lt c A A A A B B B B group2 lt c C C C D E E F F df data frame one gro
共享首选项中的 MODE_PRIVATE 错误

我使用这段代码作为 BroadcastReceiver 但它说 MODE PRIVATE 无法解析为变量broadcastreceiver public class anyNewService extends BroadcastReceiv
使用 moviepy 对 matplotlib 图形进行动画处理很困难

我必须制作大量 90 000 人物的动画作为上下文它绘制了 1700 年至 1950 年间每一天的地图并在相关日期标记了感兴趣的事件我可以使用以下方法来做到这一点matplotlib animation FuncAnimation
处理 Django REST Framework 中不同级别的嵌套

例如如果您采用模型 class Region models Model id models AutoField primary key True name models CharField max length 256 class Com
使用 Ninject 2.2 更改默认对象范围

是否可以更改 Ninject 2 2 中的默认对象范围如果是这样是如何完成的据我所知你可以覆盖AddBinding on the BindingRoot StandardKernel or NinjectModule 并修改Scope
帖子中的 req.body 为空

突然之间我的所有项目都发生了这种情况每当我使用express和body parser在nodejs中发帖时req body是一个空对象 var express require express var bodyParser require
在spark中读取谷歌存储桶数据

我已经按照这个博客读取了谷歌存储桶中存储的数据 https cloud google com dataproc docs connectors install storage connector https cloud google com

在spark中读取谷歌存储桶数据

在spark中读取谷歌存储桶数据 的相关文章

随机推荐

热门标签

在spark中读取谷歌存储桶数据的相关文章