使用 Spark (Python) 和 Dataproc 从 Google Storage 下载文件

2024-04-13

我有一个应用程序可以并行执行 Python 对象，这些对象处理要从 Google Storage（我的项目存储桶）下载的数据。该集群是使用 Google Dataproc 创建的。问题是数据从未被下载！我编写了一个测试程序来尝试理解这个问题。我编写了以下函数来从存储桶中复制文件并查看在工作人员上创建文件是否有效：

from subprocess import call
from os.path import join

def copyDataFromBucket(filename,remoteFolder,localFolder):
  call(["gsutil","-m","cp",join(remoteFolder,filename),localFolder]

def execTouch(filename,localFolder):
  call(["touch",join(localFolder,"touched_"+filename)])

我已经通过从 python shell 调用这个函数来测试它并且它可以工作。但是，当我使用 Spark-submit 运行以下代码时，不会下载文件（但不会引发错误）：

# ...
filesRDD = sc.parallelize(fileList)
filesRDD.foreach(lambda myFile: copyDataFromBucket(myFile,remoteBucketFolder,'/tmp/output')
filesRDD.foreach(lambda myFile: execTouch(myFile,'/tmp/output')
# ...

execTouch 函数有效（我可以看到每个工作进程上的文件），但 copyDataFromBucket 函数什么也不做。

那么我做错了什么？

问题显然出在 Spark 上下文上。通过调用“hadoop fs”替换对“gsutil”的调用可以解决此问题：

from subprocess import call
from os.path import join

def copyDataFromBucket(filename,remoteFolder,localFolder):
  call(["hadoop","fs","-copyToLocal",join(remoteFolder,filename),localFolder]

我还做了一个测试，将数据发送到存储桶。只需要将“-copyToLocal”替换为“-copyFromLocal”

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

googlecloudstorage

googleclouddataproc

使用 Spark (Python) 和 Dataproc 从 Google Storage 下载文件的相关文章

组和平均 NumPy 矩阵

假设我有一个任意的 numpy 矩阵如下所示 arr 6 0 12 0 1 0 7 0 9 0 1 0 8 0 7 0 1 0 4 0 3 0 2 0 6 0 1 0 2 0 2 0 5 0 2 0 9 0 4 0 3 0 2 0 1 0
Python 的 mysqldb 晦涩文档

Python 模块 mysqldb 中有许多转义函数我不理解它们的文档而且我努力查找它们也没有发现任何结果 gt gt gt print mysql escape doc escape obj dict escape any speci
使用 pandas 将字符串对象转换为 int/float

import pandas as pd path1 home supertramp Desktop 100 life 180 data csv mydf pd read csv path1 numcigar Never 0 1 5 Ciga
将一维数组转换为下三角矩阵

我想将一维数组转换为较低的零对角矩阵同时保留所有数字我知道numpy tril函数但它用零替换了一些元素我需要扩展矩阵以包含所有原始数字例如 10 20 40 46 33 14 12 46 52 30 59 18 11 22 30
对于相同的查询，MySQL Workbench 比 Python 快得多

MySQL Workbench 中的以下查询需要 0 156 秒才能完成 SELECT date time minute price id FROM minute prices WHERE contract id 673 AND TIMES
如何在Python代码中查找列号

简短问题当按上述方式调用函数时我可以找到行号here https stackoverflow com questions 3056048 filename and line number of python script 同样如何找到
scikit-learn 和tensorflow 有什么区别？可以一起使用它们吗？

对于这个问题我无法得到满意的答案据我了解 TensorFlow是一个数值计算库经常用于深度学习应用而Scikit learn是一个通用机器学习框架但它们之间的确切区别是什么 TensorFlow 的目的和功能是什么我可以一起使用它
在谷歌云上训练神经网络时出现“无法获取路径的文件系统”错误

我正在使用 Google Cloud 在云上训练神经网络如下例所示 https cloud google com blog big data 2016 12 how to classify images with tensorflow u
Pandas：将 pytz.FixedOffset 应用于系列

我有一个带有timestamp列看起来像这样 0 2020 01 26 05 00 00 08 00 1 2020 01 26 06 00 00 08 00 Name timestamp dtype datetime64 ns pytz F
Jupyter Notebook 中的深色模式绘图 - Python

我正在使用 Jupyter Notebook 目前正在使用 JupyterThemes 的深色日光主题我注意到我的绘图不是处于黑暗模式并且文本仍然是黑色并且在日光照射的背景上无法读取 JupyterThemes 的自述文件建议在 ipy
在seaborn中对箱线图x轴进行排序

我的数据框round data看起来像这样 error username task path 0 0 02 n49vq14uhvy93i5uw33tf7s1ei07vngozrzlsr6q6cnh8w 39 png 1 0 10 n49vq
如何使用 django-pyodbc (ubuntu 16.04) 配置数据库设置 Django-MSSQL？

我是 Django 新手目前正在尝试使用另一个数据库来保存我的模型即MS SQL 我的数据库部署在docker容器中 903876e64b67 microsoft mssql server linux bin sh c opt mssq
如何分析组合的 python 和 c 代码

我有一个由多个 python 脚本组成的应用程序其中一些脚本正在调用 C 代码该应用程序现在的运行速度比以前慢得多因此我想对其进行分析以查看问题所在是否有工具软件包或只是一种分析此类应用程序的方法有一个工具可以将 python
python dicttoxml 多次使用相同的键

我正在尝试做如下所示的 xml
在 scipy 中创建新的发行版

我试图根据我拥有的一些数据创建一个分布然后从该分布中随机抽取这是我所拥有的 from scipy import stats import numpy def getDistribution data kernel stats gauss
Python：无法使用 os.system() 打开文件

我正在编写一个使用该应用程序的 Python 脚本pdftk http www pdflabs com tools pdftk the pdf toolkit 几次来执行某些操作例如我可以在 Windows 命令行 shell 中使用
Pip 无法在 Windows 上安装 Twisted

我正在尝试在 Windows 8 计算机上安装 Twisted 在 Twisted 官方网站上只有一个 Windows 版的 Wheel 文件 https twistedmatrix com trac wiki Downloads htt
Streamlabs API 405 响应代码

我正在尝试使用Streamlabs API https dev streamlabs com Streamlabs API 使用 Oauth2 来创建应用程序因此首先我将使用我的应用程序的用户发送到一个授权链接其中包含我的应用程序的客
如何从 nltk 下载器中删除数据/模型？

我在 python3 NLTK 中安装了一些 NLTK 包通过nltk download 尝试过它们但不需要它们现在想删除它们我怎样才能删除例如包large grammars来自我的 NLTK 安装我不想删除完整的 NLTK 安装
如何使用 Python 3 正确显示倒计时日期

我正在尝试获取将显示的倒计时基本上就像一个世界末日时钟哈哈有人可以帮忙吗 import os import sys import time import datetime def timer endTime datetime datet

随机推荐

调用 getNextException 查看原因：How to make Hibernate / JPA show the DB server message for an exception

我正在使用 Postgresql Hibernate 和 JPA 每当数据库中出现异常时我都会得到类似的信息这不是很有帮助因为它没有显示数据库服务器上真正出了什么问题 Caused by java sql BatchUpdateExc
Java Swing：如何停止不需要的 Shift-Tab 击键操作

当我在 JPanel 中有一个 JTextField 并且它具有焦点时按 tab 不会执行任何操作但按 shift tab 会导致焦点丢失 FocusEvent getOppositeComponent 为 null 如果 JPanel
为 std::string 实现派生复制和移动构造函数？

我正在尝试使用 Embarcaderos clang 32 位编译器编译 VTK 7 0 库但是我最后收到一个链接错误如下所示 56 Linking CXX shared library bin vtkCommonDataModel
如何监控每行 stdout 是 Bash 中最后一个输出行的时间以进行基准测试？

例如假设我有以下脚本 echo a sleep 1 echo b sleep 3 echo c sleep 2 其输出 a b c 当运行该脚本时可能通过管道我想获得类似的信息 1 00 a 3 00 b 2 00 c 因为线a是 s
您可以使用 MacRuby 为 Mac App Store 开发应用程序吗？

我对 Objective C 有一些基本的了解但更喜欢 Ruby 所以我正在考虑使用 MacRuby 是否可以使用 MacRuby 为 Mac App Store 开发应用程序还是必须使用 Objective C 请注意我现在不太关心
具有枚举功能的 Unity UI Onclick 检查器

我有个问题这是我的检查器窗口在 On Click 窗口的情况下我想设置枚举类型的参数不是字符串或整数换句话说我想用无效GoToNext DATA TYPE类型但这并没有显示出来即使我将枚举设置为 SerializedFie
空 div 之间的间隙

我尝试制作这样的 div 网格http jsfiddle net hGadw http jsfiddle net hGadw div div class inner top left nbsp div div class inner top
当列是因子时，R data.table 将“NULL”替换为“NA”

我通过 ODBC 从 SQL 数据库中提取一些数据列自动设置为factor 它类似于以下内容 library RODBC library data table data lt data table sqlQuery channel que
在“grep”结果中包含标头

有没有一种方法可以将 head 1 和 grep 命令组合成一个目录中的所有文件并将输出重定向到输出文件我可以使用 sed 来完成此操作但它似乎不如 grep 快 sed n 1p 6330162 p infile txt gt ou
在没有 ResetEvent 的情况下调用 setEvent

如果使用 setEvent 设置手动重置事件但未使用 ResetEvent 重置会发生什么情况并且该事件被触发多次即当事件被处理时事件再次被设置以下是示例任务 void foo SetEvent hEvent1 void foo1
SWIG 结构指针作为输出参数

我有一个结构 struct some struct s int arg1 int arg2 我有一个 C 函数 int func some struct s output 两者都是 included进入我的 SWIG 文件 I want s
有没有办法在不向 Apple 注册的情况下在 iPod touch 上测试 iPhone 应用程序？

是否有手动方式将 iPhone 应用程序加载到 iPod touch 上是的这确实需要越狱不它不会让你的设备变砖而且确实不能另外只需在 iTunes 中单击一个按钮恢复它就会消失因此它也不会真正使您的保修失效另外如果
如何在 Django 的新选项卡中打开 url？

我必须在新选项卡上使用 render to response 打开结果页面 Django 是服务器端在新选项卡中打开是客户端所以使用一个 a with a target blank 但当然生成新的窗口选项卡对用户来说很烦人所以尽量
将 ListBox 的 SelectedItem 绑定到另一个 ListBox

我有这个模型 class Car string CrewNickname get set L st
在这个 Docopt 示例中类型推导是如何工作的？

使用 docopt 库查看此代码 const USAGE static str something derive Deserialize struct Args flag bool type Result
如何使用 GNU 汇编器 (as) 将汇编文件编译为原始二进制（如 DOS .com）格式？ [复制]

这个问题在这里已经有答案了我想在 Windows 中编译这个源代码这只是一个例子 start NOP NOP 当我使用 NASM 或 FASM 编译它时输出文件长度为 2 个字节但是当我用 GNU 汇编器 as 编译它时输出文件长
增加轴刻度数

我正在为一些数据生成绘图但刻度数太小我需要更多精确关于阅读有没有办法增加 ggplot2 中轴刻度的数量我知道我可以告诉 ggplot 使用向量作为轴刻度但我想要的是增加所有数据的刻度数换句话说我希望根据数据计算刻度数可能
如何使用 OpenSSL.Net C# 包装器通过 AES 加密字符串？

我正在尝试将一些加密数据从我的 SharePoint 网站发送到我公司的 PeopleSoft 网站 PeopleSoft 人员坚持要求我必须使用 OpenSSL 库进行加密我已经从 SourceForge 下载并安装了 OpenSSL
为什么使用嵌套特征会改变 PHP 行为？

使用 PHP 7 2 我有一堂课MyClass使用特质MyFirstTrait 它的定义如下 class MyClass use MyFirstTrait This MyFirstTrait使用另一个特征MySecondTrait 它的定义
使用 Spark (Python) 和 Dataproc 从 Google Storage 下载文件

我有一个应用程序可以并行执行 Python 对象这些对象处理要从 Google Storage 我的项目存储桶下载的数据该集群是使用 Google Dataproc 创建的问题是数据从未被下载我编写了一个测试程序来尝试理解这个问题

使用 Spark (Python) 和 Dataproc 从 Google Storage 下载文件

使用 Spark (Python) 和 Dataproc 从 Google Storage 下载文件 的相关文章

随机推荐

热门标签

使用 Spark (Python) 和 Dataproc 从 Google Storage 下载文件的相关文章