原生安装 PySpark 也支持 S3 访问

2024-01-03

我想从 PySpark 读取存储在 S3 上的 Parquet 数据。

我从这里下载了 Spark：

http://www.apache.org/dist/spark/spark-2.1.0/spark-2.1.0-bin-hadoop2.7.tgz

并天真地安装到Python

cd python
python setup.py install

这似乎运行良好，我可以导入 pyspark，创建 SparkContext 等。但是，当我去阅读一些可公开访问的镶木地板数据时，我得到以下信息：

import pyspark
sc = pyspark.SparkContext('local[4]')
sql = pyspark.SQLContext(sc)
df = sql.read.parquet('s3://bucket-name/mydata.parquet')

我收到以下异常

Py4JJavaError: An error occurred while calling o55.parquet.
: java.io.IOException: No FileSystem for scheme: s3
    at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2660)
    at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2667)
    at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:94)
    at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2703)
    at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2685)
    at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:373)
    at org.apache.hadoop.fs.Path.getFileSystem(Path.java:295)
    at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$14.apply(DataSource.scala:372)
    at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$14.apply(DataSource.scala:370)
    at scala.collection.TraversableLike$$anonfun$flatMap$1.apply(TraversableLike.scala:241)
    at scala.collection.TraversableLike$$anonfun$flatMap$1.apply(TraversableLike.scala:241)
    at scala.collection.immutable.List.foreach(List.scala:381)
    at scala.collection.TraversableLike$class.flatMap(TraversableLike.scala:241)
    at scala.collection.immutable.List.flatMap(List.scala:344)
    at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:370)
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:152)
    at org.apache.spark.sql.DataFrameReader.parquet(DataFrameReader.scala:441)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244)
    at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357)
    at py4j.Gateway.invoke(Gateway.java:280)
    at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
    at py4j.commands.CallCommand.execute(CallCommand.java:79)
    at py4j.GatewayConnection.run(GatewayConnection.java:214)
    at java.lang.Thread.run(Thread.java:745)

这个错误是从谷歌搜索中弹出的。到目前为止，所提供的解决方案都没有帮助。

我在一台个人计算机上使用Linux（Ubuntu 16.04），没有安装太多其他东西（一切都很简单）。

Update

我降级到http://www.apache.org/dist/spark/spark-2.1.0/spark-2.1.0-bin-hadoop2.4.tgz http://www.apache.org/dist/spark/spark-2.1.0/spark-2.1.0-bin-hadoop2.4.tgz默认情况下包含 AWS。

不幸的是，现在我的 AWS 凭证没有被获取。我尝试过一些事情：

将它们作为 SparkConf 参数包含在内

conf = (pyspark.SparkConf()
               .set('fs.s3.awsAccessKeyId', ...')
               .set('fs.s3.awsSecretAccessKey', '...'))
sc = pyspark.SparkContext('local[4]', conf=conf)

将它们包含在我的本地 .aws/credentials 文件中
将它们包含在 URL 中（不起作用，因为我的访问密钥有一个正斜杠）

不幸的是，在所有情况下我都会收到如下回溯

IllegalArgumentException: 'AWS Access Key ID and Secret Access Key must be specified as the username or password (respectively) of a s3 URL, or by setting the fs.s3.awsAccessKeyId or fs.s3.awsSecretAccessKey properties (respectively).'

使用预构建的 Spark 2.X 二进制文件的 Hadoop-2.4 版本（我相信它附带 s3 功能），您可以通过编程方式配置 Spark 以通过以下方式提取 s3 数据：

import pyspark
conf = pyspark.SparkConf()

sc = pyspark.SparkContext('local[4]', conf=conf)
sc._jsc.hadoopConfiguration().set("fs.s3n.awsAccessKeyId", "")
sc._jsc.hadoopConfiguration().set("fs.s3n.awsSecretAccessKey", "")

sql = pyspark.SQLContext(sc)
df = sql.read.parquet('s3n://bucket-name/mydata.parquet')

需要注意的关键一点是前缀s3n在存储桶的 URI 和配置名称中

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

amazonwebservices

apachespark

amazons3

PySpark

原生安装 PySpark 也支持 S3 访问的相关文章

需要根据数据框中的行号应用不同的公式

我正在努力在数据框中找到某种移动平均值该公式将根据正在计算的行数而变化实际场景是我需要计算Z列 Edit 2 以下是我正在使用的实际数据 Date Open High Low Close 0 01 01 2018 1763 95 176
按每个元素中出现的数字对字符串列表进行排序[重复]

这个问题在这里已经有答案了我有一个脚本其目的是对不断下载到服务器上的空间数据集文件进行排序和处理我的列表目前大致如下 list file t00Z wrff02 grib2 file t00Z wrff03 grib2 file t0
学习Python中的解析器

我记得我读过有关解析器的内容您只需提供一些示例行它就知道如何解析某些文本它只是确定两条线之间的差异以了解可变部分是什么我以为它是用 python 写的但我不确定有谁知道那是什么图书馆吗可能你的意思是模板制作器 http co
在 Python 中延迟转置列表

所以我有一个延迟生成的可迭代的三元组我试图弄清楚如何将其转换为 3 个可迭代对象分别由元组的第一个第二个和第三个元素组成然而我希望这件事能懒惰地完成所以举例来说我希望 1 2 3 4 5 6 7 8 9 将变成 1 4 7
如何在Python + Selenium中获取元素的值

我在我的 Python 3 6 3 代码中得到了这个 HTML 元素作为 Selenium网页元素当然 span class ocenaCzastkowa masterTooltip style color 000000 alt 5 sp
我可以同时打开两个 Tkinter Windows 吗？

可以同时打开2个窗口吗 import tkinter as Tk import random import math root Tk Tk canvas Tk Canvas root background image Tk PhotoIma
Discord.py 斜线命令在 cogs 中不起作用

我正在构建一个不和谐的机器人并且想要在 cogs 内使用斜杠命令但这些命令不显示或工作这是代码 cog guild ids 858573429787066368 861507832934563851 class Slash comma
NumPy 数组与 SQLite

我在 Python 中见过的最常见的 SQLite 接口是sqlite3 但是有什么东西可以很好地与 NumPy 数组或 rearray 配合使用吗我的意思是它可以识别数据类型不需要逐行插入并提取到 NumPy rec 数组中有点
在多核上运行 python 线程

我知道Python 2 7不允许在不同的内核上运行多个线程你需要使用multiprocessing模块以实现某种程度的并发性我正在看concurrent futuresPython 3 4 中的模块是否使用ThreadPoolExec
lmfit模型拟合然后预测

我正在领养lmfit进行曲线拟合并使用拟合模型进行预测然而下面的代码并没有达到我想要的效果能否请你帮忙谢谢 import numpy as np from lmfit import Model def linearModel x a0
cxfreeze virtualenv 中缺少 distutils 模块

从 python3 2 项目运行 cxfreeze 二进制文件时我收到以下运行时错误 project dist project distutils init py 13 UserWarning The virtualenv distuti
matplotlib：渲染到缓冲区/访问像素数据

我想使用 matplotlib 生成的图作为 OpenGL 中的纹理到目前为止我遇到的 matplotlib 的 OpenGL 后端要么不成熟要么已经停止使用所以我想避免使用它们我当前的方法是将图形保存到临时 png 文件中并从
右键单击 QPushButton 上的 contextMenu

对于我的应用程序我在 Qt Designer 中创建了一个 GUI 并将其转换为 python 2 6 代码关于一些QPushButton 与设计器创建我想添加右键单击上下文菜单菜单选项取决于应用程序状态如何实现这样的上下文菜单
matplotlib vlines 图中未应用 y 轴的最小值

我正在 matplotlib 中绘制 vlines 图数据集中的所有 y 值如下 gt 0 我希望 y 轴最底部的刻度能够读取0 但相反我得到 500 这是代码 usr bin env python import numpy as np
“KMeans”对象没有属性“k”

我使用 Yellowbrick 包绘制数据集的肘部曲线以使用 KMeans 作为模型找到数据集的最佳簇数我正在使用 Scikit learn KMeans 和 Yellowbrick kelbowvisualizer 函数生成了肘部曲
Django 1.7：如何使用 html/css 文件作为模板发送电子邮件

从 Django 1 7 开始可以send email 使用新参数 html message 不幸的是没有关于如何使用它的全面指南新手友好或者至少我找不到它我需要使发送的电子邮件变得漂亮因此我试图弄清楚如何将我的消息包含到 h
列表中的特定范围（python）

我有一个从文本字符串中提取的整数列表因此当我打印该列表我称之为test I get 135 2256 1984 3985 1991 1023 1999 我想打印或制作一个仅包含特定范围内的数字的新列表例如1000 2000之间我尝试
在Python中随机交错2个数组

假设我有两个数组 a 1 2 3 4 b 5 6 7 8 9 我想将这两个数组交错为变量 c 注意 a 和 b 不一定具有相同的长度但我不希望它们以确定性的方式交错简而言之仅仅压缩这两个数组是不够的我不想要 c 1 5 2 6 3
解析整数集的字符串并列出间隔

I have 2 5 7 9 12 string 我想从中获取 2 5 7 8 9 12 列表 python中有没有内置的函数 Thanks UPD 我想直接的答案是No 不管怎样谢谢你的片段使用一个建议者斯文马尔纳克 s 2
Django 中使用外键的抽象基类继承

我正在尝试在 Django 支持的网站上进行模型继承以遵守 DRY 我的目标是使用一个名为 BasicCompany 的抽象基类来为三个子类提供通用信息 Butcher Baker CandlestickMaker 它们位于各自的应用程序

随机推荐

无法在 Windows 2012 上运行 Sonatype Nexus Repository Manager 3.0

我无法启动 Sonatype Nexus Repository Manager 3 0 0 Milestone 7 Release nexus 3 0 0 b2016011501 解压 Windows 存档后然后 nexus exe 运行
错误没有合适的默认构造函数可用

我正在实现一个带有节点和迭代器的列表类它创建一个类型为 Ticket 的列表这是我在类中定义的一个对象但是当我尝试编译时它说 List 没有默认构造函数因为显然有是有人看到这里的问题吗这是类的定义 class List pub
删除CSS中的水平滚动条

我在我的网页上使用类似 facebook 的按钮我需要它在页面的右侧对齐但有一个水平滚动条显示请看小提琴http jsfiddle net u4kMs http jsfiddle net u4kMs 我无法找出是什么原因造成的如何解
android - android studio 模拟器中的 SSL 问题，在手机上运行良好

我有一个通过 https 调用 Web 服务的应用程序当我在手机上运行该 apk 时效果很好然而在模拟器中所有POST请求超过SSL失败读取错误 ssl 0xb402be00 SSL 库失败通常是协议错误错误 100c50
无法在 Eclipse 中使用 Acceleo 从 UML 生成 java

我是 Eclipse 和 Acceleo 的新手我一直在尝试完成第一个生成器模型教程我正在使用 Kepler 4 3 和 Acceleo 3 X 我正在关注从 uml 生成 java 代码的教程链接是http wiki eclipse
如何从 Android 应用程序内的 Web 视图禁用复制、粘贴和选择工具栏

如何从 Android 应用程序内的 Web 视图中禁用复制粘贴和选择工具栏我正在制作一个应用程序它实际上是 webview 一个在 Javascript 和 Jquery 上工作的网站所以我想知道是否可以禁用复制粘贴工具栏禁用
在 NavigatorIOS 中调用 onRightButtonPress 的函数 - React Native

我在反应本机 NavigatorIOS 中使用 onRightButton 我希望能够调用驻留在我正在推送的组件中的函数但我不知道如何实现这一点这是代码示例 this props navigator push component Sin
如何使用 scala 比较 Spark 中的一行与所有其他行

我的一列中有超过 100K 个名字我需要比较它们中的每一个以确定它们是否相同 D souza D souza 或几乎相同 D souza Dsouza 我尝试将 cassandra 表读入 RDD 并对其自身进行笛卡尔乘积以形成元组但
生成带有阿拉伯字体的 PDF

我想在React中下载带有阿拉伯字体的pdf文件但没有找到任何解决方案我目前正在使用 jsPdf 但它无法正确渲染阿拉伯字体 let doc new PDFDocument let doc new pdf doc setFontSize
使用 Matplotlib 在绘图上叠加旋转图像

我目前已经使用矩形补丁构建了一个绘图来显示位置序列编辑用于生成此代码的代码基于 RLPy 库构建 def visualize trajectory self trajectory 0 0 0 0 0 1 0 1 0 0 domain
“-webkit-transform:scale(2)”不会影响 Facebook Like 按钮的点击区域（在 iPad 上）

我已经改变了 iframe 的大小 iframe transform scale 2 important webkit transform scale 2 important transform origin top left webkit
Maven Chronos JMeter 插件

有谁用过吗Chronos http mojo codehaus org chronos maven plugin index html用于 JMeter Maven 插件我在尝试 Maven JMeter 插件时遇到了困难并考虑尝试一下
iPhone 中图像的直方图

我正在寻找一种在 iPhone 上获取图像直方图的方法 OpenCV 库太大无法包含在我的应用程序中 OpenCV 编译后大约有 70MB 但我可以使用 OpenGL 但是我不知道如何执行其中任何一个我已经找到了如何获取图像的像素但
django 中的哪个函数创建 HttpRequest 实例并传递给视图？

我试图了解 django 的本质但我找不到任何关于这方面的好的教程我知道 django 视图在调用时接收 HttpRequest 实例作为参数之一我想知道 django 内部的哪个函数接收来自浏览器的请求创建 HttpRequest
在 flutter ios 项目中进行干净构建后，XCode CLANG_WARN_QUOTED_INCLUDE_IN_FRAMEWORK_HEADER 标志不断重置

我正在为云构建 AppCenter 设置我的 flutter ios 应用程序并且我的 xcode 配置遇到了问题在本地构建时我曾经在 Xcode 中设置链接器标志以防止常见的双引号包含错误显然是一个已知的 cocoapod 问
如何提高UIWebView的滚动性能？

提高 UIWebView 的性能似乎真的很难特别是对于像 Mashable 或 Ars Technica 这样的网站这些网站会加载大量的脚本而且长篇多页的文章很常见我知道 3 个类似的问题但它们都没有可行的解决方案 UIWebVi
什么是“补码”？

我正在学习计算机系统课程并且已经挣扎部分地与二进制补码 http en wikipedia org wiki Two 27s complement 我想理解它但我读过的所有内容都没有为我提供完整的图片我读过维基百科文章 http e
ElasticSearch 分组并分发到存储桶

我对 elasticsearch 很陌生但似乎没有简单的方法来创建聚合并将 doc count 分配到存储桶中一旦先前的聚合完成例如我有以下数据集我想创建 4 个存储桶和组配置文件这些配置文件在存储桶之间具有特定数量的事务配置
图片 - 上传没有响应，无法访问 $_FILES

这是我的文件上传脚本我收到以下错误 Notice Undefined index fupload in C Users Tuskar Desktop Projekt htdocs Project IT Space Profile edit
原生安装 PySpark 也支持 S3 访问

我想从 PySpark 读取存储在 S3 上的 Parquet 数据我从这里下载了 Spark http www apache org dist spark spark 2 1 0 spark 2 1 0 bin hadoop2 7 tg

原生安装 PySpark 也支持 S3 访问

Update

原生安装 PySpark 也支持 S3 访问 的相关文章

随机推荐

热门标签

原生安装 PySpark 也支持 S3 访问的相关文章