如何使用 pyspark 从 s3 存储桶读取 csv 文件

2024-04-25

我正在使用 Apache Spark 3.1.0 和 Python 3.9.6。我正在尝试从 AWS S3 存储桶读取 csv 文件，如下所示：

spark = SparkSession.builder.getOrCreate()
file = "s3://bucket/file.csv"

c = spark.read\
    .csv(file)\
    .count()

print(c)

但我收到以下错误：

py4j.protocol.Py4JJavaError: An error occurred while calling o26.csv.
: org.apache.hadoop.fs.UnsupportedFileSystemException: No FileSystem for scheme "s3"

我知道我需要添加特殊的库，但我没有找到任何具体的信息以及哪个版本。我尝试将类似的内容添加到我的代码中，但仍然遇到相同的错误：

import os
os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages com.amazonaws:aws-java-sdk:1.7.4,org.apache.hadoop:hadoop-aws:2.7.3 pyspark-shell'

我怎样才能解决这个问题？

你需要使用hadoop-awsSpark 3 的版本 3.2.0。--packages指定hadoop-aws库足以从 S3 读取文件。

--packages org.apache.hadoop:hadoop-aws:3.2.0

您需要设置以下配置。

spark._jsc.hadoopConfiguration().set("fs.s3a.access.key", "<access_key>")
spark._jsc.hadoopConfiguration().set("fs.s3a.secret.key", "<secret_key>")

之后您可以读取 CSV 文件。

spark.read.csv("s3a://bucket/file.csv")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

amazonwebservices

apachespark

amazons3

PySpark

如何使用 pyspark 从 s3 存储桶读取 csv 文件的相关文章

Amazon VPC NACL 默认规则评估顺序

据我了解 NACL 网络访问控制列表就是子网防火墙我试图了解创建 NACL 时的默认值规则 100 默认情况下允许来自所有 IP 的所有端口否则一切都被否定那么底线是是全部允许还是全部拒绝我知道根据 AWS 最佳实践默认
不需要 VPC 运行的 AWS 服务列表

谷歌再次让我失败或者可能是我的问题不太清楚有没有一种简单的方法或者更确切地说我们如何确定哪些服务是 VPC 绑定的哪些服务是非 VPC 的例如 EC2 RDS 需要 VPC 设置 Lambda S3 是公开可用的服务不需要 V
如何使用 Apache Livy 设置 Spark 配置属性？

我不知道在向 Apache Livy 提交 Spark 作业时如何以编程方式传递 SparkSession 参数这是测试 Spark 作业 class Test extends Job Int override def call jc J
如何随机生成文件的链接？

我有一个 PDF 文件我不想通过我网站上的 URL 公开访问该文件作为轻微安全层我想通过电子邮件向用户发送一个唯一的随机生成的 URL 他们可以从中下载 PDF 我将把该 PDF 存储在 AWS 或类似的地方我感觉自己被困在r
使用 PHP 连接到 Amazon RDS

我正在尝试将 RDS 实例与 PHP 连接文件连接这是我的文件中的内容 define DB SERVER localhost define DB USERNAME User Name define DB PASSWORD Password
使用 pyspark 连接 PostgreSQL

我正在尝试使用 pyspark 连接到数据库并且使用以下代码 sqlctx SQLContext sc df sqlctx load url jdbc postgresql hostname database dbtable SELECT
Delta Lake 独立于 Apache Spark？

我一直在探索数据湖屋概念和 Delta Lake 它的一些功能看起来真的很有趣就在项目主页上https delta io https delta io 有一个图表显示 Delta Lake 运行在您现有的数据湖上但没有提及 Spar
来自 Step Function 的跨账户 Lambda 调用

我在帐户 A 中有 Step Function 并且在帐户 B 中有 lambda 但是在运行 step 函数时它给出 An error occurred while executing the state lambdaB entered
S3 Java 客户端经常失败，并出现“内容长度分隔消息正文过早结束”或“java.net.SocketException 套接字已关闭”

我有一个在 S3 上做很多工作的应用程序主要是从中下载文件我看到很多此类错误我想知道这是否是我的代码中的问题或者服务是否真的像这样不可靠我用来从 S3 对象流读取的代码如下 public static final void wri
如何从 PySpark 中某个表中找到的多个表中获取所有数据？

我正在使用 pyspark SQL 我有一个包含三列的表 MAIN TABLE DATABASE NAME TABLE NAME SOURCE TYPE 我想从 DATABASE NAME 和 TABLE NAME 列中的主表下找到的实际数
如何使用列的平均值将列添加到 DataFrame

有没有更好的办法 val mean df select avg date first getDouble 0 df withColumn mean lit mean 我认为避免采取行动是值得的可以使用以下方法避免额外的操作broadcas
AWS SNS 发布到订阅的 Lambda 函数记录空字段

试图将其发布到 AWS 论坛但无论这意味着什么我的帐户似乎尚未准备好我设置了一个 AWS Lambda 函数用 Java 编写该函数接受 POJO 以允许自动反序列化 JSON 我使用的测试 JSON 如下所示表示一旦一切启动
Python Spark DataFrame：用 SparseVector 替换 null

在 Spark 中我有以下名为 df 的数据框其中包含一些空条目 id features1 features2 185 5 0 1 4 0 1 0 null 220 5 0 2 3 0 1 0 10 1 2 6 0 1 225 null
司机下令停车后 Spark 工作人员停下来

基本上主节点也充当从节点之一一旦主服务器上的从服务器完成它就会调用 SparkContext 来停止因此该命令传播到所有从服务器从而在处理过程中停止执行其中一名工作人员登录时出错信息 SparkHadoopMapRedUtil
如何更改 SparkContext.sparkUser() 设置（在 pyspark 中）？

我是新来的Spark and pyspark 我使用 pyspark 之后我rdd处理中我试图将其保存到hdfs使用saveAsTextfile 功能但我得到一个没有权限错误消息因为 pyspark 尝试写入hdfs使用我的本地帐
Amazon S3 适合提供视频吗？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我正在开发一个网站其主要功能是播放视频通常是一个接一个地播放视频将 MP4 和 WebM 文件存储在 Amazon S3 上然后使用 HTML
如何从 docker-compose 链接到 Amazon RDS

我的 docker compose yml 看起来像这样 django build user django links LINK TO AMAZON RDS command gunicorn sh env file config setti
最近的 AWS 区域的客户端 IP 地址

Question 我想从客户端设备将一些数据上传到 AWS 但我想上传到最近的 AWS 区域的 S3 存储桶同样我希望能够从最近的区域下载当然我会在每个区域设置一个存储桶我可以使用一个系统它可以获取客户端的 IP 地址然后确定
Dockerfile 从 amazon s3 或其他需要凭据的源复制文件

我正在尝试构建 Docker 映像并且需要将一些文件从 S3 复制到该映像我正在使用的 Dockerfile 内部 Dockerfile FROM library ubuntu 16 04 ENV LANG C UTF 8 LC ALL
具有维度的 Amazon Web Service CloudWatch 自定义指标

我正在尝试将数据推送到 AWS CloudWatch 上的自定义指标但想了解有关维度的更多信息以及如何使用它们我已经阅读了 AWS 文档但它并没有真正解释它们的用途以及它如何影响 AWS 管理控制台中的图形 UI 维度是进一步细分指标

随机推荐

Python 脚本未在 cron 中运行

我正在尝试从 cron 运行 Python 脚本我使用 crontab 以用户身份而不是 root 身份运行命令我的 Python 脚本的 shebang 位于顶部 usr bin env python我做到了chmod x它使脚本可执
发生未知错误：用户在 Xcode 13.3 上拒绝了 github.com (-17) 的证书

我遇到了这个奇怪的错误每次我尝试将本地 git 存储库推送到 Github 时这个错误都会让我烦恼希望有人能帮我解决这个奇怪的事情我的工作环境 Xcode 13 3 就我而言网络调试代理导致了这个问题看来 Xcode 固定了 g
为什么 IE 不解析从 WCF 数据服务返回的 XML？

我目前正在运行 IE8 并正在使用 WCF 数据服务进行一些测试当我在浏览器中调用我的一个集合时我得到您正在查看的提要包含经常更新的内容消息并且不会显示任何 XML 因为它不能理解 Atom 内容元素不过我可以轻松地在 Chr
将多个工作表导入到 R 中的多个数据框中

我有一个包含很多工作表的 Excel 文件我需要一个代码来将每个工作表导入到单独的数据框中该数据框架的命名方式与 Excel 中的工作表名称相同例如选项卡 A B C 将分别作为数据框 A B 和 C 导入从其他线程中我看到了这
无法从“int *”转换为“int []”？

我知道这可能是一个常见问题但我尝试搜索但仍然找不到明确的答案我有以下代码 int f int a 1 2 3 return a int main int a f Error here getch return 0 此代码产生错误消息 C
无法在后台任务中调用 Task.Run()

我想在后台任务的线程中做一些事情所以我尝试使用 Task Run 但它不起作用任何人都可以向我展示另一种在后台任务中创建线程的方法这是我的代码 public sealed class KatzBackgroundTask IBackg
无法将属性与数字进行比较。错误：“‘AnsibleUnsafeText’和‘int’实例之间不支持”

getent database passwd debug var getent passwd dict2items selectattr value 1 gt 1000 map attribute key list 输出是 TASK deb
Fortran 03/08（gfortran 编译器）中使用无限多态类型进行数组操作

我想通过以下方式实现有用的数组操作添加元素删除元素通过可分配指针二叉树结构实现不同的实现 class 特征无限多态性我使用 gfortran 5 0 应该可以处理这样的功能我需要它以免为我使用的每种类型重复相同的代码这应
如何在 Django 中创建 unique_for_field slug？

姜戈有一个日期唯一 http docs djangoproject com en dev ref models fields unique for date您可以在将 SlugField 添加到模型时设置的属性这会导致 slug 仅对于您
像在eclipse中一样关闭intellij idea中未使用的模块

据我所知目前 intellij idea 中没有任何功能可以做到这一点我不知道为什么但他们不支持这样做至少这是我通过所有研究发现的结果也许我们中的一些人用不同的方式来解决这个问题如何在 intellij 中使用多个模块在处理多
如何从 USB 加载 LUKS 密码，然后返回键盘？

我想设置一台具有全磁盘加密功能的无头 Linux Debian Wheezy PC 能够使用 USB 驱动器或通过键盘输入密码来解锁磁盘我的起点是使用 Debian 安装程序中基本的整个磁盘加密选项进行全新安装该安装程序将 boot 之
如何在 Square MockWebServer 中使用 SSL？

我尝试启用 SSLSquare 的 MockWebServer https github com square okhttp tree master mockwebserver在测试下模拟我的 Android 应用程序中的所有 Web 服务
如何使用 PowerShell 递归合并/“展平”文件夹结构

我正在寻求帮助来重组许多子文件夹中的大量文件示例来源 folderX aaa txt bbb txt folderY ccc txt folderZ ddd txt eee txt 理想结果 folderX aaa txt folderX
自上一步以来进程或线程已更改

我正在 Visual Studio 上调试一些代码此代码属于我创建的自定义会话提供程序我正在 Web 应用程序启动时对其进行调试它开始初始化我的提供程序并且在该函数上我有一个第一次成功命中的断点但是同一断点再次被击中但它有一个
带有自定义离线页面的 Angular PWA

在 Angular 8 应用程序中我想添加一个自定义离线页面只是一个简单的 html 文件我已将我的应用程序设置为 PWA 使用 angular pwa并配置了一切以便它至少在在线时顺利工作然而我很难为 PWA 用户提供更新因
unsafePerformIO 和 FFI 库初始化

我正在为 C 中的库创建一个 FFI 模块该模块希望在执行其他操作之前调用一个一次性不可重入的函数这个调用是幂等的但是有状态的所以我可以在每个 Haskell 调用中调用它但它很慢并且由于不可重入可能会导致冲突那么现在是使
允许用户在 Android 应用程序中插入图像

我的问题是如何创建 imageButton 允许用户从手机上传图像并将其作为图片配置文件插入应用程序中例如像 Whatsapp 一样它允许用户从手机中选择图像并将其设置为图片配置文件 Thanks 我的 XML 文件
为什么 Func 与 Func> 不明确？

这个问题让我很困惑所以我想我会在这里问希望 C 大师可以向我解释一下为什么这段代码会产生错误 class Program static void Main string args Foo X the error is on this
Laravel 5.3 存储和读取文件目录

目前正在尝试处理文件但很难弄清楚将它们放在哪里以及如何在列表中读回它们我尝试过将一些测试文件放入 files array dir opendir asset files open the cwd also do an err check
如何使用 pyspark 从 s3 存储桶读取 csv 文件

我正在使用 Apache Spark 3 1 0 和 Python 3 9 6 我正在尝试从 AWS S3 存储桶读取 csv 文件如下所示 spark SparkSession builder getOrCreate file s3 b

如何使用 pyspark 从 s3 存储桶读取 csv 文件

如何使用 pyspark 从 s3 存储桶读取 csv 文件 的相关文章

随机推荐

热门标签

如何使用 pyspark 从 s3 存储桶读取 csv 文件的相关文章