如何在R中使用sparklyr读取S3文件夹/存储桶中的所有文件？

2024-01-06

我已经尝试了下面的代码及其组合，以便读取 S3 文件夹中给出的所有文件，但似乎没有任何效果。敏感信息/代码已从下面的脚本中删除。有 6 个文件，每个文件 6.5 GB。

#Spark Connection
sc<-spark_connect(master = "local" , config=config)


rd_1<-spark_read_csv(sc,name = "Retail_1",path = "s3a://mybucket/xyzabc/Retail_Industry/*/*",header = F,delimiter = "|")


# This is the S3 bucket/folder for files [One of the file names Industry_Raw_Data_000]
s3://mybucket/xyzabc/Retail_Industry/Industry_Raw_Data_000

这是我得到的错误

Error: org.apache.spark.sql.AnalysisException: Path does not exist: s3a://mybucket/xyzabc/Retail_Industry/*/*;
at org.apache.spark.sql.execution.datasources.DataSource$.org$apache$spark$sql$execution$datasources$DataSource$$checkAndGlobPathIfNecessary(DataSource.scala:710)

经过几周的谷歌搜索后，这个问题得到了解决。在这里，解决方案..

Sys.setenv(AWS_ACCESS_KEY_ID="abc") 
Sys.setenv(AWS_SECRET_ACCESS_KEY="xyz")

config<-spark_config()

config$sparklyr.defaultPackages <- c(
"com.databricks:spark-csv_2.10:1.5.0",
"com.amazonaws:aws-java-sdk-pom:1.10.34",
"org.apache.hadoop:hadoop-aws:2.7.3")



#Spark Connection
sc<-spark_connect(master = "local" , config=config)

# hadoop configurations
ctx <- spark_context(sc)
jsc <- invoke_static( sc,
"org.apache.spark.api.java.JavaSparkContext",
"fromSparkContext",
ctx
)

hconf <- jsc %>% invoke("hadoopConfiguration")  
hconf %>% invoke("set", "com.amazonaws.services.s3a.enableV4", "true")
hconf %>% invoke("set", "fs.s3a.fast.upload", "true")

folder_files<-"s3a://mybucket/abc/xyz"

rd_11<-spark_read_csv(sc,name = "Retail",path=folder_files,infer_schema = TRUE,header = F,delimiter = "|")


spark_disconnect(sc)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

apachespark

amazons3

RStudio

sparklyr

如何在R中使用sparklyr读取S3文件夹/存储桶中的所有文件？的相关文章

R data.table 多个条件连接

我设计了一种解决方案用于从两个单独数据表的多个列中查找值并添加基于新列的值计算多个条件比较代码如下它涉及在计算两个表中的值时使用 data table 和联接但是这些表没有联接在我正在比较的列上因此我怀疑我可能无法获得 da
如何总结此R问题中的销售数量、售出酒类数量和花费金额

我使用以下代码在 R 上上传我的数据 if file exists ames liquor rds url lt https github com ds202 at ISU materials blob master 03 tidyvers
RStudio 不会通过 rPython 调用加载所有 Python 模块

我从 Bash 和 RStudio 中运行相同的脚本时出现一些意外行为请考虑以下事项我有一个文件夹 rpython 包含两个脚本 test1 R library rPython setwd rpython python load tes
dplyr 中的标准评估：全局环境中的函数出现“无法找到函数”错误

我试图在 dplyr 中对全局环境中的函数使用标准评估但出现无法找到函数错误这是一些代码 create data frame df lt data frame x rnorm 10 y rnorm 10 define arbitra
R参考类问题

我正在尝试在 R 中创建一个简单的参考类这是我的代码 R 初学者 MyClass lt setRefClass MyClass fields list a numeric b numeric methods list initialize
XCode 7 中的 AWSS3TransferManagerUploadRequest

我今天升级到 Xcode 7 Swift 2 0 我的项目正在使用 CocoaPods 我正在 POD 文件中导入所有与 AWS 相关的文件我已经设置了桥接标头并导入了 Amazon 告诉我的所有文件在升级到 Swift 2 0 之前
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
R Leaflet Legend：colorBin-删除中断之间的小数

我正在使用 Leaflet 库在 R 中创建交互式 HTML 地图传说中采用的是colorBin用于创建将数据分为 6 个类别的方法使用min values and max values 我已经定义了美国社区调查收入数据的特定范围可能落
Spark scala 模拟 Spark.implicits 用于单元测试

当尝试使用 Spark 和 Scala 简化单元测试时我使用 scala test 和mockito scala 以及mockito Sugar 这只是让你做这样的事情 val sparkSessionMock mock SparkSes
汇总表中各列的字符值比例

在这种数据框中 df lt data frame w1 c A A B C A w2 c C A A C C w3 c C A B C B 我需要计算所有列中字符值的列内比例有趣的是以下代码适用于大型实际数据集但对上述玩具数据会引发错
R 中的龙卷风图

我正在尝试在 R 中绘制龙卷风图又名敏感性图目标是可视化某些变量增加 10 和减少 10 的效果到目前为止我已经得到这个结果这是我正在使用的代码 Tornado plot data lt matrix c 0 02 0 02 0 0
如何绘制每条线之间具有特定距离的图形

实际上我尝试绘制一个图形但它将所有列线放在一起并显示因此它不具有代表性我尝试制作模拟数据并向您展示我如何绘制它并向您展示我想要的内容我不知道如何制作像下面所示的示例的数据但我在这里做了什么 set seed 1 M lt
如何从 R 数据框中提取关键字

我是 R 中文本挖掘的新手我想从数据框的列中删除停用词即提取关键字并将这些关键字放入新列中我尝试制作一个语料库但它对我没有帮助 df C3是我目前拥有的我想添加栏目df C4 但我无法让它工作 df lt structure l
如何在 R 中绘制一列与其余列的关系图

我有一个数据集其中 1 是时间接下来的 14 个是幅度我想在一张图表上散布所有大小与时间的关系其中每个不同的列都是网格化的分层在另一个之上我想使用原始数据来制作这些图表并单独制作它们但只想执行此过程一次数据集A 唯一的自变
如何在 R 中将字符串解析为层次结构或树

有没有办法将表示组的字符串解析为 R 中的层次结构假设我的小组结构如下 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 3 1 1 3 1 1 1 3 2 1 1 3 3 1 2 1 2 1 1 2 1 1 1 2 1 2 1
使用 Python 计算 Spark 中成对 (K,V) RDD 中每个 KEY 的平均值

我想与 Python 共享这个特定的 Apache Spark 解决方案因为它的文档非常贫乏我想通过 KEY 计算 K V 对存储在 Pairwise RDD 中的平均值示例数据如下所示 gt gt gt rdd1 take 10
按特定样本前缀对列名称向量进行子集化

假设我有一个如下所示的数据框 ca01 lt c 1 10 ca02 lt c 2 11 ca03 lt c 3 12 stuff 1 lt rep test 10 other lt rep 9 10 data lt data frame
如何在不从 DataFrame 转换并访问它的情况下向数据集添加列？

我知道使用以下方法将新列添加到 Spark 数据集的方法 withColumn and a UDF 它返回一个 DataFrame 我还知道我们可以将生成的 DataFrame 转换为 DataSet 我的问题是如果我们仍然遵循传统的
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且我正在尝试在火花流中使用来自卡夫卡的消息以下是代码 val topics notes val kafkaParams Map String Object bootst
通过使用 navbarPanel() 并隐藏导航栏构建多页闪亮应用程序用户端（在 ui.R 中）？

我想构建一个多页闪亮应用程序我可以在其中控制用户可以看到哪个页面迪安阿塔利确实这个演示应用程序中有类似的东西 https github com daattali advanced shiny tree master multiple

随机推荐

如何用plotly绘制椭球体

有什么方法可以用plotly 3D 绘制类似椭球体的表面吗目前只有表格的表面z f x y 在文档中进行了讨论还有Mesh 3D https plot ly python reference mesh3d 但我没有找到相关的例子似乎可
从 Android 联系人中获取单个电话号码

您好我正在尝试从联系人列表中获取一个电话号码我找到了可以获取整个联系人列表电话号码的代码我想要的只是所单击项目的电话号码任何帮助将不胜感激谢谢 public void onClick View v Intent contactPi
如何使用 IntelliJ IDEA 应用“移动方法”重构？

我希望能够在 IntelliJ IDEA 中将实例方法从一个类移动到另一个类 Fowler 的重构中的移动方法不幸的是当我尝试移动 cmd F6 时它告诉我没有具有引用类型的方法您想让方法静态然后移动吗我不想使我的方法成
hijri（伊斯兰）日历问题！

我会将公历日期转换为回历伊斯兰日期经过网上搜索找到了转换的源代码我将代码从 Java 和 PHP 转换为 C 语言该工具有时工作时没有任何问题但有些日子有问题我需要您的帮助要么修复该工具要么提供可以正常工作的可用代码顺
是否有可能创建一种更具活力的新类型？

可能不是正确的词但我想用 JavaScript 创建一个新类型它具有一个简单的属性可以做到这一点 var inst new SomeType inst key1 key2 something inst key1 key1 key3 s
更新满足条件且编号递增的记录

我在 postgres 中有一张这样的表 Id Name local site id local id 1 A 2 2 B 2 3 C 1 4 D 2 5 E 1 如何使用 SQL 查询将表更新为 Id Name local site id
在 API 级别 19 以下的 Android 中选择文件或图像时，如何限制 Google 驱动器选项不出现？

我是 Android 新手需要在 API 级别 19 以下的设备上选择文件我努力了 private void chooseFile Intent intent new Intent Intent ACTION GET CONTENT i
为什么 makefile 中需要链接 math.h 而不是 string.h？ [复制]

这个问题在这里已经有答案了我一直在包括
使用 WinSCP .NET/COM 使用临时文件名上传文件

我正在用 C 创建一个小型 NET 应用程序来将文件上传到 FTP 服务器我在执行此操作时使用了 WinSCP 的 NET DLL 并且我一直在尝试找到解决问题的好方法我放置所有文件的 FTP 文件夹将由另一个应用程序监控然后该应用
检索公共 Dropbox 文件夹的内容？

有没有办法检索公共 Dropbox 文件夹的内容列表最好是 PHP Dropbox 中公共文件的 URL 如下所示 http dl dropbox com u 1234567 publikPholder textytext txt 人们可
如何访问我的 SSH 公钥？

我刚刚生成了 RSA 密钥对我想将该密钥添加到 GitHub I tried cd id rsa pub and id rsa pub 但没有运气如何访问我的 SSH 公钥 cat ssh id rsa pub or cat ssh i
在 Flexdashboard 中使用 javascript/d3.js 创建图表和表格之间的交互

我创建了下面的 flexdashboard 其中使用了 3 个数据框然后其中两个数据框显示为图表 dcross1 dcross2 和一个 dcross3 如表我想要实现的是将所有这些对象连接在一起当用户单击某个栏时表将相应地进行子集
在 Terraform 0.12 中，如果资源名称已存在，如何跳过资源的创建？

我正在使用 Terraform 版本 0 12 如果同名资源已存在我需要跳过资源创建我为此做了以下操作读取自定义图像列表 data ibm is images custom images 检查图像是否已经存在 locals custo
如何获取html元素的绝对路径

String html Jsoup connect url timeout 1000 1000 get html Document doc Jsoup parse html Elements H2 doc select div h2 for
通过命令提示符运行（可能是路径错误？）

当我编译示例 javac StudentApp java 时从 Notepad 编译代码时遇到问题它无法编译但我收到此错误代码不被识别为内部或外部命令可操作程序或批处理文件我现在使用 Windows 8 以及 8 1 这是我的道路
AWS Lambda、Python、Numpy 等作为层

我已经尝试了一段时间试图将 python numpy 和 pytz 作为层添加到 AWS Lambda 而不是使用我的 py 文件将其压缩并扔到 AWS 我能够遵循多个教程但都失败了如果我要使用 pandas numpy 或 pytz
Flutter 应用程序在发布模式下显示灰屏，但在调试模式下工作正常

我正在尝试 flutter 目前正在学习本教程https www youtube com watch v j6c vHdbUfg https www youtube com watch v j6c vHdbUfg 我注意到该应用程序在调试模
设置视图宽度后，将 LayoutParams 的 ClassCastException 转换为 MarginLayoutParams

我编写了一个小型代理类以便可以使用 ObjectAnimator 为视图的边距设置动画在检查此方法是否有效且所有动画均正常后我想在动画之前调整视图的大小但在设置宽度后我的动画失败并出现 ClassCastException 我不知
socket.io 与私人房间聊天

我开始研究node和socket io 我已经创建了一个简单的聊天应用程序我惊讶于它是如此简单现在我想更进一步提供能够私下聊天的在线用户列表解决这个问题的最佳方法是什么我读过 0 7 的新房间功能这是一条路吗每次 2 个用户
如何在R中使用sparklyr读取S3文件夹/存储桶中的所有文件？

我已经尝试了下面的代码及其组合以便读取 S3 文件夹中给出的所有文件但似乎没有任何效果敏感信息代码已从下面的脚本中删除有 6 个文件每个文件 6 5 GB Spark Connection sc lt spark connect

如何在R中使用sparklyr读取S3文件夹/存储桶中的所有文件？

如何在R中使用sparklyr读取S3文件夹/存储桶中的所有文件？ 的相关文章

随机推荐

热门标签

如何在R中使用sparklyr读取S3文件夹/存储桶中的所有文件？的相关文章