如何在spark Scala中读取s3中的多个目录？

2024-05-02

我在 s3 中有以下格式的目录，

 <base-directory>/users/users=20180303/hour=0/<parquet files>
 <base-directory>/users/users=20180303/hour=1/<parquet files>
 ....
 <base-directory>/users/users=20180302/hour=<0 to 23>/<parquet files>
 <base-directory>/users/users=20180301/hour=<0 to 23>/<parquet files>
 ....
 <base-directory>/users/users=20180228/hour=<0 to 23>/<parquet files>

现在我想处理过去 30 天的镶木地板文件。

我尝试过以下，

 val df = sqlContext.read.option("header", "true")
    .parquet(<base-directory> + File.separator + "users" + File.separator)
    .where(col("users").between(startDate, endDate))

其中 endDate 和 startDate 间隔 30 天，格式为 yyyymmdd。

上述解决方案没有给出正确的目录子集。我究竟做错了什么？

where函数用于过滤行 in dataframe。你用它来阅读parquet文件来自s3. 所以整个概念都是错误的.

相反，你可以创建 startDate 和 endDate 之间的路径数组并将其传递给sqlContext 读取 api.

从程序上来说，你可以执行如下操作（它们只是伪代码）

val listBuffer = new ListBuffer[String]
for(date <- startDate to endDate)
  listBuffer.append(<base-directory> + File.separator + "users" + File.separator+"users="+date)

val df = sqlContext.read.option("header", "true").parquet(listBuffer: _*)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

apachesparksql

如何在spark Scala中读取s3中的多个目录？的相关文章

如何更改 SparkContext.sparkUser() 设置（在 pyspark 中）？

我是新来的Spark and pyspark 我使用 pyspark 之后我rdd处理中我试图将其保存到hdfs使用saveAsTextfile 功能但我得到一个没有权限错误消息因为 pyspark 尝试写入hdfs使用我的本地帐
如何在 Apache Spark 中基于列的子集实现“ except ”？

我正在 Spark 中使用两个模式 table1 and table2 scala gt table1 printSchema root user id long nullable true item id long nullable tr
如何在 Mac 上使用 homebrew 安装 apache-spark 2.3.3

brew install apache spark只安装最新版本的 Spark 2 4 和 brew search apache spark没有给出任何其他选项有没有办法用自制程序安装旧版本的 Spark Type brew tap ed
在 kubernetes 上安装 PySpark 软件包时出现 Spark-Submit：ivy-cache 文件未找到错误

我一整天都在与它斗争我能够安装并使用带有 Spark shell 或连接的 Jupiter 笔记本的包 graphframes 但我想使用 Spark Submit 将其移动到基于 kubernetes 的 Spark 环境我的火花版
使用 mlib 执行 Spark-Shell，错误：对象 jblas 不是包 org 的成员

在spark shell中当我执行import org jblas DoubleMatrix 它会在 RHEL 上抛出错误对象 jblas 不是包 org 的成员实际上我用谷歌搜索了 jblas 并安装了 gfortran htt
Spark：替换嵌套列中的空值

我想更换所有n a以下数据框中的值unknown 它可以是scalar or complex nested column 如果它是一个StructField column我可以循环遍历列并替换n a using WithColumn 但我希
Spark：并行转换多个数据帧

了解如何在并行转换多个数据帧时实现最佳并行性我有一系列路径 val paths Array path1 path2 我从每个路径加载数据帧然后转换并写入目标路径 paths foreach path gt val df spark re
Spark - scala - 如何检查配置单元中是否存在表

我必须使用 Spark 1 6 2 scala 检查配置单元中是否存在表如果没有我必须创建一个空数据框并将其保存为配置单元表如果存在则覆盖现有表我需要一个返回布尔值的函数基于该函数我可以做出上述决定是否创建新表或覆盖现有表 1
无法在 SBT 中运行 Apache Spark 相关单元测试 - NoClassDefFoundError

我有一个简单的单元测试使用SparkContext 我可以在 IntelliJ Idea 中运行单元测试没有任何问题但是当尝试从 SBT shell 运行相同的测试时我收到以下错误 java lang NoClassDefFoun
';'预期但发现“导入” - Scala 和 Spark

我正在尝试使用 Spark 和 Scala 来编译一个独立的应用程序我不知道为什么会收到此错误 topicModel scala 2 expected but import found error import org apache sp
如何从字符串列中提取数字？

我的要求是从列中的评论列中检索订单号comment并且总是开始于R 订单号应作为新列添加到表中输入数据 code id mode location status comment AS SD 101 Airways hyderabad D
如何根据 Pyspark 中另一列的表达式评估有条件地替换列中的值？

import numpy as np df spark createDataFrame 1 1 None 1 2 float 5 1 3 np nan 1 4 None 0 5 float 10 1 6 float nan 0 6 floa
如何在 Apache Spark 中通过 DStream 使用特征提取

我有通过 DStream 从 Kafka 到达的数据我想进行特征提取以获得一些关键词我不想等待所有数据的到达因为它是可能永远不会结束的连续流所以我希望以块的形式执行提取如果准确性会受到一点影响对我来说并不重要到目前为止我整理
HashPartitioner 是如何工作的？

我阅读了文档HashPartitioner http spark apache org docs 1 3 1 api java index html org apache spark HashPartitioner html 不幸的是除了
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
Spark DataFrame 序列化为无效 json

TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储
计算 pyspark df 列中子字符串列表的出现次数

我想计算子字符串列表的出现次数并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
Spark/Gradle -- 在 build.gradle 中获取 IP 地址以用于启动 master 和worker

我在基本层面上了解 build gradle 构建脚本的各个移动部分但无法将它们全部结合在一起在 Apache Spark 独立模式下只需尝试从 build gradle 在同一个机器上启动 master 和worker 稍后将使用
Spark 中的 StandardScaler 未按预期工作

知道为什么 Spark 会这样做吗StandardScaler 根据定义StandardScaler StandardScaler 将一组特征标准化为均值为零标准差为 1 withStd 标志将数据缩放为单位标准差而标志 withMe
Spark 2.2 无法将 df 写入 parquet

我正在构建一个聚类算法我需要存储模型以供将来加载我有一个具有以下架构的数据框 val schema new StructType add StructField uniqueId LongType add StructField tim

随机推荐

使用 Caliburn.Micro 将绑定选择更改为 ViewModel

我们在一个新的 Silverlight 项目中使用了 Caliburn Micro 一切都运行良好内置约定将按钮单击事件绑定到 viewModel 但我不确定处理数据网格和组合框上的 SelectionChanged 事件的最佳方法是什么
如何停止supervisord.conf文件中指定的单个程序？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我想使用supervisor来管理几个进程我已经在supervisord conf文件中进行了更改我想稍后停止一些程序我尝试使用 s
如何在 C# 2.0 中重写 lambda 表达式？

MatchEvaluator evaluator match gt var splitPos match Value IndexOf var newValue match Value Substring 0 splitPos 2 Retri
实体框架迁移 - 启用自动迁移以及添加的迁移

我在我的项目中使用实体框架 4 3 迁移我想使用自动迁移以便当我对域对象和上下文类进行修改时我的数据库会在运行项目时自动更新到目前为止我已经完成了这个工作除了自动迁移之外我还想使用一些添加的迁移并且我希望应用程序在运行应用程序
ffmpeg 用于屏幕捕获？

所以我有一个小程序来捕获屏幕和计算机麦克风的声音然后屏幕截图被编码为 ScreenVideo2 声音被编码为 AAC 如何使用 ffmpeg 逐帧混合然后将混合输出发送到 wowza 媒体服务器如果用ffmpeg无法完成您能提供一些
System.DirectoryServices.Interop.UnsafeNativeMethods.IAds.GetInfo() 处的 FileNotFoundException

我有这行简单的代码 var entry new DirectoryEntry WinNT DOMAIN MachineName Computer Console WriteLine entry Guid 实际上路径是由命令行提供的这个简
罐子不匹配！修复使用 appcompat_v7 和 Facebook sdk 时的依赖关系。

我在我的项目中使用 appcompat v7 库和 facebook sdk 并且这两个库都有 android support v4 jar 如果我删除任何 jar 则相应的库将无法工作并且不允许同时拥有这两个 jar 我应该怎么办请帮
从 UIButton 调用类外部的函数

我有一个函数我想在按下按钮时调用它但与我迄今为止所做的任何事情不同我希望能够从多个 ViewController 中的任何一个访问它我不想在每个 ViewController 中重复相同的代码块我尝试在 ViewControlle
使用简单的 UPDATE 查询“不支持 DML 操作”

我收到错误Not supported for DML operations当我使用以下 HQL 时 Query UPDATE WorkstationEntity w SET w lastActivity timestamp WHERE w
Hilt：为什么是 ActivityRetainedScoped 与 ViewModelScoped

我试图理解为什么ActivityRetainedScoped为希尔特的 DI 引入在我看来范围与ViewModelScoped应该做我的印象是作用域是这样工作的 AppScope singleton gt ViewModelScope
Javascript：如何简化具有多个 OR 条件的 if 语句？

很抱歉如果我在写这篇文章时犯了错误我是新来的不知道这是如何工作的希望我能尽快学会我也是 JavaScript 新手所以问题是我有这个代码 elements js文件我无法让它工作放这个有用吗 if codePrompt c
致命错误：iostream：没有这样的文件或目录#include

我在学习C 的时候遇到了一个问题编译的时候遇到了错误 The details are as follows You seem to have not installed C support in MinGW If you are usin
GoDaddy 服务器上的 CodeIgniter 和 URI 问题

我似乎无法在 GoDaddy 上正确设置 CodeIgniter 我尝试在 wecome 控制器内创建一个新函数但我无法在任何地方访问它 http domain com test No response lt why doesn t th
Linux 中的 Swift arc4random_uniform(max)

我在 Ubuntu 中使用 Swift 收到一条错误消息指出 arc4random 是一个无法解析的标识符有关此已知错误的更多信息here https bugs swift org browse SR 685 基本上该功能仅存在于 B
PostgreSQL：存在与左连接

我多次听说 postgres 处理exists查询速度更快左连接 http archives postgresql org pgsql performance 2002 12 msg00185 php http archives postg
在 SmartWizard 中后退时跳过验证

我正在使用 SmartWizard 2 0 link http techlaboratory net products php product smartwizard 并且当用户点击上一页按钮或以任何方式在表单中向后移动时我需要停止验
Android ImageView未加载

我正在使用 android imageView 并将图像放入可绘制文件夹中并将 imageView 源更改为该图像但它没有在预览面板中显示图像当我在 android studio 中打开图片时它显示这样的错误但我可以在电脑桌面上打
在任何 PostgreSQL 语句（甚至不返回结果的语句）上调用 row_to_json(row)

我正在寻找始终从 PostgreSQL 语句返回 JSON 表示的查询即使没有returning 这是一个例子 WITH result AS insert into users name age values drew 42 select
使对话框/活动始终位于顶部

如何将对话框活动保持在其他活动之上无论用户是否在活动之间切换它都应该始终处于活动状态您可以使用相对布局作为父级通过使用相对布局您可以重叠其他布局所以你必须使用相对布局的两个子布局在一个孩子中您将弹出窗口而在另一种布局中
如何在spark Scala中读取s3中的多个目录？

我在 s3 中有以下格式的目录

如何在spark Scala中读取s3中的多个目录？

如何在spark Scala中读取s3中的多个目录？ 的相关文章

随机推荐

热门标签

如何在spark Scala中读取s3中的多个目录？的相关文章