如何只加载最后一个分区的数据

2023-11-22

我有一些数据是这样分区的：

/data/year=2016/month=9/version=0 /data/year=2016/month=10/version=0 /data/year=2016/month=10/version=1 /data/year=2016/month=10/version=2 /data/year=2016/month=10/version=3 /data/year=2016/month=11/version=0 /data/year=2016/month=11/version=1

使用此数据时，我想仅加载每个月的最后一个版本。

执行此操作的一个简单方法是load("/data/year=2016/month=11/version=3")而不是做load("/data").
该解决方案的缺点是分区信息丢失，例如year and month，这意味着将无法再应用基于年份或月份的操作。

是否可以要求 Spark 仅加载每个月的最后一个版本？你会怎么做呢？

嗯，Spark 支持谓词下推，所以如果你提供filter遵循load，它只会读入满足条件的数据filter。像这样：

spark.read.option("basePath", "/data").load("/data").filter('version === 3)

并且您可以保留分区信息:)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

如何只加载最后一个分区的数据的相关文章

使用spark-sql从oracle加载数据时如何增加默认精度和小数位数

尝试从 oracle 表加载数据其中我有几列保存浮点值有时它最多保存 DecimalType 40 20 即点后 20 位数字目前当我使用加载其列时 var local ora df DataFrameReader ora df l
为什么 Spark-ml ALS 模型返回 NaN 和负数预测？

实际上我正在尝试使用ALS from spark ml具有隐性评级我注意到我训练的模型给出的一些预测是negative or NaN 为什么 Apache Spark 提供了一个强制选项非负约束关于肌萎缩侧索硬化症因此要删除这些负值
pyspark.sql.utils.AnalysisException：u'Path不存在

我正在使用标准 hdfs 与 amazon emr 运行 Spark 作业而不是 S3 来存储我的文件我在 hdfs user hive warehouse 有一个配置单元表但当我的 Spark 作业运行时找不到它我配置了 Spar
Spark 写入 hdfs 无法使用 saveAsNewAPIHadoopFile 方法

我在 CDH 5 2 0 上使用 Spark 1 1 0 并试图确保我可以读取和写入 hdfs 我很快意识到 textFile 和 saveAsTextFile 调用旧的 api 并且似乎与我们的 hdfs 版本不兼容 def testHD
创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp
collect_list() 是否保持行的相对顺序？

想象一下我有以下 DataFrame df id featureName featureValue id1 a 3 id1 b 4 id2 a 2 id2 c 5 id3 d 9 想象一下我运行 df groupBy id agg coll
由于 UTFDataFormatException 导致 Spark 中的任务无法序列化：编码字符串太长

我在 Yarn 上运行 Spark 应用程序时遇到一些问题我有非常广泛的集成测试运行时没有任何问题但是当我在 YARN 上运行应用程序时它将抛出以下错误 17 01 06 11 22 23 ERROR yarn Applicatio
为什么流式数据集会失败并显示“当流式数据帧/数据集上存在流式聚合时不支持完整输出模式...”？

我使用 Spark 2 2 0 在 Windows 上使用 Spark 结构化流时出现以下错误有时不支持完整输出模式streaming aggregations on streaming DataFrames DataSets没有wate
java.lang.ClassNotFoundException：找不到类 org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem

我是 Spark 和 Kubernetes 世界的新手我使用 docker image tool sh 实用程序使用与 Hadoop 3 2 捆绑在一起的官方 Spark 3 0 1 构建了 Spark docker 映像我还为 Jup
向数据框添加新列的问题 - Spark/scala

我是 Spark scala 的新手我正在尝试将一些数据从配置单元表读取到 Spark 数据帧然后根据某些条件添加一列这是我的代码 val DF hiveContext sql select from select from test
使用notebook时将jar添加到pyspark

我正在尝试将 mongodb hadoop 与 Spark 集成但不知道如何使 IPython 笔记本可以访问这些 jar 这是我想做的 set up parameters for reading from MongoDB via Had
使用 Spark SQL 时找不到 Spark Logging 类

我正在尝试用 Java 进行简单的 Spark SQL 编程在程序中我从 Cassandra 表获取数据将RDD into a Dataset并显示数据当我运行spark submit命令我收到错误 java lang Class
Pyspark - 根据条件重置累积和列

我有以下数据框 id date reset cumsum 1001 2023 04 01 false 0 1001 2023 04 02 false 0 1001 2023 04 03 false 1 1001 2023 04 04 fal
如何使用 with open 在 pySpark 中打开存储在 HDFS 中的文件

如何打开存储在 HDFS 中的文件这里输入文件来自 HDFS 如果我按如下方式提供文件我将无法打开它将显示为找不到文件 from pyspark import SparkConf SparkContext conf SparkConf
尝试创建 jar 时出现 UNRESOLVED DEPENDENCIES 错误

我正在尝试构建一个 Scala jar 文件以在 Spark 中运行它我正在关注这个tutorial http spark apache org docs latest quick start html 当尝试使用 sbt 作为构建 ja
如何在 Pyspark 中使用滑动窗口对时间序列数据进行数据转换

我正在尝试根据时间序列数据的滑动窗口提取特征在Scala中似乎有一个sliding函数基于这个帖子 https stackoverflow com a 28863132 3089523 and 文档 http spark apache
将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
Spark 数据帧分组、排序和选择一组列的顶部行

我正在使用 Spark 1 5 0 我有一个包含以下列的 Spark 数据框 user id description fName weight 我想做的是为每个用户选择前 10 行和后 10 行基于列权重的值数据类型为 Double 如
Spark scala：大量列上的简单 UDF 会导致性能下降

我有一个包含 1 亿行和约 10 000 列的数据框这些列有两种类型标准 C i 和动态 X i 这个dataframe是经过一些处理后得到的性能很快现在只剩下2步了 Goal 需要使用 C i 列的相同子集对每个 X i 执行特定
与文件名中的冒号“：”作斗争

我有以下代码用于加载大量 csv gz 并将它们转储到其他文件夹中并将源文件名作为一列 object DailyMerger extends App def allFiles path File List File val parts

随机推荐

如何在 Java 中查找给定服务器的 DNS MX 记录？

有人知道如何使用标准库在java中获取MX地址例如来自gmail com 吗或者我需要下载外部的吗我正在使用 netbeans 如果它有帮助的话如果它为此提供了一些东西我也在java中为此寻找标准库不成功然后我用过dnsjav
获取浏览器中的快捷键组合

我想制作一个页面其中某些输入和链接附加有访问键并且我想通知用户需要按什么组合键来激活输入或链接有没有办法通过JavaScript自动获取浏览器的accesskey组合键或者我是否需要检测它是哪个浏览器然后只使用一个存储浏览器使用的
如何在 vim 中用 & 符号替换？

正如标题所说我想用与号替换制表符 I use s t g 当然这是行不通的我在 mac os x 上使用 vim 如果这有影响的话谢谢您确定问题出在符号上吗我收到了更多关于该标签的投诉别忘了逃避它 s t g
求大 n 和 k 模 m 的二项式系数

我想计算 nCk mod m 具有以下约束 n k m 10 9 7 我读过这篇文章但这里 m 的值为 1009 因此使用卢卡斯定理我们只需要计算 1009 1009 个不同的 aCb 值其中 a b 如何在上述限制下做到这一点我
Ext JS 点击事件

我有以下事件 Ext onReady function Ext select gallery item img on click function e Ext select gallery item removeClass gallery
引擎“节点”与此模块不兼容。预期版本“12.x”。得到“14.8.0”

我尝试做一个yarn add 但我有这个错误 The engine node is incompatible with this module Expected version 12 x Got 14 8 0 运行这些命令 sudo npm
处于调试视图，程序终止后，切换回 Eclipse 中的 Java 视图

我正在寻找一种在我正在调试的应用程序结束后返回到 Eclipse 中的标准 Java 视图的方法有可能做到这一点吗这是其他一些 IDE 例如 Visual Studio 中的默认行为我更愿意这样做必须再次手动将视图切换到初始视图这
在 OSX 上安装 Typesafe 激活器

我正在尝试安装类型安全激活器 scala AKKA play 框架激活器我有优胜美地 OSX 我的 bash 是 Oh my ZSH 我已经安装并导出了 JDK 1 7 我下载并解压了文件 typesafe activator 1 2
多维数组上的 json_encode() - 使用字符串键

我正在使用 PHP 创建一个非常大的多维数组每个对象包含名称 ID ParentID 和 Children Children 是具有相同格式的更多对象的数组命名每个对象的 ID 至关重要这有助于我将每个对象置于正确的父对象下在下面的
Matlab 的 Demcmap 的 Python 等效项（海拔 +/- 适当的颜色图）

我正在寻找一种方法来获得适当的海拔颜色图matplotlib 的cmap terrain 看起来很棒但颜色缩放不是基于零即如果比例为 0 gt 5000m 则 0 gt 1000m 范围可能是蓝色阴影您会认为这是海平面以下的情况 f
如何使表格单元格的背景透明

我正在为我的所有用户页面创建一个表第一个表分为两部分广告和用户在用户表内 tr td td tr 我为每个用户的数据创建了另一个表以通过 php 显示这是图片 http postimg org image 3mbeyb411
c中的“short int”和“short”有什么区别？ [复制]

这个问题在这里已经有答案了将变量声明为short int 和short 有什么区别在gcc编译器中 short占用2个字节用sizeof short 检查并且short int也给出了2个字节的大小两者是否相同或不同在这种情况下
如何在 JavaScript 中获取 HTML 元素的样式值？

我正在寻找一种方法从通过样式标签设置样式的元素中检索样式在身体里 div div 我正在寻找不使用库的直接 JavaScript 我尝试了以下操作但一直收到空白 alert document getElementById box st
如何从子例程中不返回任何内容？

我想在执行下一步之前验证一个条件但只发出警告并跳过当前值而不是死掉如何重写 validate me 子例程而不返回任何值 Update 请注意以下代码按预期工作只是我想要其他东西而不是从 validate me 返回 1 或 0
保存图像，然后在 Swift (iOS) 中加载它

我正在使用 saveImage 保存图像 func saveImage image UIImage path String gt Bool let pngImageData UIImagePNGRepresentation image le
d3.js 构建矩形网格

我正在尝试在 d3 js 中构建一个矩形网格网格有 7 行一周中的几天和 24 列一天中的小时以下代码仅绘制行列天0 小时0 第 1 天 1 小时第 2 天第 2 小时第 3 天第 3 小时第 4 天第 4 小时
R 分组显示所有因子水平的计数，即使 dplyr 为零

set seed 1 dat lt data frame ID sample letters 50 rep TRUE dat gt group by ID gt summarise no rows length ID 我有上面的代码它创建
了解 Java 内存模型和垃圾收集 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心以获得指导我经常会收到很多学生或寻找
从 GCE VM 分离启动磁盘

我正在尝试从 GCE 虚拟机分离启动磁盘由于虚拟机已停止因此它应该允许我将其分离但它返回此错误 UNSUPPORTED OPERATION Hot remove of the root disk is not supported 有什
如何只加载最后一个分区的数据

我有一些数据是这样分区的 data year 2016 month 9 version 0 data year 2016 month 10 version 0 data year 2016 month 10 version 1 data y

如何只加载最后一个分区的数据

如何只加载最后一个分区的数据 的相关文章

随机推荐

热门标签

如何只加载最后一个分区的数据的相关文章