PySpark：如何重新采样频率

2024-02-22

想象一个由变量的值观察组成的 Spark Dataframe。每个观察都有一个特定的时间戳，并且不同变量之间的这些时间戳不相同。这是因为时间戳是在变量值更改并记录时生成的。

#Variable     Time                Value
#852-YF-007   2016-05-10 00:00:00 0
#852-YF-007   2016-05-09 23:59:00 0
#852-YF-007   2016-05-09 23:58:00 0

Problem我想使用前向填充将所有变量置于相同的频率（例如 10 分钟）。为了形象化这一点，我复制了《Python for Data Analysis》一书中的一页。问题：如何在 Spark Dataframe 中执行此操作高效的 way?

Question：如何在 Spark Dataframe 上高效地做到这一点？

Spark DataFrame对于这样的操作来说根本不是一个好的选择。一般来说，SQL 原语的表达能力不够，PySparkDataFrame不提供实现它所需的低级访问权限。

虽然重新采样可以使用纪元/时间戳算法轻松表示。有了这样的数据：

from pyspark.sql.functions import col, max as max_, min as min_

df = (spark  
    .createDataFrame([
        ("2012-06-13", 0.694), ("2012-06-20", -2.669), ("2012-06-27", 0.245)],   
        ["ts", "val"])        
   .withColumn("ts", col("ts").cast("date").cast("timestamp")))

我们可以重新采样输入：

day = 60 * 60 * 24
epoch = (col("ts").cast("bigint") / day).cast("bigint") * day

with_epoch = df.withColumn("epoch", epoch)

min_epoch, max_epoch = with_epoch.select(min_("epoch"), max_("epoch")).first()

并加入参考：

# Reference range 
ref = spark.range(
    min_epoch, max_epoch + 1, day
).toDF("epoch")

(ref
    .join(with_epoch, "epoch", "left")
    .orderBy("epoch")
    .withColumn("ts_resampled", col("epoch").cast("timestamp"))
    .show(15, False))

## +----------+---------------------+------+---------------------+   
## |epoch     |ts                   |val   |ts_resampled         |
## +----------+---------------------+------+---------------------+
## |1339459200|2012-06-13 00:00:00.0|0.694 |2012-06-12 02:00:00.0|
## |1339545600|null                 |null  |2012-06-13 02:00:00.0|
## |1339632000|null                 |null  |2012-06-14 02:00:00.0|
## |1339718400|null                 |null  |2012-06-15 02:00:00.0|
## |1339804800|null                 |null  |2012-06-16 02:00:00.0|
## |1339891200|null                 |null  |2012-06-17 02:00:00.0|
## |1339977600|null                 |null  |2012-06-18 02:00:00.0|
## |1340064000|2012-06-20 00:00:00.0|-2.669|2012-06-19 02:00:00.0|
## |1340150400|null                 |null  |2012-06-20 02:00:00.0|
## |1340236800|null                 |null  |2012-06-21 02:00:00.0|
## |1340323200|null                 |null  |2012-06-22 02:00:00.0|
## |1340409600|null                 |null  |2012-06-23 02:00:00.0|
## |1340496000|null                 |null  |2012-06-24 02:00:00.0|
## |1340582400|null                 |null  |2012-06-25 02:00:00.0|
## |1340668800|2012-06-27 00:00:00.0|0.245 |2012-06-26 02:00:00.0|
## +----------+---------------------+------+---------------------+

在 Spark >= 3.1 中替换

col("epoch").cast("timestamp")

with

from pyspark.sql.functions import timestamp_seconds

timestamp_seconds("epoch")

使用低级 API 可以填充这样的数据，正如我在回答中所示的那样Spark / Scala：使用最后一次观察进行前向填充 https://stackoverflow.com/q/33621319/1560062。使用 RDD，我们还可以避免对数据进行两次洗牌（一次用于连接，一次用于重新排序）。

但这里还有一个更重要的问题。当问题可以简化为按元素计算或按分区计算时，Spark 的性能最佳。虽然前向填充是可能的情况，但据我所知，常用的时间序列模型通常不是这种情况，如果某些操作需要顺序访问，那么 Spark 根本不会提供任何好处。

因此，如果您使用的系列足够大，需要分布式数据结构，您可能希望将其聚合到某个可以由单台机器轻松处理的对象，然后使用您最喜欢的非分布式工具来处理其余部分。

如果您使用多个时间序列，每个时间序列都可以在内存中处理，那么当然有sparkts，但我知道你已经意识到了这一点。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PySpark：如何重新采样频率的相关文章

Spark 在执行 jdbc 保存时给出空指针异常

您好当我执行以下代码行时我得到以下堆栈跟踪 transactionDF write format jdbc option url SqlServerUri option driver driver option dbtable full
Pandas 将时间序列数据重新采样为 15 分钟和 45 分钟 - 使用多索引或列

我有一些时间序列数据作为 Pandas 数据框它从每小时过去 15 分钟和过去 45 分钟时间间隔为 30 分钟的观察开始然后将频率更改为每分钟我想对数据进行重新采样以便整个数据帧的频率为每 30 分钟一次 15 点和 45 点
如何使用 Spark-submit 命令获取提交到 Spark 集群的作业的应用程序 ID/作业 ID？

我正在使用 Spark submit 命令提交 Apache Spark 作业我想检索使用 Spark submit 命令提交的作业的应用程序 ID 或作业 ID 推荐的方式应该是什么可以解析 Spark submit 命令的输出以获取
Spark 中的 RDD 和 Dataframe 有什么区别？ [复制]

这个问题在这里已经有答案了嗨我对 apache Spark 比较陌生我想了解 RDD 数据帧和数据集之间的区别例如我正在从 s3 存储桶中提取数据 df spark read parquet s3 output unattribu
Spark Workers 上缺少 SLF4J 记录器

我正在尝试通过以下方式运行工作spark submit 此作业导致的错误是 Exception in thread main java lang NoClassDefFoundError org slf4j Logger at java l
在地图类型中创建 DataFrame 分组列

My 数据框具有以下结构 df spark createDataFrame B a 10 B b 20 C c 30 Brand Type Amount df show Brand Type Amount B a 10 B b 20 C c
Spark如何选择节点来运行执行器？（spark on YARN）

Spark如何选择节点来运行执行器 spark on YARN 我们使用 Spark on Yarn 模式集群有 120 个节点昨天一个 Spark 作业创建了 200 个执行程序而节点 1 上有 11 个执行程序 Node2上有1
Spark-shell 使用不同版本的 Scala。使用 homebrew 安装 scala 和 apache-spark

我使用 homebrew 安装了 scala 和 apache spark 它安装了 scala 2 12 4 和 apache spark 2 2 0 但是如果您结帐spark shell version它使用不同的 scala 版本
在 Spark 中将流式 XML 转换为 JSON

我是 Spark 新手正在开发一个简单的应用程序将从 Kafka 接收的 XML 流转换为 JSON 格式 Using 火花2 4 5 斯卡拉 2 11 12 在我的用例中 kafka 流采用 xml 格式以下是我尝试过的代码 val
将类型安全配置conf文件传递给DataProcSparkOperator

我正在使用 Google dataproc 提交 Spark 作业并使用 google Cloud Composer 来安排它们不幸的是我面临着困难我依靠 conf文件类型安全配置文件将参数传递给我的 Spark 作业我正在将
如何从本地模式下运行的 pyspark 中的 S3 读取数据？

我正在使用 PyCharm 2018 1 使用 Python 3 4 并通过 virtualenv 中的 pip 安装 Spark 2 3 本地主机上没有安装hadoop 因此没有安装Spark 因此没有SPARK HOME HADOOP
对 SQL 时间序列进行采样

我有一个日期时间的时间序列存储在 mySQL 中的双列并且希望每分钟对时间序列进行采样即以一分钟的间隔提取最后一个值有没有一种有效的方法可以在一个 select 语句中执行此操作蛮力方法将涉及选择整个系列并在客户端进行采样或为每个
尝试创建 jar 时出现 UNRESOLVED DEPENDENCIES 错误

我正在尝试构建一个 Scala jar 文件以在 Spark 中运行它我正在关注这个tutorial http spark apache org docs latest quick start html 当尝试使用 sbt 作为构建 ja
如何将多个 parquet 文件附加到 Pandas 中的一个数据帧

我正在使用 Spark 和 Pandas 解压缩 snappy parquet 文件我有 180 个文件我的 Jupyter 笔记本中有 7GB 数据根据我的理解我需要创建一个循环来获取所有文件用 Spark 解压缩它们并附加到
Spark、pyspark中从TF-IDF到LDA聚类

我正在尝试对存储在格式键 listofwords 中的推文进行聚类我的第一步是使用 dataframe 提取单词列表的 TF IDF 值 dbURL hdfs pathtodir file sc textFile dbURL Define
Apache Spark 中的高效字符串匹配

我使用 OCR 工具从屏幕截图中提取文本每个大约 1 5 句话然而当手动验证提取的文本时我注意到时不时会出现一些错误鉴于文本你好我真的很喜欢 Spark 我注意到 1 像 I 和 l 这样的字母被替换 2 表情符号未被正确提
Scala 中的行聚合

我正在寻找一种方法在 Scala 的数据框中获取一个新列来计算min max中的值col1 col2 col10对于每一行我知道我可以使用 UDF 来做到这一点但也许有一种更简单的方法 Thanks Porting 这个Python答案
PySpark - RDD 到 JSON

我有一个 Hive 查询返回以下格式的数据 ip category score 1 2 3 4 X 5 10 10 10 10 A 2 1 2 3 4 Y 2 12 12 12 12 G 10 1 2 3 4 Z 9 10 10 10 10
按元素聚合数组

Spark scala 相当新我想知道是否有一种简单的方法以按列方式聚合 Array Double 这是一个例子 c1 c2 c3 1 1 1 0 1 0 3 4 1 2 1 0 0 0 4 3 2 1 0 0 0 0 0 0 2 3 1
在 Spark 2.4 上的 pyspark.sql.functions.max().over(window) 上使用 .where() 会引发 Java 异常

我关注了一个帖子堆栈溢出 https stackoverflow com questions 48829993 groupby column and filter rows with maximum value in pyspark 488

随机推荐

Flutter-GestureDetector 不适用于堆栈中的容器

我在一个堆栈中有两个容器两个容器都有 GestureDetector 第一个容器的 OnTap 工作正常但它不能与另一个容器一起工作第一个容器是图像第二个容器是部分与第一个容器对齐的绿色背景 new Stack alignment
Java - 替代许多带有instanceof条件的else if语句

我有一段混乱的代码我真的很想清理它因为它有大约 12 个 else if 并且每个 if 语句都会检查 2 个对象的实例所以类似于 If parentObj 超类实例 ParentObj2 超类实例每个 if 语句执行不同的东西所
MAUI CreatePlatformView 从未被调用？

我最近一直在广泛尝试 MAUI 并试图创建一个自定义控件我猜我遇到了这个奇怪的问题 CreatePlatform 方法从未被调用起初我认为这是因为我正在使用 MAUI 类库并且有他们有一些问题所以我在同一个 MAUI 项目中创建了
sbt 0.12.4 - 有 x 功能警告；使用 -feature 重新运行以获取详细信息

我收到一个错误there were 15 feature warning s re run with feature for details usr local sbt bin sbt info Loading project defini
如何删除 GitLab 存储库中的标签

我正在使用 GitLab 7 7 2 并尝试删除 GitLab 存储库中的标签我可以删除本地存储库中的标签但无法删除源中的标签如何删除 GitLab 存储库中的标签 git tag d Tag AAA Deleted tag Tag
scikit learn 中 roc_curve 的阈值

我指的是下面的链接和示例并从本页发布我感到困惑的绘图我的困惑是只有 4 个阈值但 roc 曲线似乎有很多数据点 gt 4 个数据点想知道 roc curve 底层如何工作以找到更多数据点 http scikit learn org
对 pandas/matplotlib 条形图中的条形顺序进行排序

在 pandas 的列中对级别进行排序以给出条形图中条形的特定顺序的 Pythonic pandas 方式是什么例如给定 import pandas as pd df pd DataFrame group a a a a a a a
Liquibase：如何始终运行变更集作为最后一个更新操作

我在用着液体碱 http www liquibase org在我的项目中每次 Liquibase 更新后都需要执行一个过程目前变更集看起来像这样
如何指定自定义错误页面而不在 web.config 中的 httpErrors 上设置 defaultPath？

我目前正在致力于将 ASP NET 网站部署到共享托管环境并且这按预期工作呈现 404 页
无法执行目标 com.google.appengine:appengine-maven-plugin:1.9.67:devserver

嘿我在 devserver 上启动 Maven 项目和更新调用时遇到问题我建立了我的 Maven 项目来与谷歌云引擎一起运行但我遇到了这个问题并且无法启动我的服务器这是我的 pom xml
使用 Docker，触发 PANIC 的原因：无法找到有效的检查点记录

我试图更好地理解 Docker 但在这样做的过程中我似乎损坏了我的应用程序的 PostgreSQL 数据库我正在使用 Docker Swarm 启动我的应用程序但在 PostgreSQL 容器中的循环中收到以下错误 2021 02 1
阻止R在unix/linux上使用虚拟内存？

简洁版本有没有办法阻止 R 在 UNIX 机器上使用任何虚拟内存每当这种情况发生时都是因为我搞砸了然后我想中止计算加长版我正在与其他几个人共享的功能强大的计算机上处理大型数据集有时我启动的命令需要比可用内存更多的内存这会导
文件资源管理器/项目窗口中的 PhpStorm 浅黄色突出显示，它是什么以及如何更改颜色？

我刚刚开始使用 PhpStorm 当我查看我的vendor目录由 Composer 管理中我看到背景颜色是浅黄色并且与我当前的主题不可读在所有目录中都是这样vendor folder 这是什么意思如何更改背景颜色这种颜色通常意
在 WPF 中，我可以拥有一个具有常规最小化、最大化和关闭按钮的无边框窗口吗？

如果您在最大化时查看 Chrome 浏览器您会发现它的选项卡标题位于窗口顶部我可以做类似的事情吗当然可以但是您必须自己重新制作这些按钮这并不难不用担心在您的 MainWindow xaml 中
单选按钮的文本换行不正确

I have 2 html radio buttons separated by br tags where the text is wrapping under the radio button instead of aligning w
从 Windows 命令提示符运行 JavaScript

我编写了以下 JavaScript 代码将二进制数转换为十进制数 function bin dec num var x num var result 0 for var i 0 i lt x length i result eval x
为 ASP.NET Identity 配置 Unity DI

我成功地使用 Unity 进行所有常规构造函数注入例如存储库等但无法使其与 ASP NET Identity 类一起使用设置是这样的 public class AccountController ApiController priva
将 AutoHideSplashScreen 选项与 PhoneGap / Cordova 应用程序结合使用

我已经尝试过plugin https github com phonegap phonegap plugins tree master iPhone SplashScreen但我似乎不知道如何让它与科尔多瓦一起工作没有插件navigato
将数据库中的多个纬度/经度点加载到谷歌地图标记中的好方法？

我有一个包含多个地址的表包括它们的纬度经度坐标并且我想使用 asp net webforms 和 Google Maps Javascript API V3 将其中许多标记一次性放置到 google 地图上这些教程展示了如何添加一个
PySpark：如何重新采样频率

想象一个由变量的值观察组成的 Spark Dataframe 每个观察都有一个特定的时间戳并且不同变量之间的这些时间戳不相同这是因为时间戳是在变量值更改并记录时生成的 Variable Time Value 852 YF 007 201

PySpark：如何重新采样频率

PySpark：如何重新采样频率 的相关文章

随机推荐

热门标签

PySpark：如何重新采样频率的相关文章