插入缺失的日期行并在新行中插入旧值 PySpark

2024-02-05

我有一个 DataFrame，其中包含一个人、一个体重和时间戳，如下所示：

+-----------+-------------------+------+
|     person|          timestamp|weight|
+-----------+-------------------+------+
|          1|2019-12-02 14:54:17| 49.94|
|          1|2019-12-03 08:58:39| 50.49|
|          1|2019-12-06 10:44:01| 50.24|
|          2|2019-12-02 08:58:39| 62.32|
|          2|2019-12-04 10:44:01| 65.64|
+-----------+-------------------+------+

我想填写这样的内容，让每个人每个日期都有一些东西，这意味着上面的内容应该是：

+-----------+-------------------+------+
|     person|          timestamp|weight|
+-----------+-------------------+------+
|          1|2019-12-02 14:54:17| 49.94|
|          1|2019-12-03 08:58:39| 50.49|
|          1|2019-12-04 00:00:01| 50.49|
|          1|2019-12-05 00:00:01| 50.49|
|          1|2019-12-06 10:44:01| 50.24|
|          1|2019-12-07 00:00:01| 50.24|
|          1|2019-12-08 00:00:01| 50.24|
|          2|2019-12-02 08:58:39| 62.32|
|          2|2019-12-03 00:00:01| 62.32|
|          2|2019-12-04 10:44:01| 65.64|
|          2|2019-12-05 00:00:01| 65.64|
|          2|2019-12-06 00:00:01| 65.64|
|          2|2019-12-07 00:00:01| 65.64|
|          2|2019-12-08 00:00:01| 65.64|
+-----------+-------------------+------+

我定义了一个新表，使用datediff包含最小日期和最大日期之间的所有日期：

min_max_date = df_person_weights.select(min("timestamp"), max("timestamp")) \
        .withColumnRenamed("min(timestamp)", "min_date") \
        .withColumnRenamed("max(timestamp)", "max_date")

min_max_date = min_max_date.withColumn("datediff", datediff("max_date", "min_date")) \
        .withColumn("repeat", expr("split(repeat(',', datediff), ',')")) \
        .select("*", posexplode("repeat").alias("date", "val")) \
        .withColumn("date", expr("date_add(min_date, date)"))

这给了我一个新的 DataFrame，其中包含如下日期：

+----------+
|      date|
+----------+
|2019-12-03|    
|2019-12-03|
|2019-12-04|
|2019-12-05|
|2019-12-06|
|2019-12-07|
|2019-12-08|
+----------+

我尝试过不同的连接，例如：

min_max_date.join(df_price_history, min_max_date.date != df_price_history.date, "leftouter")

但我没有得到我需要的结果，有人可以帮忙吗？如何合并我现在拥有的信息？

您正在寻找前向填充数据集。这变得有点复杂，因为您需要按类别（人）进行操作。

一种方法是这样的：创建一个新的 DataFrame，其中包含您想要为每个人赋值的所有日期（见下文，这只是dates_by_person).

然后，将原始 DataFrame 左连接到此 DataFrame，以便开始创建缺失的行。

接下来，使用加窗函数在每组中查找person，按日期排序，最后一个非空权重。如果每个日期可以有多个条目（因此一个人在一个特定日期有多个填写的记录），您还必须按时间戳列进行排序。

最后合并列，以便任何空字段都被预期值替换。

from datetime import datetime, timedelta
from itertools import product

import pyspark.sql.functions as psf
from pyspark.sql import Window

data = (  # recreate the DataFrame
    (1, datetime(2019, 12, 2, 14, 54, 17), 49.94),
    (1, datetime(2019, 12, 3, 8, 58, 39), 50.49),
    (1, datetime(2019, 12, 6, 10, 44, 1), 50.24),
    (2, datetime(2019, 12, 2, 8, 58, 39), 62.32),
    (2, datetime(2019, 12, 4, 10, 44, 1), 65.64))
df = spark.createDataFrame(data, schema=("person", "timestamp", "weight"))

min_max_timestamps = df.agg(psf.min(df.timestamp), psf.max(df.timestamp)).head()
first_date, last_date = [ts.date() for ts in min_max_timestamps]
all_days_in_range = [first_date + timedelta(days=d)
                     for d in range((last_date - first_date).days + 1)]
people = [row.person for row in df.select("person").distinct().collect()]
dates_by_person = spark.createDataFrame(product(people, all_days_in_range),
                                        schema=("person", "date"))

df2 = (dates_by_person.join(df,
                            (psf.to_date(df.timestamp) == dates_by_person.date)
                            & (dates_by_person.person == df.person),
                            how="left")
       .drop(df.person)
       )
wind = (Window
        .partitionBy("person")
        .rangeBetween(Window.unboundedPreceding, -1)
        .orderBy(psf.unix_timestamp("date"))
        )
df3 = df2.withColumn("last_weight",
                     psf.last("weight", ignorenulls=True).over(wind))
df4 = df3.select(
    df3.person,
    psf.coalesce(df3.timestamp, psf.to_timestamp(df3.date)).alias("timestamp"),
    psf.coalesce(df3.weight, df3.last_weight).alias("weight"))
df4.show()
# +------+-------------------+------+
# |person|          timestamp|weight|
# +------+-------------------+------+
# |     1|2019-12-02 14:54:17| 49.94|
# |     1|2019-12-03 08:58:39| 50.49|
# |     1|2019-12-04 00:00:00| 50.49|
# |     1|2019-12-05 00:00:00| 50.49|
# |     1|2019-12-06 10:44:01| 50.24|
# |     2|2019-12-02 08:58:39| 62.32|
# |     2|2019-12-03 00:00:00| 62.32|
# |     2|2019-12-04 10:44:01| 65.64|
# |     2|2019-12-05 00:00:00| 65.64|
# |     2|2019-12-06 00:00:00| 65.64|
# +------+-------------------+------+

编辑：正如大卫在评论中建议的那样，如果你有很多人，那么构建dates_by_people不需要将所有东西都交给驾驶员即可完成。在这个例子中，我们讨论的是少量的整数，没什么大的。但如果它变大，请尝试：

dates = spark.createDataFrame(((d,) for d in all_days_in_range),
                              schema=("date",))
people = df.select("person").distinct()
dates_by_person = dates.crossJoin(people)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PySpark

插入缺失的日期行并在新行中插入旧值 PySpark 的相关文章

Pandas 使用列作为后缀进行透视

我有一个类似于以下示例的数据框 Id Type Value 1 Value 2 1234 A 1 2 1234 B 1 2 789 A 1 2 789 B 1 2 567 A 1 2 我想转换以获得以下内容 Id Value 1 A Val
如果我们在更大的表中使用广播会发生什么？

我想知道如果我们广播较大的表并将其加入到较小的表中会发生什么另外如果我们有两个同样大的表在这种情况下使用广播连接会发生什么有几件事需要考虑火花上限 Spark支持最大8GB的广播表如果你的广播对象超过这个数量它就会失败驱动程
Spark：将 bytearray 转换为 bigint

尝试使用 pyspark 和 Spark sql 将 kafka 键二进制字节数组转换为 long bigint 会导致数据类型不匹配无法将二进制转换为 bigint 环境详情 Python 3 6 8 Anaconda custo
在 PySpark 中展平动态嵌套结构（结构内的结构）

我正在努力展平结构内有结构的 JSON 模式问题是内部结构名称是动态的因此我无法使用轻松访问它们概念该架构类似于 root A string nullable true Plugins struct nullable true R
如何在 Pyspark 中启用 Apache Arrow

我正在尝试启用 Apache Arrow 来转换为 Pandas 我在用 pyspark 2 4 4 pyarrow 0 15 0 熊猫0 25 1 numpy 1 17 2 这是示例代码 spark conf set spark sql
在 pyspark 中实现递归算法以查找数据帧中的配对

我有一个火花数据框 prof student df 列出了时间戳的学生教授对每个时间戳有 4 位教授和 4 位学生每个教授学生对都有一个分数因此每个时间范围有 16 行对于每个时间范围我需要找到教授学生之间的一对一配对以
Jupyter Notebook 上未显示结构化流输出

我有两个笔记本第一个笔记本正在使用 tweepy 从 twitter 读取推文并将其写入套接字其他笔记本正在使用 Spark 结构化流 Python 从该套接字读取推文并将其结果写入控制台不幸的是我没有在 jupyter 控制台上得到
AWS EMR PySpark 连接到 mysql

我正在尝试使用 jdbc 通过 pyspark 连接到 mysql 我可以在 EMR 之外完成此操作但是当我尝试使用 EMR 时 pyspark 无法正确启动我在我的机器上使用的命令 pyspark conf spark executo
将数据作为 RDD 保存回 Cassandra

我试图从 Kafka 读取消息处理数据然后将数据添加到 cassandra 中就像它是 RDD 一样我的麻烦是将数据保存回 cassandra 中 from future import print function from pys
保存的数据带有不需要的引号

我使用以下代码将数据框导出到 csv data write format com databricks spark csv options delimiter t codec org apache hadoop io compress Gz
错误：从列表创建 Spark 数据帧时 TimestampType 无法接受对象

我正在尝试从以下列表创建一个数据框 data 1 abc 2020 08 20 10 00 00 I 1 abc 2020 08 20 10 01 00 U 1 abc 2020 08 21 10 02 00 U 2 pqr 2020 08
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
如何过滤 pyspark 列表中值的列？

我有一个数据框原始数据我必须在 X 列上应用值 CB CI 和 CR 的过滤条件所以我使用了下面的代码 df dfRawData filter col X between CB CI CR 但我收到以下错误 Between 恰好需要 3
Spark：出现心跳错误后丢失数据

我有一个在 Spark 集群上运行的 Python 程序有四个工作线程它处理一个包含大约 1500 万条记录的巨大 Oracle 表检查结果后发现大约有600万条记录没有插入我的写入功能如下 df write format jdbc
通过过滤对 Pyspark Dataframe 进行分组

我有一个数据框如下 cust id req req met 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 我必须观察客户看看他们有多少要求看看
根据 pyspark 中的条件从数据框中删除行

我有一个包含两列的数据框 col1 col2 22 12 2 1 2 1 5 52 1 2 62 9 77 33 3 我想创建一个新的数据框它只需要行 col1 的值 gt col2 的值就像注释一样col1 很长类型和col2 有双
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
pyspark加入多个条件

我如何指定很多条件当我使用pyspark时 join 例子与蜂巢 query select a NUMCNT b NUMCNT as RNUMCNT a POLE b POLE as RPOLE a ACTIVITE b ACTIVIT
PySpark - 系统找不到指定的路径

Hy 我已经多次运行 Spark Spyder IDE 今天我收到这个错误代码是相同的 from py4j java gateway import JavaGateway gateway JavaGateway os environ SP
在 Jupyter 笔记本中使用 PySpark 读取 XML

我正在尝试读取 XML 文件 df spark read format com databricks spark xml load path to my xml 并收到以下错误 java lang ClassNotFoundExceptio

随机推荐

Ubuntu 11.10 上的 OpenCV

我刚刚将系统从 ubuntu 11 04 更新到 11 10 现在我无法再编译任何包含 OpenCV 库引用的 C 程序我已经尝试重新安装 OpenCV 我使用2 1版本但我遇到了这个错误 tmp ccArHTZL o In funct
如何按百分比设置 svg 宽度和 svg 高度？

我用 svg 创建了一条线但是当我调整浏览器大小时用 svg 创建的线没有调整大小我尝试以百分比设置 svg 的宽度但这样做后该线不会出现如何按百分比设置 svg 的宽度
Stream.dropWhile() 没有以两个不同的值返回正确的值

我正在尝试学习 Java 9 中的新功能我开始了解 Stream 的 dropWhile 方法但它在两种不同的场景中返回不同的值这是我的代码 package src module import java util stream Col
从模态窗口打开的帮助文件没有响应

使用Delphi XE2 Win64 因此我有一个包含许多表单的大型应用程序如果我从主表单打开帮助文件并打开模式窗口然后按 F1 在模式窗口上触发上下文相关帮助帮助文件窗口将显示正确的信息但是在关闭模式窗口之前无法关闭帮助文件
Devise + Omniauth 登录 Facebook 时调用操作通道

当我尝试使用 Omniauth 和 Devise 登录 Facebook 时 passthru被称为而不是facebook 我如何通过link to user omniauth authorize path facebook 我多次修改代码
Web Worker 与 Promise

为了使 Web 应用程序具有响应能力您可以使用异步非阻塞请求我可以设想两种方法来实现这一目标一种是使用 deferreds promise 另一个是网络工作者对于 Web Workers 我们最终引入了另一个流程并且产生了来回整理
PHP 错误日志已停止工作。它确实起作用了

它已经工作了很长时间并且停止了我一定错过了一些明显的东西 File etc php5 apache2 php ini相关设置有 display errors On I am not sure if this makes a differe
NSUndoManager：重做不起作用

我正在制作一个使用 NSSlider 的简单应用程序可以使用两个按钮将其设置为最大值或最小值撤消管理器应跟踪所有更改并允许撤消重做使用这两个按钮所做的所有更改这是界面 import
生成一个范围内的随机偶数？

这是我遵循的格式 int randomNum rand nextInt max min 1 min 这是我的代码我正在尝试获取 1 到 100 之间的随机偶数 Random rand new Random int randomNum ra
如果我想使用 gitignore 中的文件怎么办

对于敏感数据例如 aws 密钥或密码我将它们放入 gitignore 中的文件中以确保它不会提交到 git 但是当脚本运行时要使用按键时我该怎么办运行前手动添加文件中的关键内容如果程序需要由Jenkins定期触发怎么办谁能帮
Django：操作错误没有这样的表

我正在使用 Django CMS 的 Django 项目中构建一个相当简单的应用程序 Research 这是我对项目应用程序的第一次尝试它的主要目的是存储各种知识资产即研究人员撰写的文章书籍等问题是当我将浏览器指向 researc
Visual Studio 监视中的向量“无运算符“[]”与这些操作数匹配”错误

在 Visual Studio 2012 中单步执行以下示例代码时 std vector
如何在 OpenGL 中对 glutSolidTorus 进行纹理处理？ [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我正在尝试纹理glutSolidTorus 这是我的代码 glColor3f 1 0f 1 0f 1 0f glEnab
UIButton 垂直对齐不起作用

我不明白为什么在下面的代码中标题对齐没有保持在顶部 UIButton btn2 UIButton buttonWithType UIButtonTypeRoundedRect btn2 titleLabel font UIFont sys
编辑主键

如果表只包含主键字段是否可以在 MVC3 中编辑主键例如我有一个控制台表其中我将控制台名称作为主键我希望能够编辑它并更改它并保存编辑后的值如果您需要更多信息请告诉我作为一般规则您永远不应该编辑主键 SQL Server 中
Jquery：如何向 mouseleave 添加延迟，以便如果有人无意间将鼠标悬停在元素上，它仍然保持打开状态

悬停意图插件与我需要的相反我有一个由 trigger 触发的 popup 当我将鼠标悬停在其上时我希望 popup 在几秒钟内不淡出但如果我将鼠标悬停然后再次悬停则取消将要发生的淡出并保持 popup 打开有谁知道我会怎么做这
反应式扩展超时不会停止序列？

我正在尝试做一个IObservable
为我的数据库 mysql 中的每一行调用 php 脚本

如果这是一个愚蠢的问题我很抱歉但我现在不知道如何为表中的每一行调用 php 脚本我正在使用mysql 我以后会使用PDO 我知道它更好这是我的选择页面我在其中选择所需的行
Printer_open() 打印 html 输出

With printer open php 中的函数我可以打印我保存的字符串 content变量并且能够从文件打印 printer Pserver php net printername handler printer open pri
插入缺失的日期行并在新行中插入旧值 PySpark

我有一个 DataFrame 其中包含一个人一个体重和时间戳如下所示 person timestamp weight 1 2019 12 02 14 54 17 49 94 1 2019 12 03 08 58 39 50 49 1 2

插入缺失的日期行并在新行中插入旧值 PySpark

插入缺失的日期行并在新行中插入旧值 PySpark 的相关文章

随机推荐

热门标签