在 Spark 数据框中插入记录

2024-01-23

我在 pyspark 中有一个数据框。这是它的样子，

+---------+---------+
|timestamp| price   |
+---------+---------+
|670098928|  50     |
|670098930|  53     |
|670098934|  55     |
+---------+---------+

我想填补时间戳与之前状态之间的空白，这样我就可以获得一个完美的集合来计算时间加权平均值。输出应该是这样的 -

+---------+---------+
|timestamp| price   |
+---------+---------+
|670098928|  50     |
|670098929|  50     | 
|670098930|  53     |
|670098931|  53     |
|670098932|  53     |
|670098933|  53     |
|670098934|  55     |
+---------+---------+

最终，我想将这个新数据帧保留在磁盘上并可视化我的分析。

我如何在 pyspark 中执行此操作？（为了简单起见，我只保留了 2 列。在填补空白之前，我的实际数据框有 89 列，大约有 6.7 亿条记录。）

您可以生成时间戳范围，将其展平并选择行

import pyspark.sql.functions as func

from pyspark.sql.types import IntegerType, ArrayType


a=sc.parallelize([[670098928, 50],[670098930, 53], [670098934, 55]])\
.toDF(['timestamp','price'])

f=func.udf(lambda x:range(x,x+5),ArrayType(IntegerType()))

a.withColumn('timestamp',f(a.timestamp))\
.withColumn('timestamp',func.explode(func.col('timestamp')))\
.groupBy('timestamp')\
.agg(func.max(func.col('price')))\
.show()

+---------+----------+
|timestamp|max(price)|
+---------+----------+
|670098928|        50|
|670098929|        50|
|670098930|        53|
|670098931|        53|
|670098932|        53|
|670098933|        53|
|670098934|        55|
|670098935|        55|
|670098936|        55|
|670098937|        55|
|670098938|        55|
+---------+----------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

在 Spark 数据框中插入记录的相关文章

嵌套 json 中的结构化流式传输不同模式

您好我有一个场景传入的消息是一个 Json 其标题为表名数据部分包含表列数据现在我想将其写入镶木地板到单独的文件夹 emp and dept 我可以通过根据表名聚合行来在常规流式传输中实现此目的但在结构化流媒体中我无法分割它我怎
Spark 在执行 jdbc 保存时给出空指针异常

您好当我执行以下代码行时我得到以下堆栈跟踪 transactionDF write format jdbc option url SqlServerUri option driver driver option dbtable full
在地图类型中创建 DataFrame 分组列

My 数据框具有以下结构 df spark createDataFrame B a 10 B b 20 C c 30 Brand Type Amount df show Brand Type Amount B a 10 B b 20 C c
Pyspark - 根据条件重置累积和列

我有以下数据框 id date reset cumsum 1001 2023 04 01 false 0 1001 2023 04 02 false 0 1001 2023 04 03 false 1 1001 2023 04 04 fal
Spark-shell 使用不同版本的 Scala。使用 homebrew 安装 scala 和 apache-spark

我使用 homebrew 安装了 scala 和 apache spark 它安装了 scala 2 12 4 和 apache spark 2 2 0 但是如果您结帐spark shell version它使用不同的 scala 版本
如何将多个 parquet 文件附加到 Pandas 中的一个数据帧

我正在使用 Spark 和 Pandas 解压缩 snappy parquet 文件我有 180 个文件我的 Jupyter 笔记本中有 7GB 数据根据我的理解我需要创建一个循环来获取所有文件用 Spark 解压缩它们并附加到
Apache Spark 中的高效字符串匹配

我使用 OCR 工具从屏幕截图中提取文本每个大约 1 5 句话然而当手动验证提取的文本时我注意到时不时会出现一些错误鉴于文本你好我真的很喜欢 Spark 我注意到 1 像 I 和 l 这样的字母被替换 2 表情符号未被正确提
从 pySpark 中的字典构建一行

我正在尝试在 pySpark 1 6 1 中动态构建一行然后将其构建到数据帧中总体思路是扩展结果describe例如包括偏斜和峰度这是我认为应该起作用的 from pyspark sql import Row row dict C0
如何在 Pyspark 中使用滑动窗口对时间序列数据进行数据转换

我正在尝试根据时间序列数据的滑动窗口提取特征在Scala中似乎有一个sliding函数基于这个帖子 https stackoverflow com a 28863132 3089523 and 文档 http spark apache
无法在 Windows 10 中启动 Spark Master

我是 Spark 新手我正在尝试手动启动 master 在 Windows 10 中使用 MINGW64 当我这样做时 Downloads spark 1 5 1 bin hadoop2 4 spark 1 5 1 bin hadoop2
在 Databricks / Spark 中的 SQL 中为变量分配动态值

我觉得我一定在这里遗漏了一些明显的东西但我似乎无法在 Spark SQL 中动态设置变量值假设我有两张桌子 tableSrc and tableBuilder 我正在创建tableDest 我一直在尝试变体 SET myVar FLOA
使用列的长度过滤 DataFrame

我想过滤一个DataFrame使用与列长度相关的条件这个问题可能很简单但我在SO中没有找到任何相关问题更具体地说我有一个DataFrame只有一个Column哪一个ArrayType StringType 我想过滤DataFrame
PySpark DataFrame 上分组数据的 Pandas 式转换

如果我们有一个由一列类别和一列值组成的 Pandas 数据框我们可以通过执行以下操作来删除每个类别中的平均值 df DemeanedValues df groupby Category Values transform lambda g
在 Spark 2.4 上的 pyspark.sql.functions.max().over(window) 上使用 .where() 会引发 Java 异常

我关注了一个帖子堆栈溢出 https stackoverflow com questions 48829993 groupby column and filter rows with maximum value in pyspark 488
Spark SQL/Hive 查询通过 Join 永远持续下去

所以我正在做一些应该很简单的事情但显然它不在 Spark SQL 中如果我在 MySQL 中运行以下查询查询将在不到一秒的时间内完成 SELECT ua address id FROM user u inner join user a
Spark scala：大量列上的简单 UDF 会导致性能下降

我有一个包含 1 亿行和约 10 000 列的数据框这些列有两种类型标准 C i 和动态 X i 这个dataframe是经过一些处理后得到的性能很快现在只剩下2步了 Goal 需要使用 C i 列的相同子集对每个 X i 执行特定
与文件名中的冒号“：”作斗争

我有以下代码用于加载大量 csv gz 并将它们转储到其他文件夹中并将源文件名作为一列 object DailyMerger extends App def allFiles path File List File val parts
pyspark。数据框中的 zip 数组

我有以下 PySpark DataFrame id data 1 10 11 12 2 20 21 22 3 30 31 32 最后我想要以下 DataFrame id data
我可以使用 dask 创建 multivariate_normal 矩阵吗？

有点相关这个帖子 https stackoverflow com questions 52337612 random multivariate normal on a dask array 我正在尝试复制multivariate norma
Pyspark - 一次聚合数据帧的所有列[重复]

这个问题在这里已经有答案了我想将数据框分组到单个列上然后对所有列应用聚合函数例如我有一个包含 10 列的 df 我希望对第一列 1 进行分组然后对所有剩余列均为数字应用聚合函数 sum 与此等效的 R 是 summarise

随机推荐

使用安全模式=“TransportWithMessageCredential”测试WCF服务wsHttpBinding

我尝试使用soapUI进行测试但是在启用安全性时它不支持wsHttpBinding 使用 wsHttpBinding 时 soapUI 确实可以工作但安全性为零我们还尝试了 WCF Storm 它确实有效我们可以加载我们的客户端配置
跨节点项目共享通用打字稿代码

假设我有以下项目结构 webapps ProjectA SomeClass ts 包 json ProjectB SomeClass ts 包 json Common LoggingClass ts 包 json 公共 LoggingCla
如何在 Visual Studio (2010) 中突出显示 C（而不是 C++）语法？

我正在和朋友一起用 C 语言做一些小练习出于习惯我一直使用较新语言的关键字例如 bool new 我花了一段时间才意识到这是问题所在因为 VS 不断将它们突出显示为关键字即使它们不在 C 中我确保所有文件都是 c 并将项目属性设
C# 中的队列和等待句柄

我的应用程序中使用以下代码已有多年但从未发现其中出现问题 while PendingOrders Count gt 0 WaitHandle WaitAny CommandEventArr 1 lock PendingOrders if
jquery .click 被多次调用

我在 jQuery 尝试设置 div 的 click 方法时得到了意想不到的结果请参见这个jsfiddle http jsfiddle net fkMf9 请务必打开控制台窗口单击该单词几次并观察控制台输出 click 函数在只应调用一
PHP 计数函数与关联数组

有人可以向我解释一下 count 函数如何处理如下所示的数组吗我的想法是下面的代码输出 4 因为那里有 4 个元素 a array 1 gt A 1 gt B C 2 gt D echo count a count完全按照您的预期工作例
Android：在 Android Place Api 中提供自动自动建议吗？

我对 Android Google 地图非常陌生我编写了以下程序用于在 Android 中显示自动建议当我在自动完成文本框中键入文本时它将输入到 url 但输出未显示在程序中请看一次并让我知道我在哪里犯了错误 ExampleA
Matlab非线性灰盒系统辨识

我正在尝试进行非线性灰盒模型识别并且我正在使用以下代码我对输入向量输出向量和时间戳中的输入进行了测量 input output data 2 3 output output data 4 5 time output data 1 da
Clojure 中是否有替代 nil 双关语的惯用方法？

我目前正在阅读一些 Clojure 代码其中有一堆未初始化的值 nil用于传递记录中的数值现在有很多 Clo jure 库将其视为惯用语 https stackoverflow com questions 6045404 why clo
SQL Server 2008 Express 无法用于合并复制？

根据 Microsoft 的说法 SQL Server 2008 Express 应该能够作为拉取订阅者参与合并复制至少对于 RMO 对象来说是这样 http msdn microsoft com en us library ms1478
错误 800A01A8 需要对象

我有一个 VBScript 代码它给我一个错误提示需要对象错误 800A01A8 位于第 11 行和第 3 个字符这是代码 Dim strWebsite strWebsite 78 72 111 138 80 If PingSit
EF CTP4：“创建模型时无法使用上下文。”

我有两个实体学生和班级他们之间有多对多的关系 class Student ICollection
通过中断中间单词强制 Jasper HTML 报告换行

我在 Jaspersoft Studio 中创建了一个 Jasper 报告用于生成 HTML 报告它的宽度为 550px 其中一个数据字段包含 URL 其中一些可能非常长例如我遇到的问题是生成的报告不会破坏 URL 中间单词即查询
“dyn”在类型中意味着什么？

我最近看到代码使用dyn关键词 fn foo arg dyn Display fn bar gt Box
Python 中使用哪种正则表达式风格？

我想知道 Python 使用哪种 RegEx 风格它是 PCRE Perl 兼容的还是 ICU 或其他什么是兼容的enoughw Perl 这意味着大多数 Perl 表达式无需修改即可工作它的目标是与 Perl 兼容但当然也有一些
内联 Bootstrap 表单布局，标签位于输入上方

我想使用 Bootstrap 3 创建具有以下布局的表单我在这里尝试了一个jsfiddle http jsfiddle net quyB6 http jsfiddle net quyB6 我尝试过的标记
如何更改工作表选项卡的颜色

我有一个 python 脚本它从外部资源中提取数据并将数据添加到 Google 表格中在大多数情况下我一切正常除了我想更改选项卡的颜色以表示脚本状态整个过程首先复制工作表中的现有选项卡默认情况下模板选项卡具有黑色突出显示然后
System.out.printLn() 错误？ [关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我对 Java 编程非常陌生而且还不擅长我只是想编译这个小程序这样我以后就可以用它来解决继承和多态性问题我正在使用 JGr
JINI 还活跃吗？

与我交谈过的每个知道它的人都声称这是自切片面包以来最伟大的事情为什么失败了或者如果它没有失败现在谁在使用它查看千兆空间 http www gigaspaces com 这是一个相当成功的 Jini Javaspaces 实现我认
在 Spark 数据框中插入记录

我在 pyspark 中有一个数据框这是它的样子 timestamp price 670098928 50 670098930 53 670098934 55 我想填补时间戳与之前状态之间的空白这样我就可以获得一个完美的集合来计算时间加

在 Spark 数据框中插入记录

在 Spark 数据框中插入记录 的相关文章

随机推荐

热门标签

在 Spark 数据框中插入记录的相关文章