重新索引并填充 PySpark 中缺失的日期

2023-12-02

有没有办法填充 PySpark 中缺少的列日期和行值？目前，我将数据帧转换为 Pandas 并在那里重新索引。

sdf.show()

+---+----------+----------+----------+
| id|2018-01-01|2018-01-03|2018-01-05|
+---+----------+----------+----------+
| 1 |       0.0|       1.0|       0.0|
| 2 |       4.0|       2.0|       0.0|
| 3 |       0.0|       1.0|       1.0|
| 7 |       0.0|       2.0|       9.0|
| 8 |       8.0|       0.0|       0.0|
| 9 |       0.0|       0.0|       3.0|
+---+----------+----------+----------+

idx = pd.date_range('01-01-2018', '01-07-2018').date    
df = sdf.toPandas()
df = df.set_index('id')
df = df.reindex(idx, axis=1, fill_value=0)

我在 PySpark 中找不到类似的东西。

期望的输出：

+---+----------+----------+----------+----------+----------+
| id|2018-01-01|2018-01-02|2018-01-03|2018-01-04|2018-01-05|
+---+----------+----------+----------+----------+----------+
| 1 |       0.0|       0.0|       1.0|       0.0|       0.0|
| 2 |       4.0|       0.0|       2.0|       0.0|       0.0|
| 3 |       0.0|       0.0|       1.0|       0.0|       1.0|
| 7 |       0.0|       0.0|       2.0|       0.0|       9.0|
| 8 |       8.0|       0.0|       0.0|       0.0|       0.0|
| 9 |       0.0|       0.0|       0.0|       0.0|       3.0|
+---+----------+----------+----------+----------+----------+

您可以使用lit()到中的值idx数据框中尚未存在。

注意我已将列转换为字符串只是为了测试：

ids = [str(i) for i in idx] #may not be required
to_add = [col for col in ids if col not in df.columns]
out = df.select(df.columns+ [lit(0).alias(name) for name in to_add])
out.show()

+---+----------+----------+----------+----------+----------+----------+----------+
| id|2018-01-01|2018-01-03|2018-01-05|2018-01-02|2018-01-04|2018-01-06|2018-01-07|
+---+----------+----------+----------+----------+----------+----------+----------+
|  1|       0.0|       1.0|       0.0|         0|         0|         0|         0|
|  2|       4.0|       2.0|       0.0|         0|         0|         0|         0|
|  3|       0.0|       1.0|       1.0|         0|         0|         0|         0|
|  7|       0.0|       2.0|       9.0|         0|         0|         0|         0|
|  8|       8.0|       0.0|       0.0|         0|         0|         0|         0|
|  9|       0.0|       0.0|       3.0|         0|         0|         0|         0|
+---+----------+----------+----------+----------+----------+----------+----------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pandas

PySpark

重新索引并填充 PySpark 中缺失的日期的相关文章

pyspark。数据框中的 zip 数组

我有以下 PySpark DataFrame id data 1 10 11 12 2 20 21 22 3 30 31 32 最后我想要以下 DataFrame id data
根据值合并行（pandas 到 excel - xlsxwriter）- 加法

跟进这个问题 https stackoverflow com questions 61217923 merge rows based on value pandas to excel xlsxwriter 61228294 noredire
使用 pandas 创建虚拟变量时 Jupyter Notebook 内核崩溃

我正在参加 Walmart Kaggle 竞赛并且正在尝试创建 FinelineNumber 列的虚拟列对于上下文 df shape回报 647054 7 我正在尝试制作一个虚拟列df FinelineNumber 其中有 5 196
Pandas：根据列名进行列的成对乘法

我有以下数据框 gt gt gt df pd DataFrame ap1 X 1 2 3 4 as1 X 1 2 3 4 ap2 X 2 2 2 2 as2 X 3 3 3 3 gt gt gt df ap1 X as1 X ap2 X a
Pyspark - 一次聚合数据帧的所有列[重复]

这个问题在这里已经有答案了我想将数据框分组到单个列上然后对所有列应用聚合函数例如我有一个包含 10 列的 df 我希望对第一列 1 进行分组然后对所有剩余列均为数字应用聚合函数 sum 与此等效的 R 是 summarise
根据列值拆分数据框

我有一个像这样的数据框 EndDate 2007 10 31 0 2007 11 30 0 03384464 2007 12 31 0 0336299 2008 01 31 0 009448923 2008 02 29 0 2008 03
动态添加 pandas 数据框中的列

我有以下代码来加载数据框 import pandas as pd ufo pd read csv csv path print ufo loc 0 1 2 给出以下输出请参阅 csv 的结构 City Colors Reported Sh
在seaborn barplot之前隐藏文本[重复]

这个问题在这里已经有答案了我正在尝试使用seaborn打印条形图 plt figure figsize 16 6 g sns barplot x A y B data df g set xticklabels g get xticklab
如何从 Spark 数据框中删除重复项，同时保留最新数据？

我正在使用 Spark 从 Amazon S3 加载 json 文件我想根据保留最新数据帧的两列删除重复项我有时间戳列最好的方法是什么请注意重复项可能分布在多个分区中我可以在不打乱的情况下删除保留最后一条记录的重复项吗我正在处
如何更改条形图上的 y 轴限制？

我有一个df 我从中索引了europe n我绘制了一个条形图 europe n r 5 c 45 looks like this df Country string df Population numeric 变量 plt bar df C
如何最好地将包含列表或元组的 Pandas 列提取到多个列中[重复]

这个问题在这里已经有答案了我不小心用错误重复的链接关闭了这个问题这是正确的 Pandas 将列表的列拆分为多列 https stackoverflow com questions 35491274 pandas split column
pandas 性能问题 - 需要帮助优化

我编写了一些大量使用 pandas 库的 python 代码代码似乎有点慢所以我通过 cProfile 运行它以查看瓶颈在哪里根据 cProfile 结果瓶颈之一是对 pandas lib scalar compare 的调用 16
如何将不同的函数应用于pandas数据框的不同列

我想在 pandas 数据帧上使用 groupby 但我想获取某些列的平均值和其他列的总和假设我们有以下数据框 ID A B C 1 1 1 0 1 2 3 1 1 3 6 1 4 3 2 1 4 4 1 0 6 5 1 0 6 6 6
是否有比 .apply() 更慢或更受控制的替代方案？

所以这似乎是一个奇怪的问题但我有一只熊猫DataFrame其中包含地址我想对其进行地理编码以便获得纬度和经度我有可以使用的代码 apply 感谢这个非常有帮助的线程使用 geopy pandas 的新列坐标 https stack
Pandas：如何从 Google Drive public 读取 CSV 文件？

我搜索了有关从 URL 读取 csv 的类似问题但找不到从 google 驱动器 csv 文件读取 csv 文件的方法我的尝试 import pandas as pd url https drive google com file d
从多个 url 导入表以创建单个数据框和 csv 文件

从多个 URL 导入表并希望创建单个数据框然后存储为 csv 文件我正在努力从表格中删除重复的描述并且无法操作数据框dfmaster创建后 Maybe pd read html是作为列表而不是数据框导入吗我尝试迭代传入的表并使用 fo
Plotly：如何创建月度和年度平均下拉选项？

我希望在 Plotly 中创建一个下拉菜单以将原始的每日时间序列重新采样为月平均值和年平均值总之我期望下拉列表中有 3 个选项第一个是绘制的原始每日时间步长第二个是重新采样的每日数据的月平均值第三个是可以选择的年度平均值这是迄
使用 Python 用另一个嵌套 Json 更新嵌套 Json

例如我有一套完整的嵌套 JSON 我需要使用另一个嵌套 JSON 中的最新值来更新此 JSON 谁能帮我这个我想在 Pyspark 中实现这个完整的 Json 看起来像这样 email email protected cdn cgi
如何将 pandas DataFrame 转换为 TimeSeries？

我正在寻找一种将 DataFrame 转换为 TimeSeries 而不拆分索引和值列的方法有任何想法吗谢谢 In 20 import pandas as pd In 21 import numpy as np In 22 dates
将函数按元素应用于两个 DataFrame

如何应用函数z ij f x ij y ij 来自数据框X and Y相同大小并将结果保存到 DataFrameZ 这取决于你有什么样的功能很多功能已经被矢量化为数据框例如等等所以对于这些功能你可以简单地做Z X Y or Z X

随机推荐

如何使用 RavenDB 中的自定义 JSON.NET 转换器反序列化为动态 DLL 中的类型？

我的 RavenDB 对象是根据动态加载的 DLL 中的类型创建的我无法将 DLL 加载到当前的执行上下文中AppDomain 因此 JSON 反序列化器无法找到类型我将如何使用定制转换器使用运行时加载的程序集中的类型 NB I tri
如何创建一个动态相等实现，您可以在其中传递要比较的属性名称？

假设我有一个具有以下属性的对象 Person public class Person public int ID get set public int EmployeeNo get set public string JobDescript
矢量::插入分段错误

我有一堂这样的课 classA public classA Here I am doing something but nothing related to vector void updateVec int idx int value H
水平对齐三张图像（只能将它们垂直对齐）

我似乎真的缺少一些关于如何使用 CSS 在屏幕上的一个块中水平排列三个图像的信息我似乎只能将它们在页面上排成一长行当我真的希望它们以水平线穿过屏幕时我的 div 哪里做错了或者也许我在 CSS 中被引入歧途有任何想法吗太感谢了
为什么在 C++ 中输入 void main() 不好 [重复]

这个问题在这里已经有答案了可能的重复 void main 和 int main 之间的区别 Why is void main return void bad 有一天我输入了此内容有人向我指出这样做是错误的我很困惑我这样写已经有一段
如何在顶点着色器中使用计时器来为 OpenGL 中的点大小设置动画

我正在尝试实现一个点云其中不同点的大小应根据与其相关的不确定性值而变化比方说如果这个值为零则大小应该是恒定的如果它接近 1 则这些点的半径应该变化得越来越大首先点的大小应该增加并且在达到最大值后它们应该减小直到最小值依此
C++-单例类

单例类可以被继承吗如果是那我们该怎么办呢编辑我的意思是说如果我们有一个使用单例设计模式的类那么它可以被继承吗单例有私有构造函数因此继承是不可能的除此之外单例具有实例化私有实例成员的静态方法并且由于您无法覆盖静态方法因
Python 中带有键的 sort_values()

我有一个数据框其中列名称是时间 0 00 0 10 0 20 23 50 现在它们按字符串顺序排序因此 0 00 是第一个 9 50 是最后一个但我想在时间之后对它们进行排序所以 0 00 是第一个 23 50 是最后一个 If
正则表达式捕获组 swift

我在字符串中有一个正则表达式搜索方法 extension String func searchRegex regex String gt Array
旋转后恢复倒计时

我有一个从 60 秒开始倒计时的倒计时器这个倒计时器通过将文本视图设置为剩余毫秒来工作但是每当我旋转设备时倒计时器就会重置我知道发生这种情况是因为活动会轮流重新启动因此我尝试将剩余的时间保存在捆绑包中然后在活动重新启动后恢复它
使用 SQL 查询查找订购 > x 种产品的客户的详细信息

请注意我见过类似的查询here 但认为我的查询足够不同值得提出一个单独的问题假设有一个包含以下表的数据库 customer table 包含 customer ID 关键字段 customer name 包含 order ID 关键字
无法使用 Google Calendar Api v3 获取访问令牌

我正在尝试将日历事件放入日历中而无需身份验证提示我读到使用 OAuth 服务帐户可以让您执行此操作我已经在我的 Google 开发者控制台中设置了服务帐户但对此没有任何运气我们有一个 Google 企业帐户我将我的委托用户设置
使用 PHP 解析 JSON

我从服务源中提取了以下 JSON 内容 global event ending at 2011 11 07T02 00 00Z short url http bit ly reAhRw created at 2011 10 04T14 25
Android 无法识别 Firebase“createCustomToken”

我正在实施使用自定义令牌登录我在以下位置找到了这段代码Firebase 文档 firebaseAuth createCustomToken uid addOnSuccessListener new OnSuccessListener
Jsoup从css获取背景图像路径

我正在寻找给定网站上的所有图像为此我需要找到 css 中的内容例如 gk crop background image url images style1 g rss 2 png 现在我的问题是如何使用 JSoup 获取所有这些 url
无法使用“(T，来自：数据)”类型的参数列表调用“解码”

我正在尝试创建一个函数该函数根据传递给它的自定义 JSON 模型接受 Codable 类型的参数错误 Cannot invoke decode with an argument list of type T from Data 发生在解
如何知道 ListView 中的哪个 LinkButton 被单击

我目前在 ListView 的 ItemTemplate 中有一个 LinkBut ton ListView 中的每个按钮都应调用相同的单击事件处理程序但是在处理程序中我需要知道单击了哪个按钮这可能吗
如何通过mssql存储过程读取远程（网络）机器中xml文件的内容

我尝试使用批量插入读取本地计算机中单个 xml 文件的内容 SELECT FROM OPENROWSET BULK FILENAME SINGLE CLOB AS xmlData 它正在工作但我正在尝试从远程机器读取数据它给出以下错误
在 Service Worker 更新时重新加载 Create-react-app

我要修改create react app服务人员file并实现弹出消息如果新的 Service Worker 已准备好激活该消息将要求用户更新应用程序我几乎完成了解决方案但有一个陷阱我想在用户确认服务工作人员更新弹出窗口时重新加载
重新索引并填充 PySpark 中缺失的日期

有没有办法填充 PySpark 中缺少的列日期和行值目前我将数据帧转换为 Pandas 并在那里重新索引 sdf show id 2018 01 01 2018 01 03 2018 01 05 1 0 0 1 0 0 0 2 4 0

重新索引并填充 PySpark 中缺失的日期

重新索引并填充 PySpark 中缺失的日期 的相关文章

随机推荐

热门标签

重新索引并填充 PySpark 中缺失的日期的相关文章