如何在 Pyspark 中添加带有 min 和 max 函数的新列并按数据分组？

2023-12-26

PySpark 数据框：adobeDF

将新列添加到数据框：

from pyspark.sql.window import Window
from pyspark.sql import functions as f
adobeDF_new = adobeDF.withColumn('start_date', f.col('Date')).withColumn('end_date', f.col('Date'))

Result:

我试图找出有关如何保存 start_date 中的 min(Date) 值和 end_Date 中的 max(Date) 值的代码，并按 post_evar10 和 Type 对最终数据帧进行分组。

我尝试过的：下面的代码可以工作，但想看看是否有更好的方法来做到这一点并将数据限制为从 start_date 起 60 天

from pyspark.sql.window import Window
from pyspark.sql import functions as f
adobe_window = Window.partitionBy('post_evar10','Type').orderBy('Date')
adobeDF_new = adobeDF.withColumn('start_date', min(f.col('Date')).over(adobe_window)).withColumn('end_date', max(f.col('Date')).over(adobe_window))

下面的怎么样？

adobeDF.groupBy("post_evar10").agg(
    f.min("start_date").alias("min_start"),
    f.max("end_date").alias("max_end")
)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python3x

DataFrame

PySpark

Databricks

如何在 Pyspark 中添加带有 min 和 max 函数的新列并按数据分组？的相关文章

Python从int到string的快速转换

我正在用 python 求解大量阶乘并发现当我完成计算阶乘时需要相同的时间才能转换为字符串以保存到文件中我试图找到一种将 int 转换为字符串的快速方法我将举一个计算和 int 转换时间的例子我正在使用通用的 a str a 但感
希伯来语中的稀疏句子标记化错误

尝试对希伯来语使用稀疏句子标记 import spacy nlp spacy load he doc nlp text sents list doc sents I get Warning no model found for he Onl
Jupyter Notebooks 不显示进度条

我正在尝试在 Jupyter 笔记本中显示进度条这是一台新电脑我通常做的事情似乎不起作用 from tqdm import tqdm notebook example iter 1 2 3 4 5 for rec in tqdm not
为什么我的代码不能根据字典解码加密字符串？

我有一本字典其中包含代表字母的键和值例如一个简单的 DICT CODE b g n a p o x d t y 我收到了一个加密代码并将该字符串转换为一个列表其中每个项目都是一个单词我需要根据字典中的项目来解决它代码示例是 wo
Tweepy StreamListener 到 CSV

我是 python 新手我正在尝试开发一个应用程序使用 Tweepy 和 Streaming API 从 Twitter 检索数据并将数据转换为 CSV 文件问题是此代码不会创建输出 CSV 文件也许是因为我应该将代码设置为在实现例
在 macOS 中通过 Python 访问进程的压缩 RAM（顶部的 CMPRS）的方法？

我试图弄清楚如何从 Python 访问任何给定进程占用的实际 RAM 量我发现 psutil Process PID memory info rss 工作得很好直到操作系统决定开始压缩某些进程的 RAM 然后所有的 memory in
如何在 Python 3 中循环遍历集合，同时从集合中删除项目

这是我的情况我有一个list set 哪个并不重要 movieplayer我想调用的对象 preload 功能开启该预加载函数可以立即返回但希望将来返回一点我想存储这个电影播放器集合表明它们尚未预加载然后循环它们调用prel
python 中的 Johansen 协整检验

我找不到任何有关在处理统计和时间序列分析 pandas 和 statsmodel 的 Python 模块中执行 Johansen 协整检验的功能的参考有谁知道是否有一些代码可以执行时间序列之间的协整测试现在这已在 Python 的 s
与 while 循环一样，如何跳过 for 循环中的步骤？

我尝试像 while 循环一样跳过 for 循环中的几个步骤在 while 循环中步骤根据特定条件进行调整如下面的代码所示 i 0 while i lt 10 if i 3 i 5 else print i i i 1 result
django-admin.py makemessages 不起作用

我正在尝试翻译一个字符串 load i18n trans Well Hello there how are you to Hola amigo que tal 我的 settings py 文件有这样的内容 LOCALE PATHS os
如何使用 paramiko 查看（日志）文件传输进度？

我正在使用 Paramiko 的 SFTPClient 在主机之间传输文件我希望我的脚本打印文件传输进度类似于使用 scp 看到的输出 scp my file user host user host password my file 1
Pandas style.bar 颜色基于条件？

如何渲染其中一列的 Pandas dfstyle bar color属性是根据某些条件计算的 Example df style bar subset before after color ff781c vmin 0 0 vmax 1 0 而
将文本注释到轴并对齐为圆

我正在尝试在轴上绘制文本并将该文本与圆对齐更准确地说有一些具有不同坐标 x y 的点位于该圆内并使用以下命令创建 ax scatter x y s 100 我想用圆圈连接并标记每个点 Cnameb 文本的坐标由 xp yp 定义因此
解析根元素内元素之间的 XML 文本

我正在尝试用 Python 解析 XML 以下是 XML 结构的示例 a aaaa1 b bbbb b aaaa2 a
Python 声音（“铃声”）

我想让一个 python 程序在完成任务时通过发出嘟嘟声来提醒我目前我使用import os然后使用命令行语音程序说进程完成我更愿意它是一个简单的铃我知道有一个函数可以用于Cocoa apps NSBeep 但我认为这与此没有太
如何使用 Keras ImageDataGenerator 预测单个图像？

我已经训练 CNN 对图像进行 3 类分类在训练模型时我使用 keras 的 ImageDataGenerator 类对图像应用预处理功能并重新缩放它现在我的网络在测试集上训练得非常准确但我不知道如何在单图像预测上应用预处理功能如
如何使用 matplotlib 为圆柱体的每个单独面添加颜色

我正在尝试为圆柱体的每个面着色但是我不确定如何进行我尝试了以下方法 for i in range 10 col append for i in range 10 for j in range 20 col i append plt cm
为什么 smtplib.SMTP().sendmail 不发送 DKIM 签名邮件

我已经在服务器上设置了 postfix 以及 openDKIM 当我跑步时 echo Testing setup mail s Postfix test my email address 我收到电子邮件邮件标题中有一个DKIM Signa
Pandas - 合并数据框以将所有值保留在左侧，如果“左侧没有键”，则从右侧“插入”值，否则“更新”左侧现有的“键”

我有两个数据框 df1 和 df2 np random seed 0 df1 pd DataFrame key A B C D id 2 23 234 2345 2021 np random randn 4 df2 pd DataFrame
Django 模型：如何使用 mixin 类来覆盖 django 模型以实现 save 等功能

我想在每次保存模型之前验证值所以我必须重写保存函数代码几乎是一样的我想把它写在 mixin 类中但失败了我不知道如何写 super func 我英语不好抱歉 class SyncableMixin object def sav

随机推荐

取自 .mp4 的 H.264 解码器配置记录的格式

我正在检查从 Android 设备录制的 mp4 视频文件中包含的解码器配置记录有些设备的解码器配置记录中写入了奇怪或不正确的参数以下是来自 Galaxy Player 4 0 的示例该示例是不正确的 DecoderConfigura
MYSQL 和 Phpmyadmin 没有显示相同的数据库

我正在运行 XAMMP 我通过 Homebrew 安装了 MYSQLbrew install mysql 然而当我跑步时show databases 登录后在终端中mysql u root 我明白了 Database information
查找 PHP 服务器的可用端口

PHP 5 4 带有一个用于开发目的的内置服务器这是我已经等待了几个月的事情因为到目前为止我不得不编写一个 PHP 脚本来侦听传入的连接并处理它们因为我不想惹麻烦以及安装实际服务器的开销我要担心的主要事情是如何分配端口在我的
如何将现有的nodejs服务器应用程序连接到Azure SQL数据库

任何人都可以请建议我有一个在 azure 上运行的现有 Nodejs 服务器在 Linux 上运行节点 10 14 项目代码位于 github 上当我推送更改时它们会自动推送到 azure 我已经通过Azure门户设置了数据库服务器
为什么 Facebook 淹没了我的网站？

每个半小时我都会收到大量的请求http www facebook com externalhit uatext php http www facebook com externalhit uatext php 我知道这些请求意味着什么但这
Django url 调试器

我正在开发一个 Django 应用程序随着时间的推移 URL 不断增长我现在有很多这样的视图由于我做了一些改变一个视图开始出现故障当我尝试获取时http example com foo edit profile http exam
将 C 字符串转换为二进制表示形式

在 ANSI C 中我们如何将字符串转换为二进制字节数组所有的谷歌搜索和搜索都给了我 C 和其他而不是 C 的答案我的一个想法是将字符串转换为 ASCII 然后将每个 ASCII 值转换为其二进制呃我知道这是最愚蠢的想法但我不确
React-Native-Video -> 如何保存视频

我目前正在使用react native video 并通过该包播放HLS 视频流有人知道如何将视频下载到手机图库吗查看该包没有任何方法并且想知道是否还有另一个包可以使用 Thanks 在我的应用程序中我使用以下命令下载视频RNFS
Azure 中的 Web 应用服务每天重新启动多次，日志中没有错误

我正在 Azure Web 应用服务中运行 ASP Net Web API 2 应用程序 Web 服务每天会重新启动多次 5 6 次而不会提前发出任何通知或错误消息我扩展到两个实例始终不依赖于负载并且两个实例同时重新启动我确实设置
Sql 服务器表分区 - 我可以跨服务器分配表吗？

我读过很多网站指南等另请注意我无法测试我所要求的内容因为没有两台计算机表分区简单地意味着表被逻辑划分这样特定范围仅由特定分区处理从而减少负载并允许并行性提到分区位于不同的硬盘上但从未提到分区位于不同的计算机上那可能吗例
每行具有不同标准差的 Numpy 数组

我想要一个NxM矩阵其中每行中的数字是从不同正态分布生成的随机样本相同mean但标准差不同以下代码有效 import numpy as np mean 0 0 same mean stds 1 0 2 0 3 0 different
Kendo UI 中单击自定义工具栏时如何调用函数？

我想创建一个自定义工具栏这是我的代码 toolbar text Go to Add User Page className k grid custom imageClass k add function createUser alert
不包括程序集版本的 WCF 扩展

正如所讨论的here http marcgravell blogspot com 2009 11 controlling wcf protobuf net at html 我正在尝试添加 WCF 端点扩展我已经让它工作了但我需要包含完整
哪个是支持代码重新加载的简约 python wsgi 开发服务器？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案据我所知 wsgiref 无需重新加载代码 CherryPy 不仅仅是服务器 mod wsgi 所有 apache 开销 Paste https
在 StreamBuilder 中使用选择器（提供程序）时重建不必要的小部件

我正在使用一个Selector当 Bloc 中的数据发生更改时会重建这很好但是当数据发生变化时它会重新加载整个树而不仅仅是选择器内的构建器就我而言选择器位于 StreamBuilder 内我需要这个因为流已连接到 API 因
Pandas DataFrame 按两列分组并获取第一个和最后一个

我有一个DataFrame喜欢跟随 df pd DataFrame id 1 1 2 3 2 value a b a a c Time 6 Nov 2012 23 59 59 0600 6 Nov 2012 00 00 05 0600 7
zend框架丢失会话

我正在尝试在我的 Zend 框架应用程序中实现 Flash 上传器但我在会话中遇到问题 Flash 不发送任何 cookie 标头这就是会话丢失的原因我试图将 sessionId 作为 post 参数发送并在我的引导文件中添加了 s
从 File.ReadAllBytes (byte[]) 中删除字节顺序标记

我有一个 HTTPHandler 它正在读取一组 CSS 文件并将它们组合起来然后对它们进行 GZipping 但是某些 CSS 文件包含字节顺序标记由于 TFS 2005 自动合并中的错误并且在 FireFox 中 BOM 被作为
如何使用点绘制 pandas 数据框的两列

我有一个 pandas 数据框想要绘制一列中的值与另一列中的值幸运的是有plot与数据帧关联的方法似乎可以满足我的需要 df plot x col name 1 y col name 2 不幸的是它看起来像在情节风格中列出here
如何在 Pyspark 中添加带有 min 和 max 函数的新列并按数据分组？

PySpark 数据框 adobeDF 将新列添加到数据框 from pyspark sql window import Window from pyspark sql import functions as f adobeDF new a

如何在 Pyspark 中添加带有 min 和 max 函数的新列并按数据分组？

如何在 Pyspark 中添加带有 min 和 max 函数的新列并按数据分组？ 的相关文章

随机推荐

热门标签

如何在 Pyspark 中添加带有 min 和 max 函数的新列并按数据分组？的相关文章