pyspark子串和聚合

2024-04-09

我是 Spark 新手，我有一个包含此类数据的 csv 文件：

date,            accidents, injured
2015/20/03 18:00    15,          5
2015/20/03 18:30    25,          4
2015/20/03 21:10    14,          7
2015/20/02 21:00    15,          6

我想按事件发生的特定时间汇总这些数据。我的想法是将日期子串为“年/月/日 hh”，不带分钟，这样我就可以将其作为键。我想按小时给出事故和伤害的平均值。也许 pyspark 有一种不同的、更智能的方法？

多谢你们！

好吧，我想这取决于你之后要做什么。

最简单的方法是按照您的建议进行操作：对日期字符串进行子串，然后聚合：

data = [('2015/20/03 18:00', 15, 5), 
    ('2015/20/03 18:30', 25, 4),
    ('2015/20/03 21:10', 14, 7),
    ('2015/20/02 21:00', 15, 6)]
df = spark.createDataFrame(data, ['date', 'accidents', 'injured'])

df.withColumn('date_hr',
              df['date'].substr(1, 13)
     ).groupby('date_hr')\
      .agg({'accidents': 'avg', 'injured': 'avg'})\
      .show()

但是，如果您想稍后进行更多计算，可以将数据解析为TimestampType()然后从中提取日期和时间。

import pyspark.sql.types as typ
from pyspark.sql.functions import col, udf
from datetime import datetime

parseString =  udf(lambda x: datetime.strptime(x, '%Y/%d/%m %H:%M'),   typ.TimestampType())
getDate =  udf(lambda x: x.date(), typ.DateType())
getHour = udf(lambda x: int(x.hour), typ.IntegerType())

df.withColumn('date_parsed', parseString(col('date'))) \
    .withColumn('date_only', getDate(col('date_parsed'))) \
    .withColumn('hour', getHour(col('date_parsed'))) \
    .groupby('date_only', 'hour') \
    .agg({'accidents': 'avg', 'injured': 'avg'})\
    .show()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Substring

PySpark

Aggregate

pyspark子串和聚合的相关文章

仅保留 DataFrame 中有关某些字段的重复项

我有这个火花数据框 ID ID2 Number Name Opening Hour Closing Hour ALT QWA 6 null 08 59 00 23 30 00 ALT AUTRE 2 null 08 58 00 23 29
Spark VectorAssembler 错误 - PySpark 2.3 - Python

我正在使用 pySpark 2 3 0 并创建了一个非常简单的 Spark 数据框来测试 VectorAssembler 的功能这是较大数据框的子集其中我只选择了一些数字双精度数据类型列 gt gt gt cols index ho
在 Spark 中读取 XML

我正在尝试使用spark xml jar 读取pyspark 中的xml 嵌套xml df sqlContext read format com databricks spark xml option rowTag hierachy loa
如何在 PySpark 中创建自定义估算器

我正在尝试构建一个简单的自定义Estimator在 PySpark MLlib 中我有here https stackoverflow com questions 32331848 create a custom transformer
条件合并表

我有 2 张桌子 Time X1 8 1 2013 56 9 1 2013 14 10 1 2013 8 11 1 2013 4 12 1 2013 78 Time X2 8 1 2013 42 9 1 2013 44 10 1 2013
在 PySpark 中展平动态嵌套结构（结构内的结构）

我正在努力展平结构内有结构的 JSON 模式问题是内部结构名称是动态的因此我无法使用轻松访问它们概念该架构类似于 root A string nullable true Plugins struct nullable true R
在 Python/Pandas 中执行不同操作的许多列上有条件地聚合分组数据

考虑以下简化的示例数据帧df Department CustomerID Date Price MenswearDemand HomeDemand 0 Menswear 418089 2019 04 18 199 199 0 1 Mensw
如何在 Pyspark 中启用 Apache Arrow

我正在尝试启用 Apache Arrow 来转换为 Pandas 我在用 pyspark 2 4 4 pyarrow 0 15 0 熊猫0 25 1 numpy 1 17 2 这是示例代码 spark conf set spark sql
获取 JavaScript 中最后一个斜杠后的字符串值

我已经尝试了一个多小时但无法找出正确的方法尽管它可能很简单我有这样的东西 foo bar test html 我想使用 jQuery 来提取最后一个之后的所有内容在上面的例子中输出将是test html 我想可以使用substr
从 Spark-Shell (pyspark) 查询 Spark 流应用程序

我正在关注这个example http cdn2 hubspot net hubfs 438089 notebooks spark2 0 Structured 20Streaming 20using 20Python 20DataFrame
在 Databricks 中的 pyspark 数据帧上下载 punkt 时出现 NLTK 查找错误

我试图通过对 Databricks 中的 pyspark 数据框应用余弦相似度来查找文本列标题标题的相似性我的函数称为 cosine sim udf 为了能够使用它我必须进行第一次 udf 转换将函数应用于 df 后出现查找错误
识别推文消息中正确的主题标签索引

我需要识别 Twitter 消息各种语言表情符号等中的正确索引我找不到返回这些位置的解决方案如下例所示 import regexp testing github com stretchr testify require func
在 pyspark 中实现递归算法以查找数据帧中的配对

我有一个火花数据框 prof student df 列出了时间戳的学生教授对每个时间戳有 4 位教授和 4 位学生每个教授学生对都有一个分数因此每个时间范围有 16 行对于每个时间范围我需要找到教授学生之间的一对一配对以
使用 selectExpr 选择其中包含特殊字符的 Spark 数据框列

我所处的场景是我的列名称Munic pio字母上有重音 My selectExpr命令因此失败有办法解决吗基本上我有类似以下的表达式 selectExpr CAST Munic pio as string as Munic pio 我真
str.find 怎么这么快？

我之前遇到过一个问题我在迭代字符串并使用切片时寻找子字符串原来这是一个really关于性能的坏主意 str find速度要快得多但我不明白为什么 import random import string import timeit Ge
Pyspark 将多个列合并为一个 json 列

我不久前问过 python 的问题但现在我需要在 PySpark 中做同样的事情我有一个像这样的数据框 df cust id address store id email sales channel category 1234567 1
Spark DataFrame 删除重复项并保留第一个

问题在 pandas 中当删除重复项时您可以指定要保留哪些列 Spark Dataframes 中有等效的吗 Pandas df sort values actual datetime ascending False drop dup
如何将我自己的函数添加为 ML pyspark Pipeline 中的自定义阶段？ [复制]

这个问题在这里已经有答案了 Florian 的示例代码 ball column keep the hall column 0 7 14 1 8 15 2 9 16 3 10 17 4 11 18
如何使用C来限制SubString、Limit？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案第1节 include
AWS EMR PySpark 连接到 mysql

我正在尝试使用 jdbc 通过 pyspark 连接到 mysql 我可以在 EMR 之外完成此操作但是当我尝试使用 EMR 时 pyspark 无法正确启动我在我的机器上使用的命令 pyspark conf spark executo

随机推荐

Kafka-python 检索主题列表

我在用着卡夫卡蟒蛇 http kafka python readthedocs org en 1 0 2 我想知道是否有办法显示所有主题像这样的事情 bin kafka topics sh list zookeeper localhost
windows mingw 星号 '*' 通过 argv[1] 传递给字符串

我在下面写了一段代码 include
Sequelize 更新不再起作用：“传递给更新的选项参数中缺少 where 属性”

官方API文档 http docs sequelizejs com class lib model js Model html static method update建议使用Model update像这样 var gid var uid
Flutter webview http url 在 IOS 中不起作用

我在 flutter 中处理 webview 我无法在 IOS 中打开 http url 它在 https 上运行任何人都可以建议如何克服这个问题我放入info plist
使用 MapStruct 将多个字段映射到一个字段

我将这 3 个类放在单独的文件中 public class Book Id GeneratedValue private Long id NonNull private String title NonNull private Author
在运行时更改数组维度

我有这个矩阵类它有一个二维双精度数组在构造函数中您可以指定宽度和高度我想在宽度为 1 时创建一个 1d 数组而不是 2d 因为我重载了运算符并返回指针如果只有 1 行列我不想总是写 i 0 相反我只想写 i 有谁知道如何解决
AutoPostBack=True 和 AutoPostBack=False 之间的区别？

有什么区别AutoPostBack True and AutoPostBack False 取自http www dotnetspider com resources 189 AutoPostBack What How works aspx
为什么我们当前在使用 Excel 图形 API 时会观察到 504 网关超时错误？

请求网址 https graph microsoft com v1 0 groups 4c9d60af 5c54 4628 b483 905fd23ed9db drive root folder workbook xlsx workbook
GSON：使用 java.util.TreeSet 序列化对象

如何正确序列化 TreeSet 为了让您了解什么不起作用我设置了这个小演示项目主要目标是打印 QData 对象的 JSON 字符串 App java package de company gsonserializer import ja
使用jaxb将整数转换为int

我有一个奇怪的情况类中的 getter 返回一个原始 int 类型而 setter 接受一个 Integer 类当 jaxb 将元素解组到此类时它无法找到它正在查找的 setter public class Foo int bar
导入keras和tensorflow时出错

I used from keras layers import dot并收到此错误作为回报 c users prashasti appdata local programs python python37 32 lib site packa
浏览器如何使用 “sizes”和“srcset”属性选择正确的图像？

如何srcset属性确定正确的图像结合sizes属性以此图为例 img alt Demo image 我清除了Chrome中的缓存我认为最后一个图像总是会被选择 800w 因为 512px 尺寸和图像宽度为 800w srcset 但
未捕获的类型错误：s.map 不是 ReactJs 中的函数

我正在尝试使用反应表 https react table js org story readme使用示例这是代码 class UsersTable extends React Component constructor props sup
使用VBA将一个Excel工作表的格式复制到另一个Excel工作表

是否可以使用 VBA 将一个 Excel 工作表的格式复制到另一个工作表就像手动一样我们可以通过选择整个工作表然后单击格式按钮来完成然后选择其他工作表格式将被复制是否可以通过代码来实现感谢和问候萨希尔乔杜里绝对地下面是示
mysql 周从周一到周日

我想按年周对数据进行分组但一周从周日开始我如何将一周从周一到周日分组这是我的查询 SELECT YEARWEEK dateStats k dateStats udate COUNT f shop sales FROM sal impo
如何修复 Android Studio 中的“未指定命名空间”错误？

Namespace not specified Please specify a namespace in the module s build gradle file like so android namespace com examp
Java 中的搜索结果

我使用以下代码列出 LDAP 中的用户 Hashtable
基本的matlab类方法[重复]

这个问题在这里已经有答案了可能的重复如何修改 Matlab 对象的属性 https stackoverflow com questions 272618 how to modify properties of a matlab obje
迭代 jar 文件中的类

有人知道用于迭代某些 Jar 文件中的类的 2 3 行解决方案吗我手里有一个java net URL的实例 Thanks 使用 Java 访问 zip 和 jar 文件第 1 部分 http www developer com tech
pyspark子串和聚合

我是 Spark 新手我有一个包含此类数据的 csv 文件 date accidents injured 2015 20 03 18 00 15 5 2015 20 03 18 30 25 4 2015 20 03 21 10 14 7

pyspark子串和聚合

pyspark子串和聚合 的相关文章

随机推荐

热门标签

pyspark子串和聚合的相关文章