如何查找组中第一个非空值？（使用dataset api进行二次排序）

2024-05-04

我正在研究一个代表事件流的数据集（例如从网站跟踪事件时触发）。所有事件都有一个时间戳。我们经常遇到的一个用例是尝试查找给定字段的第一个非空值。例如，类似的东西最能让我们到达那里：

val eventsDf = spark.read.json(jsonEventsPath) 

case class ProjectedFields(visitId: String, userId: Int, timestamp: Long ... )

val projectedEventsDs = eventsDf.select(
    eventsDf("message.visit.id").alias("visitId"),
    eventsDf("message.property.user_id").alias("userId"),
    eventsDf("message.property.timestamp"),

    ...

).as[ProjectedFields]

projectedEventsDs.groupBy($"visitId").agg(first($"userId", true))

上面代码的问题在于输入数据的顺序first不保证聚合功能。我希望它按以下方式排序timestamp确保它是时间戳的第一个非空 userId，而不是任何随机的非空 userId。

有没有办法定义分组内的排序？

使用 Spark 2.10

顺便说一句，Spark 2.10 中建议的方式SPARK DataFrame：选择每组的第一行 https://stackoverflow.com/questions/33878370/spark-dataframe-select-the-first-row-of-each-group是在分组之前进行排序——这是行不通的。例如下面的代码：

case class OrderedKeyValue(key: String, value: String, ordering: Int)
val ds = Seq(
  OrderedKeyValue("a", null, 1), 
  OrderedKeyValue("a", null, 2), 
  OrderedKeyValue("a", "x", 3), 
  OrderedKeyValue("a", "y", 4), 
  OrderedKeyValue("a", null, 5)
).toDS()

ds.orderBy("ordering").groupBy("key").agg(first("value", true)).collect()

有时会回来Array([a,y])有时Array([a,x])

Use my belovedwindows（...并体验您的生活变得多么简单!)

import org.apache.spark.sql.expressions.Window
val byKeyOrderByOrdering = Window
  .partitionBy("key")
  .orderBy("ordering")
  .rangeBetween(Window.unboundedPreceding, Window.unboundedFollowing)

import org.apache.spark.sql.functions.first
val firsts = ds.withColumn("first",
  first("value", ignoreNulls = true) over byKeyOrderByOrdering)

scala> firsts.show
+---+-----+--------+-----+
|key|value|ordering|first|
+---+-----+--------+-----+
|  a| null|       1|    x|
|  a| null|       2|    x|
|  a|    x|       3|    x|
|  a|    y|       4|    x|
|  a| null|       5|    x|
+---+-----+--------+-----+

注意：不知何故，Spark 2.2.0-SNAPSHOT（今天构建）无法给我正确的答案，没有rangeBetween我认为这应该是默认的无界范围。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

apachesparksql

apachesparkdataset

如何查找组中第一个非空值？（使用dataset api进行二次排序）的相关文章

Spark scala 模拟 Spark.implicits 用于单元测试

当尝试使用 Spark 和 Scala 简化单元测试时我使用 scala test 和mockito scala 以及mockito Sugar 这只是让你做这样的事情 val sparkSessionMock mock SparkSes
Spark 在 WholeTextFiles 上创建的分区少于 minPartitions 参数

我有一个文件夹里面有 14 个文件我在一个集群上使用 10 个执行器运行 Spark Submit 该集群的资源管理器为 YARN 我创建了我的第一个 RDD 如下所示 JavaPairRDD
Scala 案例类忽略 Spark shell 中的导入

我希望这个问题有一个明显的答案我刚刚升级到 Spark v2 0 并且遇到了一个奇怪的问题火花外壳 Scala 2 11 版本如果我输入以下最小的 Scala import java sql Timestamp case class C
如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc
如何在不从 DataFrame 转换并访问它的情况下向数据集添加列？

我知道使用以下方法将新列添加到 Spark 数据集的方法 withColumn and a UDF 它返回一个 DataFrame 我还知道我们可以将生成的 DataFrame 转换为 DataSet 我的问题是如果我们仍然遵循传统的
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且我正在尝试在火花流中使用来自卡夫卡的消息以下是代码 val topics notes val kafkaParams Map String Object bootst
如果两个阶段使用相同的 DataFrame，spark 是否会读取同一文件两次？

以下代码读取相同的 csv 两次即使只调用一个操作端到端可运行示例 import pandas as pd import numpy as np df1 pd DataFrame np arange 1 000 reshape 1 1
如何使用 Scala 从 Spark 更新 ORC Hive 表

我想更新 orc 格式的 hive 表我可以从 ambari hive 视图进行更新但无法从 sacla spark shell 运行相同的更新语句 objHiveContext sql select from table name 能
Spark 请求最大计数

我是 Spark 的初学者我尝试请求允许我检索最常访问的网页我的要求如下 mostPopularWebPageDF logDF groupBy webPage agg functions count webPage alias cntW
hive - 在值范围之间将一行拆分为多行

我在下面有一张表想按从开始列到结束列的范围拆分行即 id 和 value 应该对开始和结束之间的每个值重复包括两者 id value start end 1 5 1 4 2 8 5 9 所需输出 id value current
Apache Spark 两个 RDD 之间的差异

假设我有这个示例作业在带有 Java API 的 Groovy 中 def set1 def set2 0 upto 10 set1 lt lt it 8 upto 20 set2 lt lt it def rdd1 context pa
Spark-1.6.1 上的 DMLC 的 XGBoost-4j

我正在尝试在 Spark 1 6 1 上使用 DMLC 的 XGBoost 实现我能够使用 XGBoost 训练我的数据但在预测方面面临困难我实际上想以在 Apache Spark mllib 库中完成的方式进行预测这有助于计算训练
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
如何在不使用 .toPandas() hack 的情况下提取 PySpark 中对长度敏感的特征？

我是 PySpark 的新手我想翻译特征提取 FE 将 pythonic 部分脚本放入 PySpark 中首先我有所谓的 Spark 数据框sdf包括 2 列 A 和 B 下面是示例 data A B https example1 o
pyspark 数据框中的自定义排序

是否有推荐的方法在 pyspark 中实现分类数据的自定义排序我理想地寻找 pandas 分类数据类型提供的功能因此给定一个数据集Speed列可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的
使用 mapWithState Spark Streaming 过滤部分重复项

我们有一个DStream 比如 val ssc new StreamingContext sc Seconds 1 val kS KafkaUtils createDirectStream String TMapRecord ssc Pre
运行pyspark时没有这样的文件或目录错误

我安装了 Spark 但是当我运行时pyspark在终端上我得到 usr local Cellar apache spark 2 4 5 1 libexec bin pyspark line 24 Users miguel spark 2
pyspark.sql.utils.AnalysisException：u'Path不存在

我正在使用标准 hdfs 与 amazon emr 运行 Spark 作业而不是 S3 来存储我的文件我在 hdfs user hive warehouse 有一个配置单元表但当我的 Spark 作业运行时找不到它我配置了 Spar
四舍五入数据框中的所有列 - 两位小数 pyspark

我使用此命令将数据框中的所有列四舍五入到小数点后两位 data data withColumn columnName1 func round data columnName1 2 我不知道如何通过一个命令对所有数据框进行四舍五入不是每一列
将 for 循环替换为 pyspark 中的并行进程

我在脚本中使用 for 循环来为 size DF 数据帧的每个元素调用函数但这需要很多时间我尝试通过地图删除 for 循环但没有得到任何输出 size DF 是我从表中获取的大约 300 个元素的列表用于 import call

随机推荐

电话链接在 iframe 中不起作用，但在 iOS 9 Web 中的 div 中起作用。如何使电话链接在 iOS 9 safari 中正常工作？

您好我正在尝试 iOS9 中 iframe 内的电话链接 iOS9 中的 safari 中无法打开手机应用程序当我在里面尝试相同的链接时它就在那里工作我正在尝试下面的锚标记将此代码放入 div 中时会打开手机应用程序但同样的代码
使用元素通过 Wix 运行 SQL 脚本文件

我是 Wix 安装程序的新手我有一个要求必须提供 SQL Server 登录凭据并从特定路径运行脚本我不明白出了什么问题项目已成功构建并创建了 msi 运行后我收到以下错误错误26204 错误 2147217900 无法执行SQL
如何在SAS中删除重复的记录\观察而不进行排序？

我想知道是否有办法取消重复记录WITHOUT排序有时候我想保留原来的顺序只想删除重复的记录是否可以顺便说一句以下是我对不重复记录的了解它最终会进行排序 1 proc sql create table yourdata nodu
JavaScript：异常排序

假设我有一个对象数组为了更简单的显示目的我将其显示为数组 TEST NEW ALPHA ZOO WHATEVER 我需要按字母顺序对其进行排序简单的部分但是我需要以某种方式对其进行排序即某个单词可以说NEW将会在最后结束 AL
如何通过调用 HTTP API 网关 + Lambda（已使用 Amazon Cognito 用户池进行身份验证）获取用户详细信息

用户登录 Amazon Cognito 应用程序 Web 会获取一个访问令牌每当调用 API 网关 HTTP API 或 REST API 时都会使用该令牌 API 网关配置为使用 Cognito 用户池作为授权者因此如果访问令牌
Spark：shuffle操作导致GC长时间暂停

我在跑Spark 2我正在尝试洗牌大约 5 TB 的 json 我在洗牌期间遇到了很长的垃圾收集暂停Dataset val operations spark read json inPath as MyClass operations re
如何在 PHP 中复制此 C# 哈希？（toByteArray()、ComputeHash()）

我正在尝试复制以下代码PHP 这是我必须与之交互的 API 的示例代码 API 和示例代码位于C 我的应用程序在PHP 5 3 我不是 C 开发人员因此在执行此操作时遇到困难 C Code I am trying to replicate
浮动操作按钮与最后一个卡片视图中的复选框重叠

我有一个布局文件其中包含 RecyclerView 和 FloatingActionButton 在里面我有多个 CardView 主要布局文件
按索引从下拉列表中选择第一项不起作用。未绑定方法 select_by_index

我正在尝试单击下拉列表中的第一项我想使用它的索引值因为该值每次都可能不同对于这个特定的测试我只需要选择下拉列表中的第一项我尝试过 Select select by index 1 我收到错误 Traceback most rece
您可以控制借用结构体还是借用字段吗？

我正在开发一个涉及以下结构的程序 struct App data Vec
openGL转png

我正在尝试将包含大量纹理没有移动的 openGL 编辑我画的卡片 thx unwind 转换为一个 PNG 文件我可以在框架的另一部分中使用该文件我正在与有 C 库可以做到这一点吗 thanks 如果您的意思只是获取由 Open
用于编译/反编译二进制数据文件的通用实用程序或库？

我有各种二进制文件格式我需要将其转储为某种文本格式编辑然后重新编译可能是二进制格式的稍微不同的版本当然我可以用 C C 编写一堆实用程序代码来完成这种事情并且可能利用一个库来处理文本方面的事情 XML 或 JSON 或其他但这
mysql 查询中的 golang 切片，带有 where in 子句

我正在运行以下查询但只获取第一个 id 值 select from table where table id in 1 2 3 4 5 6 7 9 11 13 14 15 17 and table deleted at is null 我
AWS Api Gateway：缺少身份验证令牌

所以我有一个链接到 lambda 函数的 api 网关的自定义域名设置如果我这样做的话我就可以正常工作https api domain com something https api domain com something行为符合预期
Http Auth 不适用于 PHP

我使用 Laravel Lumen Shield 扩展进行 Http 身份验证但是在我的本地计算机上一切都很完美我只在我们的服务器上遇到了问题问题是在我提交正确的登录数据后登录屏幕再次出现我尝试了不同的登录数据不同的浏览器登录
用于列出用户和组的 Python 脚本

我正在尝试编写一个脚本在自己的行上输出每个用户及其组如下所示 user1 group1 user2 group1 user3 group2 user10 group6 etc 我正在为此用 python 编写一个脚本但想知道如何做到这
在Python中解析制表符分隔的文件

我正在尝试在 Python 中解析一个制表符分隔的文件其中与行开头分开的 k 个制表符的数字应该放入第 k 个数组中除了逐行读取并执行简单解决方案将执行的所有明显处理之外是否有内置函数可以执行此操作或者有更好的方法您可以使用the
动态分配对象数组

我有一个包含动态分配数组的类例如 class A int myArray A myArray 0 A int size myArray new int size A Note that as per MikeB s helpful sty
Python：安装 numpy 时出现损坏的工具链错误

我正在使用 Python 2 7 3 并尝试在 Windows 计算机上安装 numpy 包但收到运行时错误提示工具链损坏无法链接到简单的 C 程序我读了解决方案here https stackoverflow com quest
如何查找组中第一个非空值？（使用dataset api进行二次排序）

我正在研究一个代表事件流的数据集例如从网站跟踪事件时触发所有事件都有一个时间戳我们经常遇到的一个用例是尝试查找给定字段的第一个非空值例如类似的东西最能让我们到达那里 val eventsDf spark read json jso

如何查找组中第一个非空值？ （使用dataset api进行二次排序）

如何查找组中第一个非空值？ （使用dataset api进行二次排序） 的相关文章

随机推荐

热门标签

如何查找组中第一个非空值？（使用dataset api进行二次排序）

如何查找组中第一个非空值？（使用dataset api进行二次排序）的相关文章