Spark DataFrame：对组进行操作

2024-03-24

我有一个正在操作的 DataFrame，我想按一组列进行分组，并按组对其余列进行操作。正常情况下RDD-land 我认为它看起来像这样：

rdd.map( tup => ((tup._1, tup._2, tup._3), tup) ).
  groupByKey().
  forEachPartition( iter => doSomeJob(iter) )

In DataFrame-land我会这样开始：

df.groupBy("col1", "col2", "col3")  // Reference by name

但如果我的操作比提供的平均值/最小/最大/计数更复杂，我不确定如何对组进行操作分组数据 https://spark.apache.org/docs/1.3.1/api/scala/index.html#org.apache.spark.sql.GroupedData.

例如，我想为每个项目构建一个 MongoDB 文档("col1", "col2", "col3")组（通过迭代关联的Row组中的 s），缩小到N分区，然后将文档插入 MongoDB 数据库。这Nlimit 是我想要的最大同时连接数。

有什么建议吗？

您可以自行加入。首先获取组：

val groups = df.groupBy($"col1", $"col2", $"col3").agg($"col1", $"col2", $"col3")

然后你可以将其连接回原始 DataFrame：

val joinedDF = groups
  .select($"col1" as "l_col1", $"col2" as "l_col2", $"col3" as "l_col3)
  .join(df, $"col1" <=> $"l_col1" and $"col2" <=> $"l_col2" and  $"col3" <=> $"l_col3")

虽然这会为您提供与原来完全相同的数据（并且带有 3 个额外的冗余列），但您可以执行另一个联接，为与该行关联的 (col1、col2、col3) 组添加具有 MongoDB 文档 ID 的列。

无论如何，根据我的经验，连接和自连接是处理 DataFrame 中复杂内容的方式。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

DataFrame

apachespark

GROUPING

Spark DataFrame：对组进行操作的相关文章

Python Spark DataFrame：用 SparseVector 替换 null

在 Spark 中我有以下名为 df 的数据框其中包含一些空条目 id features1 features2 185 5 0 1 4 0 1 0 null 220 5 0 2 3 0 1 0 10 1 2 6 0 1 225 null
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
Scala 中的类型类解析如何工作？

我有一个带有类型参数的函数我想知道该类型参数是否是一个Option或不我读过一些博文即this one http danielwestheide com blog 2013 02 06 the neophytes guide to s
司机下令停车后 Spark 工作人员停下来

基本上主节点也充当从节点之一一旦主服务器上的从服务器完成它就会调用 SparkContext 来停止因此该命令传播到所有从服务器从而在处理过程中停止执行其中一名工作人员登录时出错信息 SparkHadoopMapRedUtil
JavaFx ComboBox 绑定混乱

我有一个 I18N 实现它通过属性绑定 JavaFX UI 元素例如 def translateLabel l Label key String args Any Unit l textProperty bind createStrin
如何在 Apache Spark 中基于列的子集实现“ except ”？

我正在 Spark 中使用两个模式 table1 and table2 scala gt table1 printSchema root user id long nullable true item id long nullable tr
Scala 对大数的阶乘有时会崩溃，有时不会

以下程序经过编译和测试有时返回结果有时充满屏幕 java lang StackOverflowError at scala BigInt apply BigInt scala 47 at scala BigInt equals BigI
如何从命令行运行scala文件？

scala是否支持scala run xxx scala go语言支持这样运行 go my go 并且Python支持 python my py 但看来 scala xxx scala 仅进行语法检查未观察到任何输出或运行行为那么有没有
如何过滤 pyspark 列表中值的列？

我有一个数据框原始数据我必须在 X 列上应用值 CB CI 和 CR 的过滤条件所以我使用了下面的代码 df dfRawData filter col X between CB CI CR 但我收到以下错误 Between 恰好需要 3
在 Datagrid wpf 上对数据进行分组

我想使用包含组名称并包含所有 ClassMate 名称的扩展器重新组合我的数据这是我的班级组 public class Group public List
压缩 HList 的函数的推断类型

谢谢https github com milessabin shapeless wiki Feature overview shapeless 2 0 0 https github com milessabin shapeless wiki
实现一个scala集合，以便map、filter等产生正确的类型

我正在尝试实施一个默认值映射 https stackoverflow com questions 3187411 designing a convenient default valued map in scala 我想要过滤器地图等De
Scala：获取 Map.head 元素的键（和值）

让我们想象一下以下不可变的 Map val foo Map 10 ten 100 one hundred 我想获得第一个元素的密钥 foo head获取第一个元素但接下来呢我还想要这个元素的值即十设置键值对 val key va
熊猫滚动意味着更新

考虑数据框 df pd DataFrame a None None None None 1 2 1 0 1 b 5 4 6 7 None None None None None gt gt a b 0 NaN 5 0 1 NaN 4 0 2
R中不同级别的李克特分组

我想使用 Likert 包并按变量分组并绘制结果问题是我想要可视化的变量有不同的级别有没有解决的办法一个简单的例子来说明我的问题 library reshape library likert foo lt data frame ca
尝试 .Split 时出现“列必须与键长度相同”错误

下面的代码在 Python 3 8 10 中运行良好但在 Python 3 10 中无法运行知道可能是什么问题吗 import pandas as pd import requests url https coinmarketcap c
根据列A：列B范围内的值查找数据框中的相应行[重复]

这个问题在这里已经有答案了我有一个 data frame 和一个向量例如 df data frame id 1 3 start c 1 1000 16000 end c 100 1100 16100 info c a b c vec c
scala 中 'Array[Int]' 隐式转换为 'Int => Int' 的地方在哪里？

这是一个问题this https stackoverflow com questions 70000384 why val arr int int array1 2 3 is allowed in scala 现在我们已经证明了Array
如何将函数应用于多个 pandas 数据框

我有多个数据框 df1 df2 df3 dfn 它们具有相同类型的数据但来自无法连接的不同描述符组现在我需要手动将相同的函数应用于每个数据帧如何将相同的函数应用于多个数据框 pipe https pandas pydata org p
如何将多行标签 xml 文件转换为 dataframe

我有一个包含多个行标签的 xml 文件我需要将此 xml 转换为正确的数据帧我使用了spark xml 它只处理单行标签 xml数据如下

随机推荐

SublimeLinter ESLint 找不到插件

在 Sublime Text Editor 3 x 中编辑 javascript 文件时出现错误 Oops Something went wrong ESLint 6 0 1 ESLint couldn t find the plugin
访问验证管道中的请求对象

我正在尝试访问Request object从一个内Validation Pipe in nestjs 为了验证某些字段的唯一性我需要ID UUID提供的参数PUT PATCH请求数据结构本身不可用任何想法目前根本不可能在 a 中访
Qt——将事件传递给多个对象？

我基本上有3层 Window gt Scene gt View 每个人都需要处理一个mouseMove事件不妨碍其他人不过似乎只有最小的孩子才能参加该活动我希望我可以处理该事件然后致电event gt ignore 将事件传递回堆栈
如何处理 Google Cloud Functions 中的机密？

这里的常见做法是什么好像没有提供工具gcloud 我现在正在从本地计算机部署功能因此我可以对秘密进行硬编码但这似乎不合适另外 CI CD 怎么样在这种情况下我需要将秘密作为环境变量传递这甚至可能吗您可以使用秘密经理 http
代码格式化：如何将多行代码与特殊字符对齐？

IDEA 或其插件之一能够将代码与特殊字符对齐吗我的意思是这样代码 Map name gt Peter age gt 27 company gt Foobar 变换为 Map name gt Peter age gt 27 company
是否有任何回调或任何东西（事件或nodeInfo中的任何参数）来知道辅助功能服务（TalkBack）已完成阅读？

我有一个应用程序要求在列表视图中宣布文本列表视图项在运行时添加我必须一一宣布我在谷歌和android文档中搜索但我无法到达那里请帮助我如何知道无障碍服务读完文本谢谢简单的答案不要这样做这是愚蠢的只需使用您可用的辅助功能
如果是十进制值，则转换为两位小数并且将点分隔值转换为逗号分隔

我目前的值如下所示 30 32 5 如果存在任何小数如第二个示例如何将它们转换为具有两位小数并且将点分隔符替换为逗号转换后上面的数字将如下所示 30 32 50 Try var num 32 5 num num toFixed 2
从另一个路由调用 hapi 路由

我对 HapiJS 还很陌生我正在构建一个服务其中有两条路线 route 1 和 route 2 都使用插件架构我已将两者注册为我的清单文件中的插件我想从 route2 调用 route1 因此 route2 取决于 route1
嵌套事务-回滚场景

A con begin B con rollback con commit B con begin con commit 在上面的代码中我在 A 处开始一个新的数据库事务它成功执行了一些事务之后B 开始执行并且它也成功执行了一些事务
在头文件中使用声明

我一直在寻找有关使用的一些说明使用声明在头文件中我正在四处搜索但无法完全得到我正在寻找的答案到目前为止我的研究得出的结论是将它们用于非全局的范围是好的而命名空间指令则不好我明白至少我希望如此所以在我的例子中我使用shared
如何获取到 CGPath 的距离以进行命中测试？

我有一个打开的 CGPath UIBezierPath 我想检测用户是否触摸它即某个点是否在距路径一定距离内路径是开放的即直线曲线而不是形状它可以包含直线和曲线元素如何获得到路径的距离来进行命中测试 CGPath UIBezi
如何等待matplotlib动画结束？

考虑直接取自 Matplotlib 文档的以下代码 import numpy as np import matplotlib pyplot as plt import matplotlib animation as animation im
CORS 中的 POST/GET 与 PUT/DELETE

我刚刚读过this https www w3 org Security wiki Same Origin Policy 同源策略允许使用 GET 和 POST 的跨源 HTTP 请求方法但拒绝源间 PUT 和 DELETE 请求 PUT
使用VBA调用存储过程

我正在使用 Access 2010 用户前端和 Microsoft SQL Server 2008 后端工作 Access 中的表都链接到 SQL Server 数据库我有一个存储过程它将新值由参数提供插入到表中我之前问过类似的问
Ruby on Rails - 表情符号未保存在 MySQL 中

我正在开发一个 Rails 应用程序用户可以将照片上传到他们的个人资料中每张照片都有一个标题该标题应该支持表情符号尽管将表的编码更改为utf8mb4并修改数据库 yml当我尝试保存标题中带有表情符号的照片时 MySQL 返回错误字
ThreadStart.BeginInvoke 在 Compact 框架上抛出 NotSupportedException

我正在一个紧凑框架项目上使用线程并且代码如下所示当我尝试进入 StartThreads 时会抛出 NotSupportedException 这看起来有点奇怪为什么异常是在调用 StartThreads 的行上抛出的而不是在内部抛
purrr 将 t.test 映射到分割的 df 上

我是新来的咕噜声 Hadley https stackoverflow com users 16632 hadley有前景的函数式编程R库 http blog rstudio org 2015 09 29 purrr 0 1 0 我正在尝试
为什么人们不访问 Rspec 中的数据库？

我经常看到Rspec中使用mock的代码如下所示 describe GET show do it should find and assign question do question Question new Question shou
如何配置 Nginx 以使用 html5 模式

对于 angularjs 中的干净网址我必须使用 locationProvider html5Mode true 但是当我刷新页面时它显示 404 我读到我需要配置服务器文件结构 html views home html about
Spark DataFrame：对组进行操作

我有一个正在操作的 DataFrame 我想按一组列进行分组并按组对其余列进行操作正常情况下RDD land 我认为它看起来像这样 rdd map tup gt tup 1 tup 2 tup 3 tup groupByKey forE

Spark DataFrame：对组进行操作

Spark DataFrame：对组进行操作 的相关文章

随机推荐

热门标签

Spark DataFrame：对组进行操作的相关文章