具有更好性能的 pyspark 枢轴替代品

2024-04-12

以下是我的输入数据集：

df = spark.createDataFrame([ \
    ("0","CattyCat","B2K","B"), \
    ("0","CattyCat","B3L","I"), \
    ("0","CattyCat","B3U","I"), \
    ("0","CattyCat","D3J","C"), \
    ("0","CattyCat","J1N","H"), \
    ("0","CattyCat","K7A","I"), \
    ("0","CattyCat","L1B","D"), \
    ("0","CattyCat","U3F","B"), \
    ("1","CattyCat","B2K","I"), \
    ("1","CattyCat","B3L","I"), \
    ("1","CattyCat","B3U","I"), \
    ("1","CattyCat","D3J","C"), \
    ("1","CattyCat","J1N","H"), \
    ("1","CattyCat","K7A","I"), \
    ("1","CattyCat","L1B","D"), \
    ("1","CattyCat","U3F","B"), \
    ("2","CattyCat","B2K","B"), \
    ("2","CattyCat","B3L","B"), \
    ("2","CattyCat","B3U","I"), \
    ("2","CattyCat","D3J","C"), \
    ("2","CattyCat","J1N","H"), \
    ("2","CattyCat","K7A","I"), \
    ("2","CattyCat","L1B","D"), \
    ("2","CattyCat","U3F","B"), \
], ["RowCount","CatName","Name","Value"])

df.show(30)

+--------+--------+----+-----+
|RowCount| CatName|Name|Value|
+--------+--------+----+-----+
|       0|CattyCat| B2K|    B|
|       0|CattyCat| B3L|    I|
|       0|CattyCat| B3U|    I|
|       0|CattyCat| D3J|    C|
|       0|CattyCat| J1N|    H|
|       0|CattyCat| K7A|    I|
|       0|CattyCat| L1B|    D|
|       0|CattyCat| U3F|    B|
|       1|CattyCat| B2K|    I|
|       1|CattyCat| B3L|    I|
|       1|CattyCat| B3U|    I|
|       1|CattyCat| D3J|    C|
|       1|CattyCat| J1N|    H|
|       1|CattyCat| K7A|    I|
|       1|CattyCat| L1B|    D|
|       1|CattyCat| U3F|    B|
|       2|CattyCat| B2K|    B|
|       2|CattyCat| B3L|    B|
|       2|CattyCat| B3U|    I|
|       2|CattyCat| D3J|    C|
|       2|CattyCat| J1N|    H|
|       2|CattyCat| K7A|    I|
|       2|CattyCat| L1B|    D|
|       2|CattyCat| U3F|    B|
+--------+--------+----+-----+

我的目标是对这些数据进行透视\交叉制表。我能够使用 groupby.pivot.agg 实现此目的，如下所示：

import pyspark.sql.functions as F
display(df.groupBy("RowCount","CatName").pivot("Name").agg(F.first("value")))

+----------+----------+-----+-----+-----+-----+-----+-----+-----+-----+
| RowCount | CatName  | B2K | B3L | B3U | D3J | J1N | K7A | L1B | U3F |
+----------+----------+-----+-----+-----+-----+-----+-----+-----+-----+
| 0        | CattyCat | B   | I   | I   | C   | H   | I   | D   | B   |
+----------+----------+-----+-----+-----+-----+-----+-----+-----+-----+
| 1        | CattyCat | I   | I   | I   | C   | H   | I   | D   | B   |
+----------+----------+-----+-----+-----+-----+-----+-----+-----+-----+
| 2        | CattyCat | B   | B   | I   | C   | H   | I   | D   | B   |
+----------+----------+-----+-----+-----+-----+-----+-----+-----+-----+

但我面临的问题是，当数据集很大（数百或数百万）时，性能非常差。（单个执行器最后阶段的单个任务，卡了几个小时） P.S：我还发现数据透视表还可以采用第二个参数，该参数可以是一系列列名称，这可能会提供更好的性能。但不幸的是我无法提前知道这些列名称。

有没有办法以更好的性能方式执行此“交叉选项卡”？

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

Pivot

Databricks

crosstab

具有更好性能的 pyspark 枢轴替代品的相关文章

在 Spark-submit 上的 _find_and_load 中获取文件“”，第 991 行

我目前使用的是Python 3 7 9 spark spark 2 4 6 bin hadoop2 6 在这个项目 venv 中我的设置为 kafka python 2 0 2 pip 21 2 4 py4j 0 10 9 pyspark
Spark：Aggregator和UDAF有什么区别？

在Spark的文档中 Aggregator 抽象类聚合器 IN BUF OUT 扩展可序列化用户定义聚合的基类可以是在数据集操作中用于获取组中的所有元素并将它们减少到单个值用户定义的聚合函数是抽象类 UserDefinedAgg
使用 pyspark 连接 PostgreSQL

我正在尝试使用 pyspark 连接到数据库并且使用以下代码 sqlctx SQLContext sc df sqlctx load url jdbc postgresql hostname database dbtable SELECT
PySpark 用数组替换 Null

通过 ID 连接后我的数据框如下所示 ID Features Vector 1 50 Array 1 1 2 3 2 50 Null 我最终得到向量列中某些 ID 的空值我想用 300 维的零数组替换这些 Null 值与非空向量条
Spark 中的广播 Annoy 对象（对于最近邻居）？

由于 Spark 的 mllib 没有最近邻居功能我正在尝试使用Annoy https github com spotify annoy为近似最近邻我尝试广播 Annoy 对象并将其传递给工人然而它并没有按预期运行下面是可重复性的
将 Matplotlib 输出保存到 Databricks 上的 Blob 存储

我正在尝试使用此处提供的方法将 matplotlib 图形写入 Azure blob 存储将 Matplotlib 输出保存到 Databricks 上的 DBFS https stackoverflow com questions 57
Python Spark DataFrame：用 SparseVector 替换 null

在 Spark 中我有以下名为 df 的数据框其中包含一些空条目 id features1 features2 185 5 0 1 4 0 1 0 null 220 5 0 2 3 0 1 0 10 1 2 6 0 1 225 null
Spark 执行器 STDOUT 到 Kubernetes STDOUT

我在 Spark Worker 中运行的 Spark 应用程序将执行程序日志输出到特定文件路径 worker home directory app xxxxxxxx 0 stdout I used log4j properties将日志从
如何在 Mac 上使用 homebrew 安装 apache-spark 2.3.3

brew install apache spark只安装最新版本的 Spark 2 4 和 brew search apache spark没有给出任何其他选项有没有办法用自制程序安装旧版本的 Spark Type brew tap ed
在 kubernetes 上安装 PySpark 软件包时出现 Spark-Submit：ivy-cache 文件未找到错误

我一整天都在与它斗争我能够安装并使用带有 Spark shell 或连接的 Jupiter 笔记本的包 graphframes 但我想使用 Spark Submit 将其移动到基于 kubernetes 的 Spark 环境我的火花版
对于“迭代算法”，转换为 RDD 然后再转换回 Dataframe 有什么优势

我在读高性能火花作者提出以下主张虽然 Catalyst 优化器非常强大但它目前遇到挑战的情况之一是非常大的查询计划这些查询计划往往是迭代算法的结果例如图算法或机器学习算法一个简单的解决方法是将数据转换为 RDD 并在每次迭代结束时
如何从 Databricks Delta 表中删除列？

我最近开始发现 Databricks 并遇到了需要删除增量表的特定列的情况当我使用 PostgreSQL 时它就像 ALTER TABLE main metrics table DROP COLUMN metric 1 我正在浏览 Da
Spark - scala - 如何检查配置单元中是否存在表

我必须使用 Spark 1 6 2 scala 检查配置单元中是否存在表如果没有我必须创建一个空数据框并将其保存为配置单元表如果存在则覆盖现有表我需要一个返回布尔值的函数基于该函数我可以做出上述决定是否创建新表或覆盖现有表 1
无法在 SBT 中运行 Apache Spark 相关单元测试 - NoClassDefFoundError

我有一个简单的单元测试使用SparkContext 我可以在 IntelliJ Idea 中运行单元测试没有任何问题但是当尝试从 SBT shell 运行相同的测试时我收到以下错误 java lang NoClassDefFoun
';'预期但发现“导入” - Scala 和 Spark

我正在尝试使用 Spark 和 Scala 来编译一个独立的应用程序我不知道为什么会收到此错误 topicModel scala 2 expected but import found error import org apache sp
通过过滤对 Pyspark Dataframe 进行分组

我有一个数据框如下 cust id req req met 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 我必须观察客户看看他们有多少要求看看
过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
Spark日期格式问题

我在火花日期格式中观察到奇怪的行为实际上我需要转换日期yy to yyyy 日期转换后日期应为 20yy 我尝试过如下 2040年后失败 import org apache spark sql functions val df Seq
HashPartitioner 是如何工作的？

我阅读了文档HashPartitioner http spark apache org docs 1 3 1 api java index html org apache spark HashPartitioner html 不幸的是除了
扁平化/反规范化 SQL 查找表的最佳方法？

我有很多这样的表 Lookup HealthCheckupRisks ID Name 1 Anemia 2 Anorexic 3 Bulemic 4 Depression 122 Syphilis PatientRisksOnCheckup

随机推荐

主动调整主窗口内小部件的大小

I have a few widgets in a main window i want the user to be able to resize the widgets inside the window as they please
替换 DataColumn 中的值

循环行时如何替换列值我的数据表有两列我想替换每一行第一列的值我无法获取或设置列值到目前为止我只能访问 DefaultValue 和 ColumnName 等即使创建新的 DataColumn 我也无法设置其值感觉我在这里缺少一
如何使用批处理文件从系统配置中删除环境变量

我需要从客户端工作站中删除系统变量我有 500 多个客户端所以我想提供批处理文件给用户自己运行以删除系统变量 You may want to make these two permanent with setx but obviousl
如何在Linux shell脚本中插入新行？ [复制]

这个问题在这里已经有答案了我想在多个 echo 语句之间插入一个新行我努力了echo hello n 但它不起作用正在打印 n 我想要这样的期望输出 Create the snapshots Snapshot created 在之间插
如何在不闪烁的情况下更新 Shiny 中的值？

我每秒都会更新一个闪亮的文本输出该文本输出是从 SQL 数据库读取的这只需要一些时间在仪表板中我只想看看输出如何变化而没有花哨的动画闪烁是否可以在等待更新时删除动画并仅显示文本这是一些代码示例您可以在其中看到更新的闪烁 ui
C++ 对象将模板化函数和参数保留为成员以便稍后调用

我有课Door实现一个方法LockCheck 和一个类Stove用一种方法BurnerCheck 我想要上课House作为构造函数参数Door LockCheck or Stove BurnerCheck以及给定函数的一组未知参数 Hous
Xcode 7 - 如何删除 ld: warning: -read_only_relocs 不能与 x86_64 一起使用

我最近更新到了 Xcode 7 现在在编译时收到以下警告 ld 警告 read only relocs 不能与 x86 64 一起使用我认为我没有更改构建设置或代码中的任何内容来创建它有谁知道导致此警告的原因以及如何删除它我已经为感兴
用于组合垂直/内联字段的 Bootstrap 复杂表单布局

我对 Bootstrap 很陌生但我的技能增长很快也很欣赏它我需要构建一个相当复杂的页面其中包含大量表单元素包括多个地址填写组件我在这里附上了我想要的基本设计的图像但似乎无法使用我可用的基本表单设计元素来实现它我觉得我的方法
获取WPF中控件的可见大小

我有一个未完全显示的控件通过减小窗口大小但该控件的 ActualWidth 和 RenderSize DesiredSize 仍然显示其总大小我编写了下一个代码但它忽略了窗口的滚动条宽度看起来很丑也许有一种方法可以以更优雅的方式
如何使用javascript浏览器端获取显卡驱动程序名称？

我想得到一个像这样的字符串英特尔开源技术中心 Mesa DRI 英特尔 R 高清显卡 520 Skylake GT2 仅在浏览器上使用 javascript 我知道有一个图书馆augur io https www augur io dev
如何从多个类扩展状态

请注意了解集换式卡牌游戏万智牌聚会将是一个优势抱歉我不知道如何更容易地表达它我使用时遇到了一个问题Java 我将描述如下我有一个名为 Card 的基本类具有以下所有属性 public class Card String N
Android Twitter 出现 oauth-signpost 错误授权失败（服务器回复 401）

你好我尝试将 Twitter 与 OAuth 结合使用但收到此异常授权失败服务器回复 401 如果消费者密钥不正确或签名不匹配则可能会发生这种情况我正在使用这个示例http code google com p oauth sig
网络提供商无法在 Android 中运行

我必须制作一个Android应用程序在其中我需要找到用户的当前位置为此我首先使用 GPS 提供商但如果它不可用我会求助于网络提供商现在我的手机上出现过连网络提供商都无法工作的情况并且声明网络启用 lm isProvider
自动删除 HTML 和 Javascript 注释

我想自动删除 HTML 和 JavaScript 注释我在服务器上使用 ant 脚本进行部署和 JSF 有哪些选项或工具可用提前致谢用正则表达式替换混合 HTML 和 JavaScript 的文件中的注释是有风险的然而单独地你可
状态更改时不调用 ngrx 存储订阅

我正在使用我的服务中定义的虚拟数据创建一个应用程序在一个组件中我具有以下删除产品的功能 removeItem productId string this cartService removeItem productId 以及服务如下 r
构建配置为更喜欢设置存储库而不是项目存储库，但存储库“maven”是由构建文件“build.gradle”添加的

我想将 jitpack io 添加为我的 gradle 文件中的存储库这是我的 gradle 根文件 buildscript repositories google mavenCentral dependencies classpath
docker 内 alpine 上的节点画布

我正在尝试安装节点画布 https github com Automattic node canvas https github com Automattic node canvas 在 docker 内的 Alpine 上这些是我的 D
针对存储在 java.util.List 中的键/值对运行一系列论坛

假设我有一个包含如下组件的列表 id 1 name Displacement value 200 id 2 name Time value 120 id 3 name Mass value 233 id 4 name Acceleratio
YouTube get_video_info 引发限制错误

我已经为 joomla 创建了是的另一个 YouTube 播放器模块在模块后端我使用了来自的代码这个答案 https stackoverflow com a 5151862 4708062显示视频标题不幸的是对于大多数视频 ID g
具有更好性能的 pyspark 枢轴替代品

以下是我的输入数据集 df spark createDataFrame 0 CattyCat B2K B 0 CattyCat B3L I 0 CattyCat B3U I 0 CattyCat D3J C 0 CattyCat J1N H

具有更好性能的 pyspark 枢轴替代品

具有更好性能的 pyspark 枢轴替代品 的相关文章

随机推荐

热门标签

具有更好性能的 pyspark 枢轴替代品的相关文章