使用列值作为 Spark DataFrame 函数的参数

2024-05-05

考虑以下数据框：

#+------+---+
#|letter|rpt|
#+------+---+
#|     X|  3|
#|     Y|  1|
#|     Z|  2|
#+------+---+

可以使用以下代码创建：

df = spark.createDataFrame([("X", 3),("Y", 1),("Z", 2)], ["letter", "rpt"])

假设我想重复每行列中指定的次数rpt，就像这样question https://stackoverflow.com/questions/51109018/pyspark-replicate-row-based-on-column-value.

一种方法是复制我的solution https://stackoverflow.com/a/51109986/5858851使用以下内容来回答这个问题pyspark-sql query:

query = """
SELECT *
FROM
  (SELECT DISTINCT *,
                   posexplode(split(repeat(",", rpt), ",")) AS (index, col)
   FROM df) AS a
WHERE index > 0
"""
query = query.replace("\n", " ")  # replace newlines with spaces, avoid EOF error
spark.sql(query).drop("col").sort('letter', 'index').show()
#+------+---+-----+
#|letter|rpt|index|
#+------+---+-----+
#|     X|  3|    1|
#|     X|  3|    2|
#|     X|  3|    3|
#|     Y|  1|    1|
#|     Z|  2|    1|
#|     Z|  2|    2|
#+------+---+-----+

这有效并产生正确的答案。但是，我无法使用 DataFrame API 函数复制此行为。

I tried:

import pyspark.sql.functions as f
df.select(
    f.posexplode(f.split(f.repeat(",", f.col("rpt")), ",")).alias("index", "col")
).show()

但这会导致：

TypeError: 'Column' object is not callable

为什么我能够将该列作为输入传递给repeat在查询中，但不是来自 API？有没有办法使用 Spark DataFrame 函数来复制此行为？

一种选择是使用pyspark.sql.functions.expr http://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html#pyspark.sql.functions.expr，它允许您使用列值作为 Spark-sql 函数的输入。

基于@user8371915的comment https://stackoverflow.com/questions/51140470/using-a-column-value-as-a-parameter-to-a-spark-dataframe-function#comment89265333_51140470我发现以下工作有效：

from pyspark.sql.functions import expr

df.select(
    '*',
    expr('posexplode(split(repeat(",", rpt), ","))').alias("index", "col")
).where('index > 0').drop("col").sort('letter', 'index').show()
#+------+---+-----+
#|letter|rpt|index|
#+------+---+-----+
#|     X|  3|    1|
#|     X|  3|    2|
#|     X|  3|    3|
#|     Y|  1|    1|
#|     Z|  2|    1|
#|     Z|  2|    2|
#+------+---+-----+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用列值作为 Spark DataFrame 函数的参数的相关文章

如何将模型结果保存到文本文件？

我正在尝试将从模型生成的频繁项集保存到文本文件中该代码是 Spark ML 库中 FPGrowth 示例的示例 Using saveAsTextFile直接在模型上写入 RDD 位置而不是实际值 import org apache spa
更改 Spark SQL 中的 Null 顺序

我需要能够按升序和降序对列进行排序并且还允许空值位于第一个或空值位于最后一个使用 RDD 我可以将 sortByKey 方法与自定义比较器结合使用我想知道是否有使用 Dataset API 的相应方法我了解如何将 desc asc
Spark SQL 失败，因为“常量池已超过 JVM 限制 0xFFFF”

我在 EMR 4 6 0 Spark 1 6 1 上运行此代码 val sqlContext SQLContext getOrCreate sc val inputRDD sqlContext read json input try inp
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
如何使用 Spark 2 屏蔽列？

我有一些表我需要屏蔽其中的一些列要屏蔽的列因表而异我正在读取这些列application conf file 例如对于员工表如下所示 id name age address 1 abcd 21 India 2 qazx 42 Ger
pyspark flatmat 错误：TypeError：“int”对象不可迭代

这是我书中的示例代码 from pyspark import SparkConf SparkContext conf SparkConf setMaster spark chetan ThinkPad E470 7077 setAppNam
Spark：如何使用crossJoin

我有两个数据框 df1有 100000 行并且df2有 10000 行我想创建一个df3这是两者的交叉连接 val df3 df1 crossJoin df2 这将产生 10 亿行尝试在本地运行它但似乎需要很长时间您认为本地可以实现
将 IndexToString 应用于 Spark 中的特征向量

Context 我有一个数据框其中所有分类值都已使用 StringIndexer 进行索引 val categoricalColumns df schema collect case StructField name StringType
IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
Scala Spark 包含与不包含

我可以使用 contains 过滤 RDD 中的元组如下所示但是使用不包含来过滤 RDD 又如何呢 val rdd2 rdd1 filter x gt x 1 contains 我找不到这个的语法假设这是可能的并且我没有使用Dat
Spark 中的 Distinct() 函数如何工作？

我是 Apache Spark 的新手正在学习基本功能有一个小疑问假设我有一个元组键值的 RDD 并且想从中获取一些唯一的元组我使用distinct 函数我想知道该函数基于什么基础认为元组是不同的是基于键值还是两者 di
计算 pyspark df 列中子字符串列表的出现次数

我想计算子字符串列表的出现次数并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
Spark scala 模拟 Spark.implicits 用于单元测试

当尝试使用 Spark 和 Scala 简化单元测试时我使用 scala test 和mockito scala 以及mockito Sugar 这只是让你做这样的事情 val sparkSessionMock mock SparkSes
使用 Python 计算 Spark 中成对 (K,V) RDD 中每个 KEY 的平均值

我想与 Python 共享这个特定的 Apache Spark 解决方案因为它的文档非常贫乏我想通过 KEY 计算 K V 对存储在 Pairwise RDD 中的平均值示例数据如下所示 gt gt gt rdd1 take 10
Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
如何将 Dataframe 列名称与 Scala 案例类属性相匹配？

本示例中的 Spark sql 列名来自case class Person case class Person name String age Int val people RDD Person An RDD of case class o
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
数量重新分配逻辑 - 具有外部数据集的 MapGroups

我正在研究一种复杂的逻辑需要将数量从一个数据集重新分配到另一个数据集在例子中我们有Owner and Invoice 我们需要从数量中减去Invoice准确地Owner匹配在给定汽车的给定邮政编码处减去的数量需要重新分配回同一辆车出

随机推荐

如何用Python从网站中提取表格

Here http www ffiec gov census report aspx year 2011 state 01 report demographic msa 11500 这里有张桌子我的目标是提取表格并将其保存到 csv 文件
如何在iOS SDK中使用语音识别？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我知道 SIRI 服务没有公共 API 但是有没有简单的语音识别 API 因此如果我有一个文本字段并且
C# 中从一个字符到另一个字符的子字符串

如何获取从一个特定字符到另一个特定字符的子字符串例如如果我有这种格式 string someString 1 7 2015 05 21T09 18 58 我只想得到这部分 2015 05 21T09 18 58 我如何使用子字符串字符
OSError：[Errno 'jupyter-notebook' 未找到] 2

您好我已经安装了 Anaconda3 4 3 1 Windows x86 64 在我的桌面上但运行命令时出现以下错误 Jupyter笔记本来自命令提示符 Error C Users my pc gt jupyter notebook
正则表达式获取“-”之前的所有字符

如何获取字符之前的字符串使用正则表达式例如我有 text 1 我想回来 text 所以我看到了实现这一目标的许多可能性 string text Foobar test 正则表达式匹配所有内容直到第一个 Match result R
如何从服务器控件中删除“名称”属性？

asp net端的控制代码如下
Postgres: \copy 语法

使用 CentOS 7 上的 PostgreSQL 9 5 我创建了一个名为sample还有几张桌子我有 csv数据输入 home MyUser data对于每张桌子例如存在TableName csv用于餐桌 TableName 如何
如何获取表的模式名称

我正在使用 SQL Server 2008 并有以下查询 SELECT SO1 name AS Tab SC1 name AS Col SO2 name AS RefTab SC2 name AS RefCol FO name AS FKN
在 Ubuntu 上运行独立的 ASP.NET Core 应用程序

我已经发布了一个 ASP NET Core 应用程序作为针对 Ubuntu 的独立应用程序发布似乎工作正常我已将这些文件复制到一台漂亮的 Ubuntu 机器上现在我如何运行我的应用程序我的理解是因为它是一个独立的 NET Cor
在 R 中不循环地对连续的列表元素对应用函数

我试图找到一种有效的即避免使用循环方法来应用一个函数该函数迭代地将列表的当前和前一个或下一个元素作为参数并返回结果列表其长度必然是短 1 个元素作为一个具体的例子我有一个在某些图中定义路径的顶点列表 vlist lt c
Flex - 自动调整数据网格大小的问题

我正在尝试创建一个数据网格它将垂直调整大小以确保所有渲染器完整显示此外渲染器的高度可变渲染器可以自行调整大小一般来说事件的流程如下项目渲染器之一会自行调整大小通常响应用户单击等它调度父数据网格拾取的冒泡事件 DataGri
如何在 Angular 2 中封装动态添加的元素？

尝试让 MDL 与 Angular2 一起工作通过 Shadow DOM 模拟 Angular 封装了从代码中获得的所有 CSS 和 html 但是当我使用componentHandler upgradeElement 它创建没有封装的新
在二进制 R 包中包含测试

我在用testthat为我的 R 包编写单元测试我见过一些软件包作者比如来自Rcpp and ggplot2 使用二进制文件分发单元测试但是当我使用 RStudio 0 98 1102 构建包时devtools 1 7 0 test
从 Spring 4.1.6 升级到 4.2.4 突然出现 TransactionRequiredException

我已经从 4 1 6 Release 升级到最新的 Spring 版本到 4 2 4 Release 突然之间之前运行顺利的所有功能现在抛出以下异常 javax persistence TransactionRequiredExcepti
MongoDB - 手册参考示例

我正在读手册参考 http docs mongodb org manual reference database references document referencesMongoDB 数据库参考文档的一部分但我不太理解解析引用字段
调整浏览器大小时CSS边框影响宽度

我使用以下方法制作了两个简单的导航菜单ul and li 一种是无边框的另一种是有边框的两个菜单的宽度固定为 400px 在第一个菜单中我给了每个li固定宽度为 100px 在第二个菜单中根据宽度计算我给出了固定宽度 98px 左右
PHP - 多个不同的数据库依赖注入类

我花了过去几个小时试图找到最佳最合乎逻辑的方法的答案以编写一个 php 数据库类以同时连接到一个 postgresql 数据库和一个 mysql 数据库另外我想采用依赖注入设计但对整个概念还是陌生的到目前为止我已经想出了 cl
为什么我的 CSS3 媒体查询无法在移动设备上运行？

在 styles css 中我使用媒体查询两者都使用以下变体 Normal CSS styles media only screen and max width 767px Mobile styles go here 当我缩小窗口时网
React - 如何获取组件子元素的大小并重新定位它们

我有一个组件它在动态网格中排列元素如下所示 class GridComponent extends React Component render return div items map function item return div
使用列值作为 Spark DataFrame 函数的参数

考虑以下数据框 letter rpt X 3 Y 1 Z 2 可以使用以下代码创建 df spark createDataFrame X 3 Y 1 Z 2 letter rpt 假设我想重复每行列中指定的次数rpt 就像这样questio

使用列值作为 Spark DataFrame 函数的参数

使用列值作为 Spark DataFrame 函数的参数 的相关文章

随机推荐

热门标签

使用列值作为 Spark DataFrame 函数的参数的相关文章