pyspark - 合并 2 列集合

2023-12-22

我有一个 Spark 数据框，它有 2 列由函数collect_set 形成。我想将这两列集合合并为一列集合。我应该怎样做呢？它们都是一组字符串

例如，我有两列是通过调用collect_set形成的

Fruits                  |    Meat
[Apple,Orange,Pear]          [Beef, Chicken, Pork]

我如何把它变成：

Food

[Apple,Orange,Pear, Beef, Chicken, Pork]

非常感谢您提前提供的帮助

我也在 Python 中解决了这个问题，所以这里是 Ramesh 对 Python 的解决方案的一个端口：

df = spark.createDataFrame([(['Pear','Orange','Apple'], ['Chicken','Pork','Beef'])],
                           ("Fruits", "Meat"))
df.show(1,False)

from pyspark.sql.functions import udf
mergeCols = udf(lambda fruits, meat: fruits + meat)
df.withColumn("Food", mergeCols(col("Fruits"), col("Meat"))).show(1,False)

Output:

+---------------------+---------------------+
|Fruits               |Meat                 |
+---------------------+---------------------+
|[Pear, Orange, Apple]|[Chicken, Pork, Beef]|
+---------------------+---------------------+
+---------------------+---------------------+------------------------------------------+
|Fruits               |Meat                 |Food                                      |
+---------------------+---------------------+------------------------------------------+
|[Pear, Orange, Apple]|[Chicken, Pork, Beef]|[Pear, Orange, Apple, Chicken, Pork, Beef]|
+---------------------+---------------------+------------------------------------------+

向拉梅什致敬！

EDIT:请注意，您可能必须手动指定列类型（不确定为什么它仅在某些情况下没有明确的类型规范对我有用 - 在其他情况下我得到了字符串类型列）。

from pyspark.sql.types import *
mergeCols = udf(lambda fruits, meat: fruits + meat, ArrayType(StringType()))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

apachesparksql

pyspark - 合并 2 列集合的相关文章

pyspark通过特定键加入rdd

我有两个 rdd 需要将它们连接在一起它们看起来像下面这样 RDD1 u 2 u 100 2 u 1 u 300 1 u 1 u 200 1 RDD2 u 1 u 2 u 1 u 3 我想要的输出是 u 1 u 2 u 100 2 所以我
使用已知模式保存空 DataFrame (Spark 2.2.1)

是否可以使用已知模式保存一个空的 DataFrame 以便将该模式写入文件即使它有 0 条记录 def example spark SparkSession path String schema StructType val datafr
pyspark 数据框中的自定义排序

是否有推荐的方法在 pyspark 中实现分类数据的自定义排序我理想地寻找 pandas 分类数据类型提供的功能因此给定一个数据集Speed列可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的
缩放数据框的每一列

我正在尝试缩放数据框的每一列首先我将每一列转换为向量然后使用 ml MinMax Scaler 除了简单地重复它之外是否有更好更优雅的方法将相同的函数应用于每一列 import org apache spark ml linalg
使用 mapWithState Spark Streaming 过滤部分重复项

我们有一个DStream 比如 val ssc new StreamingContext sc Seconds 1 val kS KafkaUtils createDirectStream String TMapRecord ssc Pre
运行pyspark时没有这样的文件或目录错误

我安装了 Spark 但是当我运行时pyspark在终端上我得到 usr local Cellar apache spark 2 4 5 1 libexec bin pyspark line 24 Users miguel spark 2
在 Jupyter 笔记本中使用 PySpark 读取 XML

我正在尝试读取 XML 文件 df spark read format com databricks spark xml load path to my xml 并收到以下错误 java lang ClassNotFoundExceptio
如何获取使用 concat_ws 生成的结果的大小？

我正在表演groupBy在 COL1 上并使用 COL2 的串联列表concat ws 我怎样才能获得该列表中的值的计数这是我的代码 Dataset
pyspark.sql.utils.AnalysisException：u'Path不存在

我正在使用标准 hdfs 与 amazon emr 运行 Spark 作业而不是 S3 来存储我的文件我在 hdfs user hive warehouse 有一个配置单元表但当我的 Spark 作业运行时找不到它我配置了 Spar
Spark 写入 hdfs 无法使用 saveAsNewAPIHadoopFile 方法

我在 CDH 5 2 0 上使用 Spark 1 1 0 并试图确保我可以读取和写入 hdfs 我很快意识到 textFile 和 saveAsTextFile 调用旧的 api 并且似乎与我们的 hdfs 版本不兼容 def testHD
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
为什么流式数据集会失败并显示“当流式数据帧/数据集上存在流式聚合时不支持完整输出模式...”？

我使用 Spark 2 2 0 在 Windows 上使用 Spark 结构化流时出现以下错误有时不支持完整输出模式streaming aggregations on streaming DataFrames DataSets没有wate
使用什么工具来可视化逻辑和物理查询计划？

我很熟悉explain 还有 WebUI 我很好奇是否有任何工具可以生成优化前后逻辑物理计划的树结构图像也就是返回的信息explain 作为图像 PNG 或 JPG 之类的图片我自己从未听说过但您可以使用 Web UI 查看物理计划
向数据框添加新列的问题 - Spark/scala

我是 Spark scala 的新手我正在尝试将一些数据从配置单元表读取到 Spark 数据帧然后根据某些条件添加一列这是我的代码 val DF hiveContext sql select from select from test
使用notebook时将jar添加到pyspark

我正在尝试将 mongodb hadoop 与 Spark 集成但不知道如何使 IPython 笔记本可以访问这些 jar 这是我想做的 set up parameters for reading from MongoDB via Had
为什么在 Spark-Shell 中导入 SparkSession 会失败并显示“对象 SparkSession 不是包 org.apache.spark.sql 的成员”？

我在我的 VM Cloudera 机器上使用 Spark 1 6 0 我正在尝试从 Spark shell 将一些数据输入到 Hive 表中为此我尝试使用 SparkSession 但以下导入不起作用 scala gt import o
Spark 输出：日志式与进度式

spark submit两个不同集群都运行 Spark 1 2 上的输出看起来不同一个是日志式即大量消息流例如 15 04 06 14 53 13 INFO TaskSetManager Starting task 262 0 i
Pyspark dataframe：如何按组应用 scipy.optimize 函数

我有一段运行良好的代码但使用 pandas 数据帧 groupby 处理但是由于文件很大 gt 7000 万组我需要转换代码以使用 PYSPARK 数据框架这是使用 pandas dataframe 和小示例数据的原始代码 imp
在地图类型中创建 DataFrame 分组列

My 数据框具有以下结构 df spark createDataFrame B a 10 B b 20 C c 30 Brand Type Amount df show Brand Type Amount B a 10 B b 20 C c
Spark on Hive SQL 查询错误 NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT

针对 Hive 2 1 0 提交 Spark 1 6 0 SQL 应用程序时出现错误 Exception in thread main java lang NoSuchFieldError HIVE STATS JDBC TIMEOUT a

随机推荐

TFS项目可以互相引用吗？

我最近开始在一个企业软件环境中工作其中有数百个不同的应用程序所有这些应用程序都局限于自己的孤岛我的任务之一是尝试将事情标准化一点第一个尝试将是标准事件日志记录目前该公司的标准是每个人都应该使用企业库进行日志记录这实际上
z-index 在 ipad 上不能很好地工作

我正在为朋友建立一个网站 http pasionesargentas com sm http pasionesargentas com sm 与带缩略图翻转的全屏图库 http tympanus net codrops 2011 02 09
css div高度100%问题？

我想要一个 div 占据所有屏幕高度这就是为什么我找到以下链接 http www webmasterworld com forum83 200 htm http www webmasterworld com forum83 200 htm
重用PreparedStatement中的参数？

我将一个参数传递给一个PreparedStatement 如下所示 public void getNodes String runId File file Connection conn PreparedStatement ps null
我可以在 QNX 上使用 Java 吗？

我必须侍奉两个主人一个项目预计在 v1 0 后将一分为二它最初是一个使用 FreeRTOS 用 C 语言编码的简单嵌入式项目直到 v1 0 为止后来一位大师说我们必须使用QNX来取悦合作伙伴否则就会失去交易而另一位大师则说我们
在 rmarkdown 中创建模板

我正在尝试创建自定义模板但它不会显示我已经尝试跟随https bookdown org yihui rmarkdown template struct html https bookdown org yihui rmarkdown te
Power Query 为空时上移值

目前我在 Excel 中有一个大表我想将其与动态下拉列表级联选项一起使用根据您在第一个下拉菜单中所做的选择然后在下一个单元格中您应该有一个经过筛选的下拉菜单此外任何选项对于所选的主类别都是唯一的我做的第一件事是获取我需要
fsock：无法找到套接字传输“http”

我想用 fsock 发送后变量但是当我尝试这个时 post arr array a gt b addr http 1 2 3 4 confirmation html fp fsockopen addr 80 errno errstr 30
使用 CloudFormation 添加对 AWS websocket API 的集成响应

AWS recently released Cloudformation support for templating websocket API gateways https aws amazon com about aws whats
JFreechart 中漂亮的饼图

是否有可能在 JFreechart 中为饼图获得复杂漂亮的颜色我的意思是我怎样才能获得如图所示的颜色link http upload wikimedia org wikipedia commons b bf Ml wiki photo
SVG 错误：访问属性“someFunction”的权限被拒绝

请看一下这个小提琴 http jsfiddle net arasbm Tyxea 14 http jsfiddle net arasbm Tyxea 14 正如你所看到的我想在 SVG 元素上触发事件时对其进行转换您可以单击箭头它应该
复制二进制文件的内容

我正在设计一个图像解码器作为第一步我尝试复制使用 c 即打开文件并将其内容写入新文件下面是我使用的代码 while c getc fp EOF fprintf fp1 c c 其中 fp 是源文件 fp1 是目标文件程序执行时没有
字母数字和 + 字符的正则表达式

我需要一个仅允许字母数字加上和字符的正则表达式现在我正在使用 w 以下模式将匹配仅包含字母数字或的字符串包括或等国际字符并且不包括中包含的字符 w p L p N 例子 string pattern p L p N
Azure AD 的访问令牌颁发者是 sts.windows.net 而不是 login.microsoftonline.com

我正在尝试验证从 azure Active Directory 获取的访问令牌我从以下位置获得了令牌https login microsoftonline com my tennant guid v2 0 返回的令牌中的发行者是https
应用程序引擎 + 模块 + Maven 的开发工作流程

我们最近将我们的应用程序引擎项目按照以下结构转换为模块这个新的开发工作流程的问题是我们必须在每次更改时重建 EAR 并重新启动应用程序引擎本地开发服务器这使得每次我们更改代码并想要测试它时我们都会浪费 30 秒到一分钟的时间 com
PorterDuffXfermode DST_IN 未按预期工作

因此我试图加快我们正在做的一些绘制使用 alpha 透明度绘制弧的一部分并尝试将整个弧缓存到单独的位图中并使用 alpha 遮罩有选择地显示它根据我所做的研究 Android 的 Xfermodes API 演示这个例子 htt
Swagger UI 将身份验证令牌传递给标头中的 API 调用

我是 Swagger 的新手我正在使用 Swagger UI 生成 swagger 文档我有两个 API 调用第一个调用是根据用户名和密码生成令牌第二次调用需要第一次调用生成的令牌如何使用 Swagger UI 设置第二次调用的令
如何创建 AvalonEdit 语法文件 (.xshd) 并将其嵌入到我的程序集中？

我正在尝试为 AvalonEdit 定义一些自定义突出显示规则似乎没有任何相关文档有有关文件格式的一些文档 http www codeproject com KB edit AvalonEdit aspx 但没有介绍创建定义后如何实际加
创建增量按钮，如果边距大于 2800 像素，该按钮将关闭

我正在制作一个滑块并且正在尝试弄清楚如何专门对按钮进行编程我希望它在单击时以 700 像素的增量向左移动但是一旦 marginLeft 大于 2800 像素因为单击时它不会执行任何操作现在我有以增量移动容器的部分但我不确定如何制
pyspark - 合并 2 列集合

我有一个 Spark 数据框它有 2 列由函数collect set 形成我想将这两列集合合并为一列集合我应该怎样做呢它们都是一组字符串例如我有两列是通过调用collect set形成的 Fruits Meat Apple Or

pyspark - 合并 2 列集合

pyspark - 合并 2 列集合 的相关文章

随机推荐

热门标签

pyspark - 合并 2 列集合的相关文章