Pyspark 合并数据框中的 WrappedArrays

2023-12-14

当前的 Pyspark 数据帧具有以下结构（col2 的 WrappedArrays 列表）：

+---+---------------------------------------------------------------------+  
|id |col2                                                                 |   
+---+---------------------------------------------------------------------+  
|a  |[WrappedArray(code2), WrappedArray(code1, code3)]                    |  
+---+---------------------------------------------------------------------+  
|b  |[WrappedArray(code5), WrappedArray(code6, code8)]                    |  
+---+---------------------------------------------------------------------+

这是我想要的结构（col2 的扁平列表）：

+---+---------------------------------------------------------------------+  
|id |col2                                                                 |   
+---+---------------------------------------------------------------------+  
|a  |[code2,code1, code3)]                                                |  
+---+---------------------------------------------------------------------+  
|b  |[code5,code6, code8]                                                 |  
+---+---------------------------------------------------------------------+

但我不确定如何进行这种转变。我曾尝试制作平面图，但似乎不起作用。有什么建议么？

您可以使用 udf 和 rdd 两种方式来完成此操作。这是示例：-

df = sqlContext.createDataFrame([
    ['a',  [['code2'],['code1', 'code3']]],  
    ['b',  [['code5','code6'], ['code8']]]
], ["id", "col2"])  
df.show(truncate = False)
+---+-------------------------------------------------+
|id |col2                                             |
+---+-------------------------------------------------+
|a  |[WrappedArray(code2), WrappedArray(code1, code3)]|
|b  |[WrappedArray(code5, code6), WrappedArray(code8)]|
+---+-------------------------------------------------+

RDD:-

df.map(lambda row:(row[0], reduce(lambda x,y:x+y, row[1]))).toDF().show(truncate=False)
+---+---------------------+
|_1 |_2                   |
+---+---------------------+
|a  |[code2, code1, code3]|
|b  |[code5, code6, code8]|
+---+---------------------+

UDF:-

from pyspark.sql import functions as F
import pyspark.sql.types as T
def fudf(val):
    #emlist = []
    #for item in val:
    #    emlist += item
    #return emlist
    return reduce (lambda x, y:x+y, val)
flattenUdf = F.udf(fudf, T.ArrayType(T.StringType()))
df.select("id", flattenUdf("col2").alias("col2")).show(truncate=False)
+---+---------------------+
|id |col2                 |
+---+---------------------+
|a  |[code2, code1, code3]|
|b  |[code5, code6, code8]|
+---+---------------------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python27

PySpark

apachesparksql

RDD

Pyspark 合并数据框中的 WrappedArrays 的相关文章

如何使用 with open 在 pySpark 中打开存储在 HDFS 中的文件

如何打开存储在 HDFS 中的文件这里输入文件来自 HDFS 如果我按如下方式提供文件我将无法打开它将显示为找不到文件 from pyspark import SparkConf SparkContext conf SparkConf
为什么我无法从多处理队列中捕获 Queue.Empty 异常？

我试图捕获 multiprocessing Queue 为空时引发的 Queue Empty 异常以下不起作用 import multiprocessing f multiprocessing Queue try f get True 0
createOrReplaceTempView 在 Spark 中如何工作？

我是 Spark 和 Spark SQL 的新手如何createOrReplaceTempView在 Spark 工作如果我们注册一个RDD对象作为表 Spark 会将所有数据保留在内存中吗 createOrReplaceTempVie
for 循环如何评估其参数

我的问题很简单 Does a for循环评估它每次使用的参数 Such as for i in range 300 python 是否会为此循环的每次迭代创建一个包含 300 个项目的列表如果是的话这是避免这种情况的方法吗 lst ra
如何将 self 传递给装饰器？

我该如何通过self key下面进入装饰器 class CacheMix object def init self args kwargs super CacheMix self init args kwargs key func Cons
sqlalchemy 具有相同表名的多个数据库不起作用

我正在使用 SQLAlchemy 使用 Python 处理两个数据库这些数据库共享表名因此在运行代码时收到错误消息错误消息是 sqlalchemy exc InvalidRequestError Table wo is already
在 Databricks / Spark 中的 SQL 中为变量分配动态值

我觉得我一定在这里遗漏了一些明显的东西但我似乎无法在 Spark SQL 中动态设置变量值假设我有两张桌子 tableSrc and tableBuilder 我正在创建tableDest 我一直在尝试变体 SET myVar FLOA
如何进行重定向并保留查询字符串？

我想进行重定向并保留查询字符串就像是self redirect加上发送的查询参数那可能吗 newurl my new route urllib urlencode self request params self redirect ne
PySpark - RDD 到 JSON

我有一个 Hive 查询返回以下格式的数据 ip category score 1 2 3 4 X 5 10 10 10 10 A 2 1 2 3 4 Y 2 12 12 12 12 G 10 1 2 3 4 Z 9 10 10 10 10
PySpark DataFrame 上分组数据的 Pandas 式转换

如果我们有一个由一列类别和一列值组成的 Pandas 数据框我们可以通过执行以下操作来删除每个类别中的平均值 df DemeanedValues df groupby Category Values transform lambda g
具有多个参数和返回值的两个并行函数

我有两个独立的功能每一个都需要相当长的时间来执行 def function1 arg do some stuff here return result1 def function2 arg1 arg2 arg3 do some stuff
列表推导式在 Python2 中泄漏循环变量：如何使其与 Python3 兼容

我刚刚了解到为什么列表推导式会写入循环变量而生成器却不会 https stackoverflow com questions 19848082 why do list comprehensions write to the loop va
如何在 Spark 数据帧 groupBy 中执行 count(*)

我的目的是做相当于基本sql的事情 select shipgrp shipstatus count cnt from shipstatus group by shipgrp shipstatus 我见过的 Spark 数据帧的示例包括其他列
从 C++ 调用 Python 脚本并使用其输出

我想从 C 调用 python 脚本并希望使用该脚本生成的输出 csv 文件返回 C 我在 main 中尝试过 std string filename home abc xyz script py std string command p
是否可以忽略 Matplotlib 绘图的第一个默认颜色？

Matplotlib plots each column of my matrix a with 4 columns by blue yellow green red Then I plot only the second third fo
pydev 断点不起作用

我正在使用 python 2 7 2 sqlalchemy 0 7 unittest eclipse 3 7 2 和 pydev 2 4 开发一个项目我在 python 文件单元测试文件中设置断点但它们被完全忽略之前在某些时候
Python实时读取串口数据

我正在使用 Python 中的脚本通过串行端口以 2Mbps 的速度从 PIC 微控制器收集数据 PIC 在 2Mbps 下完美定时工作 FTDI USB 串行端口在 2Mbps 下工作也很好均通过示波器验证我每秒发送消息大小约为 1
Spark 数据帧分组、排序和选择一组列的顶部行

我正在使用 Spark 1 5 0 我有一个包含以下列的 Spark 数据框 user id description fName weight 我想做的是为每个用户选择前 10 行和后 10 行基于列权重的值数据类型为 Double 如
TypeError：无法使用抽象方法实例化抽象类 <...>

这是我的代码 from abc import ABC from abc import abstractmethod class Mamifiero ABC docstring for Mamifiero def init self self
Django modelForm 中的文件上传

我正在尝试在 appengine django 中上传文档使用纯 django 代码成功上传文档使用 python manage py runsever 但是当我尝试使用 appengine 项目运行 django 时它给了我错误 E

随机推荐

Pandas 根据条件组合连续行

我的问题与此类似但答案似乎并不完全有效根据条件合并行 pandas 数据框给定以下 pandas 数据框 SECTION TEXT NUMBER OF WORDS ONE lots of text 55 ONE word1 1
使用发布库时，OpenCV imread(filename) 在调试模式下失败

我有一些C 代码并且一切正常OpenCV除了函数imread file 它正确地找到了文件并加载了名称但没有加载任何数据 Mat pattImage imread fileName 0 经过在网上的一些研究后我意识到我处于调试模式但随
Java - 跳过for循环中的值

我正在尝试使用 for 循环跳过值就像是 for int i 32 i lt 255 but skip 128 to 159 i char ascii char i System out println ascii 有什么建议么谢谢在
pandas concat('outer') 不做联合？

它看起来pandas concat正在执行左外连接而不仅仅是联合索引对我来说似乎是一个错误但也许我错过了一些明显的东西 import pandas import pandas util testing as put ts1 put
PHP 中的多维数组大小限制

我正在开发一个函数最终会向数组添加大量维度我想知道是否有可能达到可以添加的维度的限制如果是这样 PHP 中的限制是什么不我不认为访问深度有限制除了你有多少内存不过每一层都至少添加一个指针间接因此随着层数的加深检索元素的速
stdClass 类的对象无法转换为字符串

我不知道为什么但我收到此错误可捕获的致命错误类 stdClass 的对象无法转换为字符串对于这段代码 sql SELECT FROM player ORDER BY score DESC LIMIT begin arr array
InvalidOperationException - 对象当前正在其他地方使用

我已经经历过这个问题但这没有帮助这里的情况有所不同我正在使用后台工作者第一个后台工作者开始对用户的图像输入进行操作并在firstbackgroundworker runworkercompleted 内部进行操作我正在调用另外3个
如何在区域地图上赋予不透明度

我遇到了 html 不透明度问题目前我已经使用 css 应用了不透明度但它不起作用我的 html 和 css 代码如下 area class transbox href test1 htm target blank area opac
Swift 索引 0 超出表视图中空数组的范围

我正在尝试使用 PFTableViewCell 连接到主电视控制器的 2 个标签进行解析来填充 tableview 当我添加 TableView 的节数 numberOfRowsInSection 时应用程序崩溃但是当我删除它时它可以
MVC3中相同类型实体之间的多对多关系

我有一个 ASP NET MVC3 应用程序其中使用 Entity Framework 4 3 Code First 和迁移我一直在尝试在相同类型的实体之间创建多对多关系但是当我使用迁移搭建迁移支架时它会生成一对一关系这个想法是一
为什么 ColumnTransformer 中的 SimpleImputer 创建额外的列？

我正在关注 Aurelion Geron 的机器学习书籍我正在尝试ColumnTransformer班级当我包括SimplerImputer 创建了一个附加列我明白那个SimplerImputer用于填充列中缺失的值total bed
使用 Ajax 动态显示数据

在此代码中单击 like 按钮后数据已添加到数据库中我现在想做的是添加数据后我将查询所选项目的总赞数并在不加载页面的情况下显示它这是我现在的代码我的看法 p i class fa fa thumbs up i span span
调用存储过程，当过程名称在mysql的变量中时

我有 mysql 存储过程我想在变量中调用它和过程名称我使用了准备好的语句但它给了我一个错误我不是 mysql 专家这是准备好的声明 gt PREPARE stmt1 FROM CALL SET q sys search SET
如何避免在Windows上使用Git Bash时每次都需要输入解密私钥的密码？

我有一个自动构建服务可以从 git 私人存储库下载问题是当它尝试克隆存储库时它需要提供密码因为它不被记住因此由于没有人为交互它会永远等待密码我如何强制它记住 id rsa pub 对于 Windows 用户请注意这是我
获取当前目录下所有子目录的列表

有没有办法在Python中返回当前目录中所有子目录的列表我知道您可以使用文件来执行此操作但我需要获取目录列表您的意思是直接子目录还是树下的每个目录无论哪种方式你都可以使用os walk去做这个 os walk directory
强制应用程序在启动时启动

我正在为我的孩子们创建一个类似信息亭的环境我的应用程序扫描并杀死了很多游戏进程因为它们无法玩 M 或以上评级的游戏因为它们还很年轻禁用任务管理器因为它们不需要或不使用它但我需要一种可以运行该应用程序一次的方法并且它会复制添加
绘制到画布 onDraw 有效，绘制 onTouchEvent 无效

我在 Android SDK 中摆弄 2D 图形但在一个简单的示例中遇到了麻烦我假设我只是误解了一些基本的基本的东西 public class DrawView extends View Paint paint new Paint C
iOS 故事板自动布局和添加约束

我正在更改我的应用程序以支持 3 5 英寸显示屏目前支持4英寸显示屏屏幕布局如下所示如何在故事板中添加以下约束我在故事板中启用了自动布局选项如何将button1和button2宽度设置为超级视图宽度的一半并且两者应该在超级视图宽
为什么在 BinaryReader 上调用 Dispose() 会导致编译错误？

我有以下类它在内部使用 BinaryReader 并实现 IDisposable class DisposableClass IDisposable private BinaryReader reader public Disposabl
Pyspark 合并数据框中的 WrappedArrays

当前的 Pyspark 数据帧具有以下结构 col2 的 WrappedArrays 列表 id col2 a WrappedArray code2 WrappedArray code1 code3

Pyspark 合并数据框中的 WrappedArrays

RDD:-

UDF:-

Pyspark 合并数据框中的 WrappedArrays 的相关文章

随机推荐

热门标签