Pyspark 合并数据帧行，一个数组包含在另一个数组中

2023-12-30

我什至不知道表达这些问题的最佳标题是什么。

我有以下数据集

df = spark.createDataFrame([\
            (["1", "2","3","4"], ),\
            (["1","2","3"], ),\
            (["2","1","3"], ),\
            (["2","3","4","1"], ),\
            (["6","7"], )\
], ['cycle', ])
df.show()

+------------+
|       cycle|
+------------+
|[1, 2, 3, 4]|
|   [1, 2, 3]|
|   [2, 1, 3]|
|[2, 3, 4, 1]|
|      [6, 7]|
+------------+

我最后想要的是：

删除排列
仅保留包含所有其他集合的最大行的行

我可以用sort_array() and distinct()摆脱排列

df.select(f.sort_array("cycle").alias("cycle")).distinct().show() 
+------------+
|       cycle|
+------------+
|[1, 2, 3, 4]|
|      [6, 7]|
|   [1, 2, 3]|
+------------+

我想用 Pyspark 减少数据集是：

+------------+
|       cycle|
+------------+
|[1, 2, 3, 4]|
|      [6, 7]|
+------------+

所以以某种方式检查一下[1, 2, 3]是其一部分[1, 2, 3, 4]并且只保留所以Python子集命令A.issubset(B)应用在Pyspark、Spark方式上一列

我目前能想到的唯一方法是对每一行进行可怕的迭代循环，这将杀死所有性能

您可以尝试的一种方法是首先找到所有cycles 至少有一个superset（排除自我）通过使用自加入找到d2.cycle满足以下条件：

size(数组除外 http://spark.apache.org/docs/2.4.0/api/python/pyspark.sql.html#pyspark.sql.functions.array_except(d2.cycle, d1.cycle))==0: 中没有项目d2.cycle被排除在d1.cycle（空数组将满足）
size(d2.cycle) < size(d1.cycle): the size of d2.cycle小于size of d1.cycle:

然后采用 left_anti 连接从原始数据帧中排除上述列表，最后运行 sort_array 和 drop_duplicates（或distinct）：

from pyspark.sql.functions import expr

df_sub = df.alias('d1').join(
      df.alias('d2')
    , expr('size(array_except(d2.cycle, d1.cycle))==0 AND size(d2.cycle) < size(d1.cycle)')
).select('d2.cycle').distinct()

df_sub.show()
#+---------+
#|    cycle|
#+---------+
#|[1, 2, 3]|
#|[2, 1, 3]|
#+---------+

df.join(df_sub , on=['cycle'], how='left_anti') \
  .withColumn('cycle', expr('sort_array(cycle)')) \
  .distinct() \
  .show()
#+------------+                                                                  
#|       cycle|
#+------------+
#|[1, 2, 3, 4]|
#|      [6, 7]|
#+------------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

Pyspark 合并数据帧行，一个数组包含在另一个数组中的相关文章

使用 pandas.date_range() 生成多个日期时间，每周两个日期

我在用着pd date range start date end date freq W MON 每周一生成每周频率日期时间start date 2017 01 01 and end date 2017 12 31 这意味着每月大约生成 4
ValueError：请使用“Layer”实例初始化“TimeDistributed”层

我正在尝试构建一个可以在音频和视频样本上进行训练的模型但出现此错误ValueError Please initialize TimeDistributed layer with a Layer instance You passed Te
使用 Python 3 动态插入到 sqlite

我想使用 sqlite 写入多个表但我不想提前手动指定查询有数十种可能的排列例如 def insert sqlite tablename data list global dbc dbc execute insert into tab
python array(10,1) 和 array(10,) 之间的区别

我正在尝试将 MNIST 数据集加载到数组中当我使用 X train y train X test y test mnist load data 我得到一个数组 y test 10000 但我希望它的形状为 10000 1 数组 1000
检查 python 中命令行参数的数量

我是蟒蛇新手还是把脚弄湿了我正在尝试做这样的事情 import sys if len sys argv lt 3 or lt len sys argv gt 3 print This script will compare two fi
是否有一个包可以维护所有带有符号的货币列表？

是否有一个 python 包提供所有或相当完整货币的列表与符号如美元的有优秀的pycountry 贪财的 https github com limist py moneyed and ccy http code google com
如何将 sql 数据输出到 QCalendarWidget

我希望能够在日历小部件上突出显示 SQL 数据库中的一天就像启动程序时突出显示当前日期一样在我的示例中它是红色突出显示我想要发生的是当用户按下突出显示的日期时数据库中日期旁边的文本将显示在日历下方的标签上这是我使用 QT De
在Python中读取tiff标签

我正在尝试用 Python 读取 tiff 文件的标签该文件是 RGB 的uint16每个通道的值我目前正在使用tifffile import tifffile img tifffile imread file tif 然而 img是一
在 Mac OSX 上从 Python 3.6 运行 wine 命令

我正在尝试用 Python 编写一个打开的脚本wine然后发送代码到wine终端打开一个 exe程序这 exe程序也是命令驱动的我可以打开wine 但我无法进一步 import shlex subprocess line usr bin
Python“非规范化”unicode 组合字符

我正在寻找标准化 python 中的一些 unicode 文本我想知道是否有一种简单的方法可以在 python 中获得组合 unicode 字符的非规范化形式例如如果我有序列u o xaf i e latin small lette
numpy：如何连接数组？（获得多个范围的并集）

我使用Pythonnumpy 我有一个 numpy 索引数组a gt gt gt a array 5 7 12 18 20 29 gt gt gt type a
App Engine 实体到字典

将 google app engine 实体在 python 中复制到字典对象的好方法是什么我正在使用 db Expando 对象所有属性均为扩展属性 Thanks 有一个名为foo尝试 foo dict
使用seaborn绘制简单线图

我正在尝试使用seaborn python 绘制ROC曲线对于 matplotlib 我只需使用该函数plot plt plot one minus specificity sensitivity bs where one minus s
无法在 PyCharm 版本 9.3.3 中安装 NumPy。 Python版本3.8.2

在 PyCharm 中安装 NumPy 时出错尝试安装 Microsoft Visual C 14 0 还是行不通 NumPy 正在通过命令安装pip3 install numpy在 cmd 终端中但是当尝试将其安装在 PyCharm
Discord.py 嵌入中禁用按钮/冻结按钮

I m trying to make a replica of this bot in which when I press any of the buttons below it shows a dropdown menu and you
基于值而不是类型的单次调度

我在 Django 上构建 SPA 并且有一个庞大的功能其中包含许多功能if用于检查我的对象字段的状态名称的语句像这样 if self state new do some logic if self state archive do s
寻找完美的正方形

我有这个Python代码 def sqrt x ans 0 if x gt 0 while ans ans lt x ans ans 1 if ans ans x print x is not a perfect square return
PyQt5：如何使QThread返回数据到主线程

I am a PyQt 5 4 1 1初学者我的Python是3 4 3 这是我尝试遵循的many https mayaposch wordpress com 2011 11 01 how to really truly use qthr
如何使用xlwt设置文本颜色

我无法找到有关如何设置文本颜色的文档在 xlwt 中如何完成以下操作 style xlwt XFStyle bold font xlwt Font font bold True style font font background col
Spark scala 模拟 Spark.implicits 用于单元测试

当尝试使用 Spark 和 Scala 简化单元测试时我使用 scala test 和mockito scala 以及mockito Sugar 这只是让你做这样的事情 val sparkSessionMock mock SparkSes

随机推荐

tqdm 可以与数据库读取一起使用吗？

当从 SQL 数据库读取大型关系到 pandas 数据框时最好有一个进度条因为元组的数量是静态已知的并且可以估计 I O 速率它看起来像tqdm模块有一个功能tqdm pandas它将报告列上映射函数的进度但默认情况下调用它不会像
Linux下删除/重写/生成键盘事件

我想在 Linux 下挂钩拦截和生成键盘 make break 事件然后再将它们传递给任何应用程序更准确地说我想检测关键事件流中的模式并能够根据检测到的模式丢弃插入事件到流中我在 SO 上看到了一些相关问题但是它们要么只处
在 R 中，如何循环重复的 XML 节点，并将文本值保存在列表中？

我正在处理来自 ClinicalTrials gov 的 XML 文件其结构如下
Laravel 4：防止表单重新提交

我经历过这个question https stackoverflow com questions 17239586 laravel 4 prevent multiple form submissions csrf token 但发布的答案并
闪亮：updateSelectizeInput 抛出错误“$ 运算符对于原子向量无效”

我是闪亮的新手很难弄清楚这一点我试图在 selectizeInput 中创建一个全选按钮但在将输入从 selectizeInput 传递到 updateSelectizeInput 时遇到错误有人可以帮我解决这个问题吗当我从输
浏览器不使用元标记内容安全策略

我正在尝试通过一些 CDN 加载一些 css 和脚本以缩短加载时间但我遇到了内容安全策略问题但在阅读了相当长的时间并尝试了不同的策略后它仍然给出了相同的错误目前我的政策是这样的根据我的理解这意味着我可以从网站本身加载任何内容并
使图像适合表格单元格宽度百分比 (HTML)

我在 HTML 表格中组织了网站内容并为每个单元格设置了特定宽度以百分比表示现在我在组合单元格中有一个相当大的图像该图像应该跨越整个表格的 30 或者来自不同行的 2 个单元格每个单元格 15 使用 colspan 2 然而该
根据条件返回正确的 WSDL 客户端 - 相同的客户端但不同的命名空间

我有两个 WSDL 文件除了命名空间和端点之外它们几乎相同第一个点是测试系统第二个点是生产系统 TEST https sandbox dhl24 com pl webapi2 html https sandbox dhl24 com
正在创建多个不兼容的 InteractiveShellEmbed 子类实例

如果我安装Anaconda Python 发行版 http docs continuum io anaconda 并尝试运行ipython manage py shell从我的 Django 应用程序中抛出以下错误我知道当我安装 ana
以编程方式调用 WPF TargetedTriggerAction

我有一个来自第 3 方库的 TargetedTriggerAction 它希望在不将其附加到按钮的情况下进行调用调用我可以让它与按钮一起工作但我想这样做是为了响应一些非 UI 事件这是该操作的类声明 public class Mea
如何在颤振中围绕圆形头像创建虚线边框

我想在我的 Flutter 应用程序上显示类似 Instagram 的故事并希望通过使用用户头像周围的边框来显示用户上传的故事数量假设用户上传了 3 个故事我将在头像图像周围显示 3 条圆形边框线以相等数量的空格分隔如果用户上传
Symfony2：如何获取表单类中的配置参数

如果我在控制器内我可以使用以下命令轻松读取配置参数 this gt container gt getParameter profession 但是当我在其他类中时比如表单类型我如何获取配置参数 container new Contai
rxjava中的异常处理

我正在努力适应rxjava我想打电话给下面的人QuoteReader在可观察的我不确定如何处理抛出的异常 public class QuoteReader public Map
GNU make 更新 .d 文件时的确切事件链是什么？

考虑以下简单的 makefile List all object files objects main o foo o bar o baz o Define pattern rule for c gt o o c CC c CFLAGS l
打开新窗口和新选项卡的推文按钮

我正在做 FreeCodeCamp 的随机报价机练习 Using 这个答案 https stackoverflow com a 22962821 4956253 我尝试设置我的推文按钮来打开一个新窗口而不是用户可以用来发布此报价的选项卡
Hibernate 未保存值注释

我想强制 Hibernate 4 2 通过字段 VERSION 而不是字段 ID 检查对象持久性下面的 xml 应该可以工作
在 Github 操作管道上设置默认超时

通常我的管道需要 15 分钟才能执行最近由于一些奇怪的原因一些管道需要 45 分钟到 6 小时才会出现故障是否可以在 GitHub Action 的管道上设置默认超时限制例如 30 分钟后自动取消您可以通过两种方式更改默认时间
webkit-filter 打破溢出：隐藏

我似乎遇到了 Google Chrome 27 中引入的一个奇怪的渲染错误如果你有一个带有webkit filter和儿童元素overflow hidden该元素内的溢出内容不会按预期隐藏如中所示这个测试用例 http jsfiddle
E/libEGL：Nexus 9 + Android 6 上的 validate_display:255 错误 3008 (EGL_BAD_DISPLAY)

我正在 Cordova 3 4 中将一个旧的大型应用程序从 Eclipse 移植到 Android Studio 因为该应用程序使用的库现已在 Android 6 中更新在 build gradle 和 settings gradle 出
Pyspark 合并数据帧行，一个数组包含在另一个数组中

我什至不知道表达这些问题的最佳标题是什么我有以下数据集 df spark createDataFrame 1 2 3 4 1 2 3 2 1 3 2 3 4 1 6 7 cycle df show cycle 1 2 3 4 1 2 3

Pyspark 合并数据帧行，一个数组包含在另一个数组中

Pyspark 合并数据帧行，一个数组包含在另一个数组中 的相关文章

随机推荐

热门标签

Pyspark 合并数据帧行，一个数组包含在另一个数组中的相关文章