Pyspark 组合不同长度的数据帧而不重复

2024-01-26

我有这三个 dfs：

id | name
------------------------
1  | {"value": "bob"}
1  | {"value": "Robert"}
2  | {"value": "Mary"}

id | dob
----------------------------
1  | {"value": "21-04-1988"}
2  | {"value": null}

id | country
--------------------
1  | {"value": "IT"}
1  | {"value": "DE"}
2  | {"value": "FR"}
2  | {"value": "ES"}

我想将它们结合起来，但我不想重复信息。

id | name                  | dob                     |country
----------------------------------------------------------------------
1  | {"value": "bob"}      | {"value": "21-04-1988"} | {"value": "IT"}
1  | {"value": "Robert"}   | Null                    | {"value": "DE"}
2  | {"value": "Mary"}     | {"value": Null}         | {"value": "FR"}
2  | Null                  | Null                    | {"value": "ES"}

我尝试使用多个外连接，但它不会产生上表。

name = spark.createDataFrame(
    [
        (1, {"value" : "bob"}),  # create your data here, be consistent in the types.
        (1, {"value" : "Robert"}),
        (2, {"value" : "Mary"})
    ],
    ["id", "name"]  # add your column names here
)

dob = spark.createDataFrame(
    [
        (1, {"value" : "21-04-1988"}),  # create your data here, be consistent in the types.
        (2, {"value" : None})
    ],
    ["id", "dob"]  # add your column names here
)

country = spark.createDataFrame(
    [
        (1, {"value" : "IT"}),  # create your data here, be consistent in the types.
        (1, {"value" : "DE"}),
        (2, {"value" : "FR"}),
        (2, {"value" : "ES"}),
    ],
    ["id", "country"]  # add your column names here
)


(name.join(dob, "id", "outer").join(country, "id", "outer")).show()

产生这个：

id  name                dob                     country
---------------------------------------------------------------
1 | {"value":"Robert"} |{"value":"21-04-1988"}  |{"value":"DE"}
1 | {"value":"Robert"} |{"value":"21-04-1988"}  |{"value":"IT"}
1 | {"value":"bob"}    |{"value":"21-04-1988"}  |{"value":"DE"}
1 | {"value":"bob"}    |{"value":"21-04-1988"}  |{"value":"IT"}
2 | {"value":"Mary"}   |{"value":null}          |{"value":"ES"}
2 | {"value":"Mary"}   |{"value":null}          |{"value":"FR"}

现在我明白这正是完整外连接的工作原理 - 但我不需要其中那些额外的重复信息（我需要包含尽可能多的行数）。

有什么线索吗？

您可以添加一列id2到所有三个数据帧使用row_number()例如然后将其与id作为连接条件：

from pyspark.sql import functions as F, Window

w = Window.partitionBy("id").orderBy(F.lit(None)) # change this if you have some column to use for ordering

name = name.withColumn("id2", F.row_number().over(w))
dob = dob.withColumn("id2", F.row_number().over(w))
country = country.withColumn("id2", F.row_number().over(w))

result = (name.join(dob, ["id", "rn"], "full")
          .join(country, ["id", "rn"], "full")
          .drop("rn")
          )

result.show(truncate=False)
#+---+-----------------+---------------------+-------------+
#|id |name             |dob                  |country      |
#+---+-----------------+---------------------+-------------+
#|1  |{value -> bob}   |{value -> 21-04-1988}|{value -> IT}|
#|1  |{value -> Robert}|null                 |{value -> DE}|
#|2  |{value -> Mary}  |{value -> null}      |{value -> FR}|
#|2  |null             |null                 |{value -> ES}|
#+---+-----------------+---------------------+-------------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

apachesparksql

duplicates

outerjoin

Pyspark 组合不同长度的数据帧而不重复的相关文章

异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
司机下令停车后 Spark 工作人员停下来

基本上主节点也充当从节点之一一旦主服务器上的从服务器完成它就会调用 SparkContext 来停止因此该命令传播到所有从服务器从而在处理过程中停止执行其中一名工作人员登录时出错信息 SparkHadoopMapRedUtil
如何在 Apache Spark 中基于列的子集实现“ except ”？

我正在 Spark 中使用两个模式 table1 and table2 scala gt table1 printSchema root user id long nullable true item id long nullable tr
与 data.table 合并时防止重复列

我有两个数据表它们的列名部分相似 dfA lt read table text A B C D E F G iso year matchcode 1 0 1 1 1 0 1 0 NLD 2010 NLD2010 2 1 0 0 0 1 0
为什么 PySpark 中的 agg() 一次只能汇总 DataFrame 的一列？ [复制]

这个问题在这里已经有答案了对于下面的数据框 df spark createDataFrame data Alice 4 300 Bob 7 677 schema name High 当我尝试找到最小值和最大值时我只得到输出中的最小值 d
从 pandas udf 记录

我正在尝试从 python 转换中调用的 pandas udf 进行日志记录因为在执行器上调用的代码不会显示在驱动程序的日志中我一直在寻找一些选项但到目前为止最接近的选项是这个one https stackoverflow com q
如何在 Mac 上使用 homebrew 安装 apache-spark 2.3.3

brew install apache spark只安装最新版本的 Spark 2 4 和 brew search apache spark没有给出任何其他选项有没有办法用自制程序安装旧版本的 Spark Type brew tap ed
SQL：列出多个连接语句中的重复记录？

你好以下查询在连接多个表后返回所有员工 select e from dbo EMP e join dbo HREMP a on a ID e ID join dbo LOGO c on c EMPID e id join dbo LOGO
如何从 Databricks Delta 表中删除列？

我最近开始发现 Databricks 并遇到了需要删除增量表的特定列的情况当我使用 PostgreSQL 时它就像 ALTER TABLE main metrics table DROP COLUMN metric 1 我正在浏览 Da
Spark：并行转换多个数据帧

了解如何在并行转换多个数据帧时实现最佳并行性我有一系列路径 val paths Array path1 path2 我从每个路径加载数据帧然后转换并写入目标路径 paths foreach path gt val df spark re
Kubernetes WatchConnectionManager：执行失败：HTTP 403

我遇到错误Expected HTTP 101 response but was 403 Forbidden 在我使用以下命令设置新的 Kubernetes 集群之后Kubeadm当我提交下面遇到的 pyspark 示例应用程序时只有一个主
如何从spark管道逻辑模型中提取变量权重？

我目前正在尝试学习 Spark Pipeline Spark 1 6 0 我将数据集训练和测试导入为 oas sql DataFrame 对象执行以下代码后生成的模型是oas ml tuning CrossValidatorMode
Spark：出现心跳错误后丢失数据

我有一个在 Spark 集群上运行的 Python 程序有四个工作线程它处理一个包含大约 1500 万条记录的巨大 Oracle 表检查结果后发现大约有600万条记录没有插入我的写入功能如下 df write format jdbc
如何将模型从 ML Pipeline 保存到 S3 或 HDFS？

我正在尝试保存 ML Pipeline 生成的数千个模型正如答案中所示here https stackoverflow com questions 32121046 run 3000 random forest models by gro
通过过滤对 Pyspark Dataframe 进行分组

我有一个数据框如下 cust id req req met 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 我必须观察客户看看他们有多少要求看看
过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
PySpark：如何将带逗号的列指定为小数

我正在使用 PySpark 并加载csv文件我有一列包含欧洲格式的数字这意味着逗号替换点反之亦然例如我有2 416 67代替2 416 67 My data in csv file looks like this ID Reven
如何将模型结果保存到文本文件？

我正在尝试将从模型生成的频繁项集保存到文本文件中该代码是 Spark ML 库中 FPGrowth 示例的示例 Using saveAsTextFile直接在模型上写入 RDD 位置而不是实际值 import org apache spa
更改 Spark SQL 中的 Null 顺序

我需要能够按升序和降序对列进行排序并且还允许空值位于第一个或空值位于最后一个使用 RDD 我可以将 sortByKey 方法与自定义比较器结合使用我想知道是否有使用 Dataset API 的相应方法我了解如何将 desc asc
Spark问题中读取大文件 - python

我已经使用 python 在本地安装了 Spark 并在运行以下代码时 data sc textFile C Users xxxx Desktop train csv data first 我收到以下错误 Py4JJavaError Tra

随机推荐

ng build 命令无法通过 jenkins buildexecute shell 工作

在詹金斯构建执行区域中我输入了这些命令 cd var lib jenkins workspace test ng serve 这是屏幕截图我收到这样的错误 cd var lib jenkins workspace test ng serv
复制 Xcode SPM 测试的资源文件

我是 Swift 包管理器的新手但随着它集成到 Xcode 11 中是时候尝试一下了我在新工作区中有一个新应用程序和 SPM 库我有一个带有测试的工作库并已成功将该库导入到应用程序中我需要使用解析 json 文件的新测试来扩展
Android API 33 的 GestureDetector.OnGestureListener 重写方法使我的应用程序崩溃（Kotlin）

我在 Activity 上使用 GestureDetector OnGestureListener 接口它在 Android API 32 上运行良好但在将 Android API 级别从 32 更新到 33 后 onScroll 方法
获取 DLL 中导出函数的签名

是否可以从 DLL 获取导出 C 风格函数的签名参数计数类型返回类型我可以查看函数名称地址序号等的列表DLL 导出查看器 http www nirsoft net utils dll export viewer html但我看
在 C# 中计算汉明距离的最快方法

我有一个很大的 BigInteger 集合 n 20 000 000 代表位数组长度为 225 给定一个 BigInteger 我想在我的集合中找到低于特定汉明距离的 x BigInteger 目前我将所有 BigInteger 转换为字
net.tcp 的 WCF 错误“服务端点无法侦听 URI，因为访问被拒绝

在我位于管理员组的 Windows 8 1 计算机上托管 WCF Net Tcp 服务时出现以下错误服务端点无法侦听 URI net tcp localhost 9001 dataservice 因为访问被拒绝验证当前用户是否已在 S
如何在基于 Tkinter 的 Python GUI 应用程序中替换 Python 徽标？

有没有办法更改默认徽标即蟒蛇标志 http pytoexe sourceforge net dosyalar python logo without textsvg png 出现在 Windows 任务栏中请注意我已经成功替换了应用程
小米商店应用程序的页面意图是什么？

我是 Android 开发者library https github com RankoR android smart rate用于对应用程序进行评级它会询问用户是否喜欢某个应用程序如果他想对应用程序进行评级则会将其重定向到应用程序商
在 Android 中的 Spinner 上设置古吉拉特语文本

我正在用古吉拉特语开发一个 Android 应用程序需要在 Spinner 小部件上设置古吉拉特语文本所以我学会了如何在 Spinner 上设置自定义字体HERE http polyclefsoftware blogspot in 2
OnCameraChangeListener() 已弃用

今天回顾我的旧代码我发现OnCameraChangeListener 现已弃用我发现很难理解如何修复我的这段代码 mGoogleMap setOnCameraChangeListener new GoogleMap OnCameraC
std::is_default_constructible 错误，如果构造函数是私有的

我有以下片段 include
将字符串拆分为键值对

如果匹配我想用逗号分割以下字符串key value 用逗号分割有效直到遇到逗号value const string country Kenya city Nairobi population 3 375M democracy desci
如何将文件复制到 Azure Function bin 文件夹中？

背景我有一个在 netcoreapp3 1 和 azure 版本 v3 中运行的 Azure Function C 项目这是 csproj 的片段
SQL 查询通知在横向扩展设置中并不总是有效 (SQL Server)

SQL 查询通知并不总是在我们的环境中起作用它们似乎工作了一段时间然后我们在 SqlDependency Start 方法调用上收到 ArgumentException 模拟无效令牌它无法复制异常并且 SqlMessageBus
了解 Dart 私有类 [重复]

这个问题在这里已经有答案了在 Flutter 中我们通常会有这样的情况 class MyStatefulWidget extends StatefulWidget override MyState createState gt MySta
在 ruby 中写入文件的中间

我已经用 ruby 选项打开了一个文件 a 我可以查找文件的中间并从中读取但是当我尝试写入时写入总是到末尾如何写入中间的位置 jpg File new tmp bot jpg a jpg seek 24 puts jpg getc c
Elasticsearch 中 _source 和 _all 有什么区别

占据所有领域的两人之间的区别让我难以理解如果我的文档有 mydoc properties name type string store true number type long store false title type string
使用插值在输入上动态生成验证属性

编辑这个问题从 Angular 开始不再相关version 1 3 0 beta 12您现在可以解析 ng minlength 和 ng maxlength 动态值看 https github com angular angular j
类型“string”不能用于索引类型“未知||”或者如何让打字稿分配 Type[key] = SameType[key]

我有这个辅助函数 getAndAssignToObject
Pyspark 组合不同长度的数据帧而不重复

我有这三个 dfs id name 1 value bob 1 value Robert 2 value Mary id dob 1 value 21 04 1988 2 value null id country 1 value IT 1

Pyspark 组合不同长度的数据帧而不重复

Pyspark 组合不同长度的数据帧而不重复 的相关文章

随机推荐

热门标签

Pyspark 组合不同长度的数据帧而不重复的相关文章