PySpark DataFrame - 动态连接多个列

2024-01-30

假设我在 Spark 上有两个 DataFrame

firstdf = sqlContext.createDataFrame([{'firstdf-id':1,'firstdf-column1':2,'firstdf-column2':3,'firstdf-column3':4}, \
{'firstdf-id':2,'firstdf-column1':3,'firstdf-column2':4,'firstdf-column3':5}])

seconddf = sqlContext.createDataFrame([{'seconddf-id':1,'seconddf-column1':2,'seconddf-column2':4,'seconddf-column3':5}, \
{'seconddf-id':2,'seconddf-column1':6,'seconddf-column2':7,'seconddf-column3':8}])

现在我想通过多列（任何大于一的数字）将它们连接起来

我拥有的是第一个 DataFrame 的列数组和第二个 DataFrame 的列数组，这些数组具有相同的大小，并且我想按这些数组中指定的列进行连接。例如：

columnsFirstDf = ['firstdf-id', 'firstdf-column1']
columnsSecondDf = ['seconddf-id', 'seconddf-column1']

由于这些数组的大小可变，我不能使用这种方法：

from pyspark.sql.functions import *

firstdf.join(seconddf, \
    (col(columnsFirstDf[0]) == col(columnsSecondDf[0])) &
    (col(columnsFirstDf[1]) == col(columnsSecondDf[1])), \
    'inner'
)

有什么方法可以动态加入多个列吗？

为什么不使用简单的理解：

firstdf.join(
    seconddf, 
   [col(f) == col(s) for (f, s) in zip(columnsFirstDf, columnsSecondDf)], 
   "inner"
)

由于您使用逻辑，因此提供条件列表就足够了，而无需&操作员。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

DataFrame

PySpark

apachesparksql

PySpark DataFrame - 动态连接多个列的相关文章

元组有什么用？

我现在正在学习 Python 课程我们刚刚介绍了元组作为数据类型之一我阅读了它的维基百科页面但是我无法弄清楚这种数据类型在实践中会有什么用处我可以提供一些需要一组不可变数字的示例吗也许是在 Python 中这与列表有何不同每
安装了 32 位的 Python，显示为 64 位

我需要运行 32 位版本的 Python 我认为这就是我在我的机器上运行的因为这是我下载的安装程序当我重新运行安装程序时它会将当前安装的 Python 版本称为 Python 3 5 32 位然而当我跑步时platform arch
Python getstatusoutput 替换不返回完整输出

我发现了这个很棒的替代品getstatusoutput Python 2 中的函数在 Unix 和 Windows 上同样有效不过我觉得这个方法有问题output被构建它只返回输出的最后一行但我不明白为什么任何帮助都是极好的 def
使用 Python 从文本中删除非英语单词

我正在 python 上进行数据清理练习我正在清理的文本包含我想删除的意大利语单词我一直在网上搜索是否可以使用像 nltk 这样的工具包在 Python 上执行此操作例如给出一些文本 Io andiamo to the beach w
独立滚动矩阵的行

我有一个矩阵准确地说是 2d numpy ndarray A np array 4 0 0 1 2 3 0 0 5 我想滚动每一行A根据另一个数组中的滚动值独立地 r np array 2 0 1 也就是说我想这样做 print np
使用Python请求登录Google帐户

在多个登录页面上需要谷歌登录才能继续我想用requestspython 中的库以便让我自己登录通常这很容易使用requests库但是我无法让它工作我不确定这是否是由于 Google 做出的一些限制也许我需要使用他们的 API 或
如何使用 Pandas、Numpy 加速 Python 中的嵌套 for 循环逻辑？

我想检查一下表的字段是否TestProject包含了Client端传入的参数嵌套for循环很丑陋有什么高效简单的方法来实现吗非常感谢您的任何建议 def test parameter a list parameter b list g
YOLOv8获取预测边界框

我想将 OpenCV 与 YOLOv8 集成ultralytics 所以我想从模型预测中获取边界框坐标我该怎么做呢 from ultralytics import YOLO import cv2 model YOLO yolov8n pt
Pandas Merge (pd.merge) 如何设置索引和连接

我有两个 pandas 数据框 dfLeft 和 dfRight 以日期作为索引 dfLeft cusip factorL date 2012 01 03 XXXX 4 5 2012 01 03 YYYY 6 2 2012 01 04 XX
datetime.datetime.now() 返回旧值

我正在通过匹配日期查找 python 中的数据存储条目我想要的是每天选择今天的条目但由于某种原因当我将代码上传到 gae 服务器时它只能工作一天第二天它仍然返回相同的值例如当我上传代码并在 07 01 2014 执行它时它
使用 xlrd 打开 BytesIO (xlsx)

我正在使用 Django 需要读取上传的 xlsx 文件的工作表和单元格使用 xlrd 应该可以但因为文件必须保留在内存中并且可能不会保存到我不知道如何继续的位置本例中的起点是一个带有上传输入和提交按钮的网页提交后文件被捕获req
从Python中的字典列表中查找特定值

我的字典列表中有以下数据 data I versicolor 0 Sepal Length 7 9 I setosa 0 I virginica 1 I versicolor 0 I setosa 1 I virginica 0 Sepal
如何在不丢失注释和格式的情况下更新 YAML 文件 / Python 中的 YAML 自动重构

我想在 Python 中更新 YAML 文件值而不丢失 Python 中的格式和注释例如我想改造 YAML 文件 value 456 nice value to value 6 nice value 界面类似于 y yaml load
“隐藏”内置类对象、函数、代码等的名称和性质[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我很好奇模块中存在的类builtins无法直接访问的例如 type lambda 0 name function of module
加快网络抓取速度

我正在使用一个非常简单的网络抓取工具抓取 23770 个网页scrapy 我对 scrapy 甚至 python 都很陌生但设法编写了一个可以完成这项工作的蜘蛛然而它确实很慢爬行 23770 个页面大约需要 28 小时我看过scr
Jupyter Notebook 找不到 Python 模块

不知道发生了什么但每当我使用 ipython 氢原子或 jupyter 笔记本时都找不到任何已安装的模块我知道我安装了 pandas 但笔记本说找不到我应该补充一点当我正常运行脚本时 python script py 它确实导入
如何使用原始 SQL 查询实现搜索功能

我正在创建一个由 CS50 的网络系列指导的应用程序这要求我仅使用原始 SQL 查询而不是 ORM 我正在尝试创建一个搜索功能用户可以在其中查找存储在数据库中的书籍列表我希望他们能够查询书籍表中的 ISBN 标题作者列目前它
如何断言 Unittest 上的可迭代对象不为空？

向服务提交查询后我会收到一本字典或一个列表我想确保它不为空我使用Python 2 7 我很惊讶没有任何assertEmpty方法为unittest TestCase类实例现有的替代方案看起来并不正确 self assertTrue
根据列 value_counts 过滤数据框（pandas）

我是第一次尝试熊猫我有一个包含两列的数据框 user id and string 每个 user id 可能有多个字符串因此会多次出现在数据帧中我想从中导出另一个数据框一个只有那些user ids列出至少有 2 个或更多string
更改 Tk 标签小部件中单个单词的颜色

我想更改 Tkinter 标签小部件中单个单词的字体颜色我知道可以使用文本小部件来实现与我想要完成的类似的事情例如使单词 YELLOW 显示为黄色 self text tag config tag yel fg clr yellow s

随机推荐

Twitter Bootstrap：如何关闭模式对话框？

我正在尝试使用 Twitter 的引导程序实现模式加载对话框我目前的尝试是 document ready function loading dialog ajaxStart function this modal show ajaxSto
如何让会话实体作为 Dialogflow 检测意图的一部分

我有一个实体应该使用特定于用户的信息在每个会话的基础上进行更新当我使用 Dialogflow v1 时这有效我认为它也适用于 v2 但我现在遇到了严重的问题我相信我正确设置了会话实体信息但对于使用它的意图它仅在使用开发人员实体
Laravel 中的 Bcrypt 与 Hash

我想创建一个函数或类似 Cron 的东西来执行链接在 Laravel 中并带有密码之类的东西我有两个解决方案但使用哪一种更好选项 1 哈希
用于桌面应用程序回归测试的自动化测试工具[关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在开发一个使用 Infragistic 网格的桌面应用程序我们需要自动化回归测试仅 QTP 不支
获取 LNK1107 无效或损坏的文件：尝试为 OpenSceneGraph 教程链接 .dll 时无法读取 0x378

我正在尝试在 Visual Studio 上设置 OpenSceneGraph 以便我可以运行一些教程我相信我的问题是我不知道如何在 Visual Studio 上正确设置环境并让程序查看库文件正确有问题的代码仅用于 osg 智能指针演
ORA-00907: 缺少右括号

过去两天我一直在查看这段代码但似乎无法让它工作它不断地给我 ORA 00907 missing right parenthesis 我知道这是一个经常出现的话题但由于某种原因我见过的例子都没有对我有帮助有人可以告诉我为什么会出现此
在 Google BigQuery API 中，查询响应的默认超时是多少？

在 Google BigQuery API 中查询响应的默认超时是多少换句话说对于未完成的作业默认等待多长时间直到响应返回 null 的文档timeoutMs https cloud google com bigquery docs
Mongodb 与 Python 的“set()”类型

我正在构建一个以 mongoDB 作为后端的网络应用程序某些文档需要将项目集合存储在某种列表中然后系统需要经常检查该列表中是否存在指定的项目使用 Python 的 in 运算符需要 Big O N 时间 n 是列表的大小由于这些列表
SQL Server 和消息队列

我正在尝试构建一个可靠的消息服务或者至少我是这么描述它的这是我的问题我有一个表我将数据插入到该表中我至少有两个应用程序从该表中选择数据但是我需要一种可靠的方法让两个不同的应用程序在任何给定时间都不会选择相同的行我将如何编写
无法通过多重采样渲染到纹理

我运行了帧缓冲区示例this http www open gl framebuffers page 原始代码 http www open gl content code c6 base txt 在osx 10 8中的xcode 4 6中使用
在 R 中使用插入符号进行逐步回归[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我在R中使用了leaps包来执行前向和后向特征消除但是我希望自动化交叉验证和预测操作因此如何在插入符号中使用向前向后选择在
图像检测功能：SIFT、HISTOGRAM 和 EDGE

我正在致力于使用 3 种不同的功能即 SIFT HISTOGRAM 和 EGDE 来开发对象分类器然而这 3 个特征具有不同的维度向量例如SIFT 128 维历史记录 256 现在由于大小不同这些特征无法连接成一个向量我打算
由于资源文件权限被拒绝，Cocos2D-x HelloCpp for Android 无法从 Windows 构建 apk

我试图在 Android 上运行 cocos2dx HelloCpp 示例项目从 Windows 7 64 位和 Cygwin 64 位构建但是每次我尝试构建和运行时它都会抱怨资产中的 Marker Felt fnt 文件的权限被拒
Heroku 上的 Flask：request.form 对于大量 POST 数据非常慢？

我正在 Heroku 上使用带有 eventlet 工作人员的 Gunicorn 运行 Flask 应用程序我的应用程序上的特定路由经常接收 POST 数据 x www form urlencoded 其中包含一些相当大的字段最多大约
导入 httplib 导入错误：没有名为 httplib 的模块

运行 test py 时出现此错误 C Python32 gt python exe test py Traceback most recent call last File test py line 5 in
将带有嵌入括号的字符串转换为字典

从如下所示的字符串构建字典的最佳方法是什么 key1 value1 key2 value2 key3 value with spaces 所以键始终是不带空格的字符串但值是字符串或大括号中的字符串有空格你会如何把它写成 key1 va
Docker 和 Chromium net::ERR_NETWORK_CHANGED

我有一个 AngularJS 应用程序它执行 ajax 调用但会导致 chromium 错误 net ERR NETWORK CHANGED 我尝试禁用任何我不需要的适配器我有多个容器和多个正在运行的 dockers 容器我在每个适
如果 Kotlin 中的类型参数受另一个类型参数限制，为什么它不能有任何其他限制？

这是显示此问题的最小演示代码 interface A fun
为什么 WebStorm 实时编辑在 Chrome 中不起作用？

我正在探索 WebStorm 的试用版并希望使用 LiveEdit 功能执行以下操作后我无法使用 LiveEdit 功能确保 LiveEdit 已打开安装了 Chrome 扩展程序安装扩展后重新启动浏览器我仍然怀疑它不是必需的
PySpark DataFrame - 动态连接多个列

假设我在 Spark 上有两个 DataFrame firstdf sqlContext createDataFrame firstdf id 1 firstdf column1 2 firstdf column2 3 firstdf co

PySpark DataFrame - 动态连接多个列

PySpark DataFrame - 动态连接多个列 的相关文章

随机推荐

热门标签

PySpark DataFrame - 动态连接多个列的相关文章