高效的 pyspark join

2024-02-10

我读过很多关于如何在 pyspark 中进行高效连接的文章。我发现实现高效连接的方法基本上有：

如果可以的话，使用广播连接。 (我通常不能因为数据框太大）
考虑使用非常大的集群。（我宁愿不因为$$$).
Use the 相同的分区器.

最后一个是我宁愿尝试的一个，但我找不到在 pyspark 中做到这一点的方法。我试过了：

df.repartition(numberOfPartitions,['parition_col1','partition_col2'])

但这没有帮助，我仍然需要很长时间才能停止它，因为火花被困在最后几项工作中。

那么，我如何在 pyspark 中使用相同的分区器并加速我的连接，甚至摆脱永远需要的洗牌？我需要使用哪个代码？

PD: 我查过其他文章，甚至堆栈溢出 https://stackoverflow.com/questions/43831387/how-to-avoid-shuffles-while-joining-dataframes-on-unique-keys，但我仍然看不到代码。

如果适合您的要求，您还可以使用两遍方法。首先，重新分区数据并使用分区表（dataframe.write.partitionBy()）进行持久化。然后，在循环中连续连接子分区，“附加”到相同的最终结果表。 Sim 对此进行了很好的解释。请参阅下面的链接

在 pyspark 中加入大数据帧的两遍方法 https://stackoverflow.com/questions/37842595/what-is-an-optimized-way-of-joining-large-tables-in-spark-sql

根据上面解释的情况，我能够在循环中串行连接子分区，然后将连接的数据持久保存到配置单元表中。

这是代码。

from pyspark.sql.functions import *
emp_df_1.withColumn("par_id",col('emp_id')%5).repartition(5, 'par_id').write.format('orc').partitionBy("par_id").saveAsTable("UDB.temptable_1")
emp_df_2.withColumn("par_id",col('emp_id')%5).repartition(5, 'par_id').write.format('orc').partitionBy("par_id").saveAsTable("UDB.temptable_2")

因此，如果您要加入整数 emp_id，则可以按 ID 模某个数字进行分区，这样您就可以在 Spark 分区之间重新分配负载，并且具有相似键的记录将被分组在一起并驻留在同一分区上。然后，您可以读取并循环每个子分区数据，并将两个数据帧连接起来并将它们保存在一起。

counter =0;
paritioncount = 4;
while counter<=paritioncount:
    query1 ="SELECT * FROM UDB.temptable_1 where par_id={}".format(counter)
    query2 ="SELECT * FROM UDB.temptable_2 where par_id={}".format(counter)
    EMP_DF1 =spark.sql(query1)
    EMP_DF2 =spark.sql(query2)
    df1 = EMP_DF1.alias('df1')
    df2 = EMP_DF2.alias('df2')
    innerjoin_EMP = df1.join(df2, df1.emp_id == df2.emp_id,'inner').select('df1.*')
    innerjoin_EMP.show()
    innerjoin_EMP.write.format('orc').insertInto("UDB.temptable")
    counter = counter +1

我已经尝试过了，效果很好。这只是演示两遍方法的示例。您的连接条件可能会有所不同，分区数量也取决于您的数据大小。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

高效的 pyspark join 的相关文章

如何从 Databricks Delta 表中删除列？

我最近开始发现 Databricks 并遇到了需要删除增量表的特定列的情况当我使用 PostgreSQL 时它就像 ALTER TABLE main metrics table DROP COLUMN metric 1 我正在浏览 Da
Spark：替换嵌套列中的空值

我想更换所有n a以下数据框中的值unknown 它可以是scalar or complex nested column 如果它是一个StructField column我可以循环遍历列并替换n a using WithColumn 但我希
列对象不可调用 Spark

我尝试安装 Spark 并运行教程中给出的命令但出现以下错误 https spark apache org docs latest quick start html https spark apache org docs latest q
无法在 SBT 中运行 Apache Spark 相关单元测试 - NoClassDefFoundError

我有一个简单的单元测试使用SparkContext 我可以在 IntelliJ Idea 中运行单元测试没有任何问题但是当尝试从 SBT shell 运行相同的测试时我收到以下错误 java lang NoClassDefFoun
';'预期但发现“导入” - Scala 和 Spark

我正在尝试使用 Spark 和 Scala 来编译一个独立的应用程序我不知道为什么会收到此错误 topicModel scala 2 expected but import found error import org apache sp
如何根据 Pyspark 中另一列的表达式评估有条件地替换列中的值？

import numpy as np df spark createDataFrame 1 1 None 1 2 float 5 1 3 np nan 1 4 None 0 5 float 10 1 6 float nan 0 6 floa
如何将模型结果保存到文本文件？

我正在尝试将从模型生成的频繁项集保存到文本文件中该代码是 Spark ML 库中 FPGrowth 示例的示例 Using saveAsTextFile直接在模型上写入 RDD 位置而不是实际值 import org apache spa
更改 Spark SQL 中的 Null 顺序

我需要能够按升序和降序对列进行排序并且还允许空值位于第一个或空值位于最后一个使用 RDD 我可以将 sortByKey 方法与自定义比较器结合使用我想知道是否有使用 Dataset API 的相应方法我了解如何将 desc asc
HashPartitioner 是如何工作的？

我阅读了文档HashPartitioner http spark apache org docs 1 3 1 api java index html org apache spark HashPartitioner html 不幸的是除了
Scala：什么是 CompactBuffer？

我试图弄清楚 CompactBuffer 的含义和迭代器一样吗请解释其中的差异根据 Spark 的文档它是 ArrayBuffer 的替代方案可以提供更好的性能因为它分配的内存更少以下是 CompactBuffer 类文档的摘
获取 int() 参数必须是字符串或数字，而不是“Column”- Apache Spark

如果我使用以下代码我会收到此异常 int argument must be a string or a number not Column df df withColumn FY F when df ID substr 5 2 isin
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
如何设置SPARK_HOME变量？

按照链接中的气泡水步骤进行操作http h2o release s3 amazonaws com sparkling water rel 2 2 0 index html http h2o release s3 amazonaws com
Spark 有没有办法捕获执行器终止异常？

在执行我的 Spark 程序期间有时其原因对我来说仍然是个谜 yarn 会杀死容器执行器并给出超出内存限制的消息我的程序确实恢复了但 Spark 通过生成一个新容器重新执行任务但是在我的程序中任务还会在磁盘上创建一些中间文
Spark/Gradle -- 在 build.gradle 中获取 IP 地址以用于启动 master 和worker

我在基本层面上了解 build gradle 构建脚本的各个移动部分但无法将它们全部结合在一起在 Apache Spark 独立模式下只需尝试从 build gradle 在同一个机器上启动 master 和worker 稍后将使用
将 Tuple2 的值部分（即映射）合并为按 Tuple2 的键分组的单个映射

我在 Scala 和 Spark 中这样做我有和Dataset of Tuple2 as Dataset String Map String String 下面是值的示例Dataset A 1 gt 100 2 gt 200 3 gt 1
Spark 在 WholeTextFiles 上创建的分区少于 minPartitions 参数

我有一个文件夹里面有 14 个文件我在一个集群上使用 10 个执行器运行 Spark Submit 该集群的资源管理器为 YARN 我创建了我的第一个 RDD 如下所示 JavaPairRDD
一旦自定义 PySpark Transformer 成为安装的 ML Pipeline 中的一个阶段，如何为它设置参数？

我编写了一个自定义 ML PipelineEstimator and Transformer对于我自己的 Python 算法遵循所示的模式here https stackoverflow com a 37279526 1843329 然而
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
了解 Spark 中的 DAG

问题是我有以下 DAG 我认为当需要洗牌时火花将工作划分为不同的阶段考虑阶段 0 和阶段 1 有些操作不需要洗牌那么为什么 Spark 将它们分成不同的阶段呢我认为跨分区的实际数据移动应该发生在第 2 阶段因为这里我们需要cogr

随机推荐

Python：为特定函数调用设置内存限制

在Python脚本中我想为某个函数调用设置内存限制我在看如何限制堆大小 https stackoverflow com questions 2308091 how to limit python heap size 但是我不想限制整个
check_input(x) 中的错误：输入必须是任意长度的字符向量或字符向量列表，每个字符向量的长度为 1

使用 tidytext 包我想将我的 tibble 转换为每行每文档一个令牌我将小标题的文本列从因子转换为字符但仍然遇到相同的错误 text df lt tibble line 1 3069 text text 我的小标题看起来像这样
在访问表单上实施 Google 地图

我正在寻求开发集成了 Google 地图的 MS Access 表单的帮助以便我们的司机可以根据 Google 地图查找车站并确切地知道它所在的位置 I have wireframed basic mockup it like this
Flexbox 中的 SVG 会扰乱其他元素的高度

我正在尝试使用一个 svg 元素它可以根据 Flexbox 中的容器大小调整大小但由于某种原因它会弄乱 svg 下面的 div 带有文本的大小调整浏览器窗口大小时会发生多少变化以下是我为此使用的基本 CSS 属性 layout
如何在 Windows 服务器上使用 phpdbg 获取 PHP 代码覆盖率？

既然我还有PHPUnit PHP 代码覆盖率和 Xdebug 的问题 https stackoverflow com questions 40386345 phpunit or its code coverage driver cannot
如何将AWS API网关阶段指向特定的lambda函数别名？

所以根据AWS文档而不是在 Lambda 函数中使用 Amazon 资源名称 ARN 事件源映射您可以使用别名 ARN 这种方法意味着您不需要更新事件源映射升级新版本或回滚到以前的版本我有 AWS lambda 函数pets我创建
iPhone OS 实用应用程序 - 翻转视图和主视图通信

我目前正在开发 iPhone 2 1 应用程序我是 Objective C 的新手有 Java 背景我的应用程序以 Xcode 中可用的实用应用程序模板和 iPhone SDK 为基础目前我有一些控件例如UISlider和文本框
ssh2_auth_pubkey_file 身份验证总是失败

我正在尝试使用 PHP 的 ssh2 函数连接到另一台机器我知道 ssh 密钥是在没有密码的情况下创建的并且已正确分发我可以ssh user host在我机器上的终端中连接到服务器 PHP 函数尝试使用 ssh 密钥文件连接到 IP 地
如何保护 Firebase 数据库中用户和管理员的访问安全？

我使用 Redux Saga 作为中间件我通过查询将参数传递给 Firebase 数据库但无法在数据库端访问它 Query database ref workouts child userId once value then snaps
如何使用 C# 提取 MFCC

我正在做一个个人项目需要我用 C 进行一些信号处理和特征提取更具体地说是提取MFCCs http en wikipedia org wiki Mel frequency cepstrum 有没有可用的代码用于在 C 中计算 MFCC 另
React.js - ForEach 作为一流组件？

我听说过反应模板但我仍然想知道是否可以制作一流的 ForEach 组件我的最终目标是使这样的东西更具可读性 ul list map function item i return li item li ul instead ul ul
调整窗口矩形文档

MSDN 库将调整窗口矩形的 dwStyle 参数记录为需要计算所需尺寸的窗口的窗口样式请注意您不能指定 WS OVERLAPPED 样式我还没有找到任何解释他们所说的不能是什么意思为什么我不能这样做 The WS OVE
在 Javascript 中查看多页 TIFF

我目前有多页TIFF图像我需要通过 Javascript 逐页浏览它们我对此一无所知你能帮助我吗我发现了一些其他问题但似乎没有一个与 Javascript 有关谢谢我使用 Emscripten 将 LibTIFF 库移植到 J
验证 .htaccess 文件中的 Googlebot

我已经调查了一下下面的代码可以工作吗没那么容易检查 RewriteEngine on HostnameLookups Double RewriteCond REMOTE HOST googlebot com NC RewriteRule
在 python 子进程中使用 exec 查找命令给出错误

我正在尝试使用子进程模块 python 执行以下命令 usr bin find
Firefox 扩展内容脚本不会加载和附加 HTML

下面的所有内容都可以在 Chrome 扩展中运行但在移植到 Firefox 时会默默失败加载中test html除非我删除 from it 附加 test element对身体 Firefox 扩展的样式是否必须放入单独的文件中为什么
我的 ViewModel 应该有视图或 ViewModel 的 ObservableCollection 吗？

我试图理解使用时的基本 MVVM 设计方法项目控制通过绑定它数据模板 to 可观察集合在视图模型上我见过绑定到 ObservableCollections 的示例strings Views and 视图模型绑定到字符串似乎只是为了dem
如何在 firefox 扩展中创建 JSON post 请求？

我正在尝试调用 Google API 这是来自 Firefox 扩展的 JSON post 请求例如 POST https www googleapis com urlshortener v1 url Content Type appli
Mac OS 10.9 不显示 Arduino 的 USB 调制解调器

我正在尝试选择 dev tty usbmodem on my Arduino Lenardo设备操作系统是Mac OSX 10 9 问题是它没有显示我什至尝试安装FTDI http www ftdichip com Drivers VC
高效的 pyspark join

我读过很多关于如何在 pyspark 中进行高效连接的文章我发现实现高效连接的方法基本上有如果可以的话使用广播连接我通常不能因为数据框太大考虑使用非常大的集群我宁愿不因为 Use the 相同的分区器最后一个是我宁愿尝试的一个

高效的 p​​yspark join

高效的 p​​yspark join 的相关文章

随机推荐

热门标签

高效的 pyspark join

高效的 pyspark join 的相关文章