Spark SQL 广播哈希连接

2024-04-16

我正在尝试使用 SparkSQL 对数据帧执行广播哈希连接记录在这里 https://spark.apache.org/docs/latest/sql-performance-tuning.html#join-strategy-hints-for-sql-queries.

在该示例中，（小）DataFrame通过 saveAsTable 持久化，然后通过 Spark SQL 进行连接（即通过sqlContext.sql("..."))

我遇到的问题是我需要使用 SparkSQL API 来构建我的 SQL（我需要用 ID 列表连接约 50 个表，并且不想手动编写 SQL）。

如何通过 API 告诉 Spark 使用广播哈希连接？问题是，如果我加载 ID 列表（通过持久化的表）saveAsTable) 变成DataFrame要在连接中使用，我不清楚 Spark 是否可以应用广播哈希连接。

您可以明确标记DataFrame小到足以进行广播使用broadcast功能：

Python:

from pyspark.sql.functions import broadcast

small_df = ...
large_df = ...

large_df.join(broadcast(small_df), ["foo"])

或广播提示（Spark >= 2.2）：

large_df.join(small_df.hint("broadcast"), ["foo"])

Scala:

import org.apache.spark.sql.functions.broadcast

val smallDF: DataFrame = ???
val largeDF: DataFrame = ???

largeDF.join(broadcast(smallDF), Seq("foo"))

或广播提示（Spark >= 2.2）：

largeDF.join(smallDF.hint("broadcast"), Seq("foo"))

SQL

您可以使用提示（火花 >= 2.2 https://issues.apache.org/jira/browse/SPARK-16475):

SELECT /*+ MAPJOIN(small) */ * 
FROM large JOIN small
ON large.foo = small.foo

SELECT /*+  BROADCASTJOIN(small) */ * 
FROM large JOIN small
ON large.foo = small.foo

SELECT /*+ BROADCAST(small) */ * 
FROM large JOIN small
ON larger.foo = small.foo

R（火花R）：

With hint（火花 >= 2.2）：

join(large, hint(small, "broadcast"), large$foo == small$foo)

With broadcast（火花 >= 2.3）

join(large, broadcast(small), large$foo == small$foo)

Note:

如果其中一个结构相对较小，则广播连接很有用。否则它可能比完全洗牌要贵得多。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

apachesparksql

Spark SQL 广播哈希连接的相关文章

如何将模型结果保存到文本文件？

我正在尝试将从模型生成的频繁项集保存到文本文件中该代码是 Spark ML 库中 FPGrowth 示例的示例 Using saveAsTextFile直接在模型上写入 RDD 位置而不是实际值 import org apache spa
Spark问题中读取大文件 - python

我已经使用 python 在本地安装了 Spark 并在运行以下代码时 data sc textFile C Users xxxx Desktop train csv data first 我收到以下错误 Py4JJavaError Tra
Spark SQL 失败，因为“常量池已超过 JVM 限制 0xFFFF”

我在 EMR 4 6 0 Spark 1 6 1 上运行此代码 val sqlContext SQLContext getOrCreate sc val inputRDD sqlContext read json input try inp
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
如何使用 Spark 2 屏蔽列？

我有一些表我需要屏蔽其中的一些列要屏蔽的列因表而异我正在读取这些列application conf file 例如对于员工表如下所示 id name age address 1 abcd 21 India 2 qazx 42 Ger
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
Spark/Gradle -- 在 build.gradle 中获取 IP 地址以用于启动 master 和worker

我在基本层面上了解 build gradle 构建脚本的各个移动部分但无法将它们全部结合在一起在 Apache Spark 独立模式下只需尝试从 build gradle 在同一个机器上启动 master 和worker 稍后将使用
在 Spark 结构化流 2.3.0 中连接两个流时，左外连接不发出空值

两个流上的左外连接不发出空输出它只是等待记录添加到另一个流中使用套接字流来测试这一点在我们的例子中我们想要发出具有 null 值的记录这些记录与 id 不匹配或且不属于时间范围条件水印和间隔的详细信息如下 val ds1Map
如何根据条件添加新列（而不面临 JaninoRuntimeException 或 OutOfMemoryError）？

尝试根据这样的条件创建具有多个附加列的 Spark 数据框 df withColumn name1 someCondition1 withColumn name2 someCondition2 withColumn name3 someCo
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
如何在不从 DataFrame 转换并访问它的情况下向数据集添加列？

我知道使用以下方法将新列添加到 Spark 数据集的方法 withColumn and a UDF 它返回一个 DataFrame 我还知道我们可以将生成的 DataFrame 转换为 DataSet 我的问题是如果我们仍然遵循传统的
使用 scalapb 在 Spark Streaming 中解码 Proto Buf 消息时出错

这是一个 Spark Streaming 应用程序它使用编码的 Kafka 消息Proto Buf Using scalapb图书馆我收到以下错误请帮忙 gt com google protobuf InvalidProtocolBu
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
了解 Spark 中的 DAG

问题是我有以下 DAG 我认为当需要洗牌时火花将工作划分为不同的阶段考虑阶段 0 和阶段 1 有些操作不需要洗牌那么为什么 Spark 将它们分成不同的阶段呢我认为跨分区的实际数据移动应该发生在第 2 阶段因为这里我们需要cogr
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
数量重新分配逻辑 - 具有外部数据集的 MapGroups

我正在研究一种复杂的逻辑需要将数量从一个数据集重新分配到另一个数据集在例子中我们有Owner and Invoice 我们需要从数量中减去Invoice准确地Owner匹配在给定汽车的给定邮政编码处减去的数量需要重新分配回同一辆车出
Spark SQL sql("").first().getDouble(0) 给我不一致的结果

我有下面的查询它应该找到列值的平均值并返回一个数字的结果 val avgVal hiveContext sql select round avg amount 4 from users payment where dt between 2
Spark Scala Cassandra 连接器删除所有行失败，并出现 IllegalArgumentException 要求失败异常

创建表 CREATE TABLE test word groups group text word text count int PRIMARY KEY group word 插入数据 INSERT INTO test word group
hive - 在值范围之间将一行拆分为多行

我在下面有一张表想按从开始列到结束列的范围拆分行即 id 和 value 应该对开始和结束之间的每个值重复包括两者 id value start end 1 5 1 4 2 8 5 9 所需输出 id value current
在 Windows 7 64 位中删除 Spark 临时目录时出现异常

我正在尝试在 Windows 7 64 位中运行 Spark 作业的单元测试我有 HADOOP HOME D winutils winutils path D winutils bin winutils exe 我运行了以下命令 winu

随机推荐

使地图或列表在 Web UI 中可观察

我可以通过在 Dart 代码中使用 observable 声明来使 String 或 num 类型可观察 observable var x and html 中的语法 div x x div But observable不适用于列表和地图
Web 部署任务在 Web 部署中失败

我在将网站部署到域时遇到问题它是在线的但正在使用实体框架复制数据库中的条目我删除了它以重新分配离线网站但当我部署时出现错误我尝试清理解决方案并重建但它不起作用它在部署时抛出异常 Web 部署任务失败未知的 ProviderO
这是向 Cocoa 中的 NSCombobox 添加项目的正确方法吗？

我是 Delphi 程序员对 Cocoa 很陌生起初我尝试了这个 void awakeFromNib int i NSString mystr for i 1 i lt 24 i comboHour addItemWithObjectV
Oracle：如何调用重载过程？

如何正确拨打电话DBMS OBFUSCATION TOOLKIT DESEncrypt 如果可能不使用 PL SQL select DBMS OBFUSCATION TOOLKIT DESEncrypt x y from dual 不起作
如何shell到另一个应用程序并让它以delphi形式出现

在 Delphi 中我多年来一直使用 ShellExecute 来启动并可选择等待其他应用程序但现在我需要让这些应用程序之一出现在我的 Delphi 应用程序表单之一中我尝试使用下面的代码作为一个简单的测试来打开记事本它会这样
制作一个 JPanel 正方形

如果我有一个包含多个子组件的 JPanel 我该如何制作才能使 JPanel 保持正方形无论其父组件的大小如何调整我尝试了以下代码的变体但它不会导致子组件也是正方形的 public void paint Graphics g if t
Pandoc Filter 为链接添加脚注

我只是想问是否有人知道 Pandoc 的一个简短过滤器可以自动向任何链接添加脚注我只想在我的打印文档中有可读的链接源所以为了指定我想从 link url 对于类似的东西 link url link url 因此在打印的 PDF 中
在 ASP Classic 中注释代码

我所知道的散列代码的方式ASP经典版 http en wikipedia org wiki Active Server Pages is 这是正确的吗或者还有别的办法吗使用单引号例如 This is comment ASP 经典使用V
检测可移动驱动器（例如 USB 闪存驱动器）C/C++

如何检测可移动磁盘驱动器何时与系统连接断开如何获取挂载路径对于Linux 和驱动器号对于Windows 编辑有没有办法检测当前连接的设备对于 Windows API注册设备通知 http msdn microsoft com e
如何管理视图控制器可能无休止地推送到导航控制器堆栈上的情况？ iOS系统

我有一个由 UINavigationController 组成的应用程序它从 3 个不同的选项卡推送 ViewController 我预见到的麻烦是当前的结构允许用户无休止地将 VC 添加到堆栈中我有一个称为药物的选项卡另一个称为病原
如何在不使用 BOM 且以非 ASCII 字符开头的情况下识别文件的不同编码？

我在尝试识别不带 BOM 的文件的编码时遇到问题特别是当文件以非 ASCII 字符开头时我发现以下两个关于如何识别文件编码的主题如何在不使用 BOM 的情况下识别不同的编码 https stackoverflow com questi
添加到画布后更改文本

在fabric js中我正在制作矩形组和文本字段然后将其添加到画布中我正在使用以下代码但是一旦将文本字段添加到画布中我可以更改文本字段的文本吗我做了小提琴请检查 http jsfiddle net HAb4N 5 http js
Webflux multipart/form-data，启用 csrf，有或没有文件上传获取无效的 CSRF 令牌

禁用 csrf 后我可以上传文件但我需要启用它仅当表单 enctype 为 multipart form data 时即无效的 CSRF 令牌为 403 时才会出现此问题一般来说当我将 enctype 设置为 multip
Jersey 2.0 和 Moxy 内部服务器错误但没有服务器日志

我遵循了 Jersey 2 0 文档 https jersey java net documentation latest user guide html json moxy https jersey java net documentat
jQuery：Gmail 之星？

我想知道是否有人有关于创建 Gmail 收件箱明星最喜欢的的任何好的教程 EDIT 我想我想创建一些类似于 stackoverflow star 或 gmail inbox star 的东西我有一组列表项我在其中添加了多个控件一个
为什么我无法加载 Nokogiri？

我通过运行以下命令安装了 Nokogiri 没有任何问题 sudo gem install nokogiri Building native extensions This could take a while Successfully i
如何通过 JSch java api 执行 linux 命令“dzdo su - john”并在该用户上执行一些命令，例如“ls -ltr”

我想使用 java jsch 库连接到远程 Linux 服务器并使用命令 dzdo su john 切换到另一个用户并且我想对该用户执行一些命令我已经尝试了几种方法来满足这一要求但我无法做到这一点任何人都可以提供帮助 public
OUTPUT INTO 子句中可以使用哪些列？

我正在尝试构建一个映射表将表中新行的 ID 与从中复制的行关联起来 OUTPUT INTO 子句似乎对此很完美但它的行为似乎并不符合文档 My code DECLARE Missing TABLE SrcContentID INT PR
如何检查淘汰赛中的包含

我正在使用淘汰赛我有一个 html 页面我想在其中检查具有某些值的字符串就像我有一个字符串 A B C D F G H I 一样我只想用剔除 if 检查 html 中的这个字符串模型 var viewModel function
Spark SQL 广播哈希连接

我正在尝试使用 SparkSQL 对数据帧执行广播哈希连接记录在这里 https spark apache org docs latest sql performance tuning html join strategy hints fo

Spark SQL 广播哈希连接

Spark SQL 广播哈希连接 的相关文章

随机推荐

热门标签

Spark SQL 广播哈希连接的相关文章