Spark 两个分区数据帧之间的共置连接

2024-04-22

对于以下两个之间的连接DataFrames在 Spark 1.6.0 中

val df0Rep = df0.repartition(32, col("a")).cache
val df1Rep = df1.repartition(32, col("a")).cache
val dfJoin = df0Rep.join(df1Rep, "a")
println(dfJoin.count)

这个连接是否不仅是共同分区的，而且是共同定位的？我知道对于 RDD，如果使用相同的分区器并在相同的操作中进行洗牌，则连接将位于同一位置。但是数据框呢？谢谢。

[https://medium.com/@achilleus/https-medium-com-joins-in-apache-spark-part-3-1d40c1e51e1c] https://medium.com/@achilleus/https-medium-com-joins-in-apache-spark-part-3-1d40c1e51e1c%5D

根据上面提供的文章链接 Sort-Merge join 是默认的 join，想添加重要的一点

为了获得排序合并连接的理想性能，重要的是所有具有相同连接键值的行在同一行中可用分割。这为臭名昭著的分区交换（shuffle）提供了保证执行者之间。并置分区可以避免不必要的数据洗牌。数据需要均匀分布在连接键中。这连接键的数量足够唯一，因此它们可以相等分布在整个集群中以实现最大并行度可用分区

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

join

apachespark

apachesparksql

Spark 两个分区数据帧之间的共置连接的相关文章

非时间戳列上的 Spark 结构化流窗口

我收到以下形式的数据流 id timestamp val xxx 1 12 15 25 50 1 2 12 15 25 30 1 3 12 15 26 30 2 4 12 15 27 50 2 5 12 15 27 30 3 6 12 15
Spark scala - 按数组列分组[重复]

这个问题在这里已经有答案了我对 Spark Scala 很陌生感谢你的帮助我有一个数据框 val df Seq a a1 Array x1 x2 a b1 Array x1 a c1 Array x2 c c3 Array x2 a
Spark JDBC 仅返回带有列名的数据帧

我正在尝试使用 Spark JDBC 连接到 HiveTable 代码如下 val df spark read format jdbc option driver org apache hive jdbc HiveDriver option
获取 Spark 中组的最后一个值

我有一个 SparkR DataFrame 如下所示 Create R data frame custId lt c rep 1001 5 rep 1002 3 1003 date lt c 2013 08 01 2014 01 01 20
Spark数据框中过滤的多个条件

我有一个包含四个字段的数据框其中一个字段名称是 Status 我尝试在 filter 中对数据帧使用 OR 条件我尝试了以下查询但没有运气 df2 df1 filter Status 2 Status 3 df2 df1 filter
从字符串构造简单的 Scala 案例类，严格不使用样板

我寻求简洁的代码来从字符串例如 csv 行初始化简单的 Scala 案例类 case class Person name String age Double case class Book title String author Str
参数为动态的 Spark 滞后函数

我需要在spark中实现lag函数我可以像下面这样做使用 hive temp Spark 表中的一些数据假设 DF 有这些行 lagno value 0 100 0 200 2 null 3 null 其中第一列是您要使用的实际滞后数
在 play 框架中将 javascript 变量转换为 scala

我在 javascript 中有一些变量 var something 1 var url CSRF routes Some thing something 我在编译期间收到错误因为某物换句话说不引用 javascript 变量编译
Spark：shuffle操作导致GC长时间暂停

我在跑Spark 2我正在尝试洗牌大约 5 TB 的 json 我在洗牌期间遇到了很长的垃圾收集暂停Dataset val operations spark read json inPath as MyClass operations re
是否有理由使用 Scala 的 StringLike.replaceAllLiterally 而不是 Java 的 String.replace？

Scala 的 StringLike 有该方法replaceAllLiterally literal String replacement String String https github com scala scala blob 56
如何在使用 Json4s 序列化期间重命名字段？

如何轻松重命名 json4s 中的字段名称从他们的文档中我尝试了以下代码片段但它似乎没有重命名serial字段到id case class Person serial Int firstName String val rename F
一般重写 Scala 案例类

是否可以通用地替换案例类中的参数更具体地说假设我想要一个接收查找案例类和替换案例类如语法规则的左侧和右侧以及目标案例类的替代函数并且该函数将返回将查找案例类的参数替换为替换案例类的新案例类该函数还可以简单地采用一个案例类
Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark

我在跑蜂巢2 1 1 Ubuntu 16 04 上的 hadoop 2 7 3 根据Hive on Spark 入门 https cwiki apache org confluence display Hive Hive on Spark
如何将 Java 字节数组转换为 Scala 字节数组？

我是 Scala 新手目前正在从事一个涉及 Java 和 Scala 模块的项目现在我想使用 byte 类型的参数从 Java 调用 Scala 方法 Scala 方法的签名为 def foo data Array Byte Java
JVM 是否会内联对象的实例变量和方法？

假设我有一个非常紧密的内部循环每次迭代都会访问和改变一个簿记对象该对象存储有关算法的一些简单数据并具有用于操作它的简单逻辑簿记对象是私有的和最终的并且它的所有方法都是私有的最终的和 inline 下面是一个示例 Scala 语法
如何用 Scala 编写毕达哥拉斯定理？

直角三角形斜边的平方等于另外两条边的平方和这就是毕达哥拉斯定理根据斜边长度 a 和 b 计算斜边的函数将返回 sqrt a a b b 问题是您如何在 Scala 中定义这样一个函数使其可以与实现适当方法的任何类型一起使用对于上下
为什么构造函数参数要成为案例类的成员？

class MyClass name String val x new MyClass x println x name Error name is not a member of MyClass but abstract class Ba
Scala 中的多个类型下限

我注意到tuple productIterator总是返回一个Iterator Any 想知道是否无法设置多个下限因此它可能是最低公共超类型的迭代器我尝试并搜索了一下但只发现this https stackoverflow com q
MS Access 不支持连接表达式吗？

谁能向我解释我的查询有什么问题吗 SELECT T2 TIPOPRODUTO T2 PRODUTO T1 ESPESSURA AS LARGURA AS COMPRIMENTO AS ACABAM REVEST AS ESPECIF QUA
在scala中，如何将对象的值转换为Map[String, String]？

假设我有这门课 case class Test id Long name String 和这个类的一个实例 Test id gt 1 name gt toto 我想创建一个 Map String String 如下 Map id gt 1

随机推荐

Angular 4显示当前时间

在 Angular 4 变化检测系统中显示当前时间的正确规范方法是什么问题如下根据定义当前时间每时每刻都在不断变化但 Angular 4 变更检测系统无法检测到它因此我认为有必要明确调用ChangeDetectorRef d
如何忽略 Rails 中特定操作的真实性令牌？

当我不想检查真实性令牌的特定操作时如何告诉 Rails 跳过检查它轨道 5 2 您可以使用相同的skip before action https api rubyonrails org classes ActionController
C# OpenFileDialog 非模态可能

是否可以创建拥有非模式 net OpenFileDialog 我在主对话框中有一个 UI 元素始终需要可供用户按下 No 打开文件对话框 http msdn microsoft com en us library system wind
领域未获取数据

我在使用领域时遇到问题 findAll 和 findAllAsync 不会从领域返回任何数据我正在像这样从主线程更新领域对象 public void updatePhoto final int ticketID realm beginTr
合并多列上的两个 pandas 数据框

我有两个数据框 gt gt gt df1 Output col1 col2 col3 col4 a abc 10 str1 b abc 20 str2 c def 20 str2 d abc 30 str2 gt gt gt df2 Out
Spring boot 2.0.2，使用Spring数据如何从实体验证中获取消息

我正在构建一个 Spring Boot 2 0 2 Web 服务实体中有许多我不想为空的字段当尝试保留具有无效字段的实体时如何从该特定字段获取消息例如我有一个实体 Entity Table name users public cl
嵌入资源名称

在C 中嵌入资源名称的默认行为是这样的
重定向后执行函数 - javascript

好的我的页面 MyPage 上有一个简单的按钮可以淡出当前 div fade 1 并淡入另一个 div fade 2 我现在意识到我可能想直接从其他地方转到该页面淡出 2 我可以通过以下方式重定向我的页面window locatio
NodeJS Mongoose 总是返回一个空数组

我尝试过使用find and findOne并且两者都没有返回文件 find返回一个空数组findOne正在返回null err在这两种情况下null以及这是我的连接 function connectToDB mongoose conne
有没有一种优雅的方法可以在 Django 管理中为 M2M 字段设置 list_filter ？

如果我有一个披萨模型和一个浇头模型它们之间有 m2m 是否有一些快速优雅的方法可以为它们中的任何一个添加到管理列表页面为包含特定浇头包含的所有浇头的所有比萨饼添加列表过滤器在某个披萨里内置的 list filter 不支持 m2m
重命名 cassandra 1.2 中的键空间和列族

如何在 cassandra 1 2 中重命名键空间和列族我知道不再支持 cassandra cli 重命名 api 如何在 Cassandra 中重命名键空间 https stackoverflow com questions 76491
谷歌地图响应式调整大小

我试图让谷歌地图响应并调整大小同时在窗口调整大小时保持其中心我阅读了其他堆栈问题例如响应式谷歌地图 https stackoverflow com questions 15421369 responsive google map a
自动缩放但仍处理 WM_DPICHANGED

我在使用 C 编写的非常复杂的 WinForms 应用程序时遇到了一些问题我希望应用程序在 DPI 更改时让 Windows 自动缩放但我仍然需要挂钩 WM DPICHANGED 事件才能缩放一些自定义绘制的文本困境是如果我让应用程
在 R 中将因子矩阵转换为二进制（指标）矩阵的最有效方法

我可以想到几种方法来转换这种类型的矩阵数据框 dat data frame x1 rep c a b 100 x2 rep c x y 100 head dat x1 x2 1 a x 2 b y 3 a x 4 b y 5 a x 6
为 Vim 命令行创建一个映射，在插入寄存器之前转义寄存器的内容

假设我有一个这样的文档并且我想搜索所有出现的 URL Vim resources http example com search q vim q q http example com search q vim 我不想完整地输入它所以我将
分配后变量的值未更新

var a 2 var b a console log b 2 a 5 console log b 2 问为什么即使为变量 a 分配了不同的值变量 b 的值仍为 2 console log b 回报2因为当您访问原始类型时您直接处理它
pytorch 中的 keras.layers.Masking 相当于什么？

我有时间序列序列我需要通过将零填充到矩阵中并在 keras 中使用 keras layers Masking 来将序列的长度固定为一个数字我可以忽略这些填充的零以进行进一步的计算我想知道它怎么可能在 Pytorch 中完成要么我需要
构建网站翻译文件

我在建立网站时多次遇到这个问题我将以使用 PHP 和 Laravel 为例进行解释但这个问题在多个平台中都很常见这已经在几个问题中得到了解决 post1 https stackoverflow com questions 317854
Doctrine Join 条件类型中WITH 和ON 有什么区别？

我正在寻找有关学说子句的WITH 和ON 条件类型之间差异的更好解释我发现有关此问题的文档非常糟糕但我仍然存有疑问在我看来这是原则 1 的遗留物那时ON用于重新定义关系的连接条件而WITH用于在默认条件的基础上添加更多连接条件
Spark 两个分区数据帧之间的共置连接

对于以下两个之间的连接DataFrames在 Spark 1 6 0 中 val df0Rep df0 repartition 32 col a cache val df1Rep df1 repartition 32 col a cache

Spark 两个分区数据帧之间的共置连接

Spark 两个分区数据帧之间的共置连接 的相关文章

随机推荐

热门标签

Spark 两个分区数据帧之间的共置连接的相关文章