Spark如何执行join+filter？它具有可扩展性吗？

2024-03-01

假设我有两个大型 RDD，A 和 B，包含键值对。我想使用密钥连接 A 和 B，但是在匹配的 (a,b) 对中，我只想要一小部分“好”的。所以我进行连接并随后应用过滤器：

A.join(B).filter(isGoodPair)

where isGoodPair是一个布尔函数，它告诉我一对 (a,b) 是否良好。

为了很好地扩展，Spark 的调度程序最好避免在A.join(B)明确地。即使在大规模分布式的基础上，这也可能导致耗时的磁盘溢出，甚至耗尽某些节点上的所有内存和磁盘资源。为了避免这种情况，Spark 应该在每个分区内生成对 (a,b) 时应用过滤器。

我的问题：

Spark 真的这样做吗？
其架构的哪些方面可以实现或阻止所需的行为？
我应该使用cogroup反而？在 PySpark 中，它返回一个迭代器，因此我可以将过滤器应用于迭代器，对吧？

我在 PySpark shell（运行 Spark 1.2.1）中进行了一个实验来回答这些问题。结论如下：

不幸的是，Spark 确实not当连接生成对时应用过滤器。它在继续过滤连接对之前显式生成整个连接对集。
这可能是因为 Spark 一次运行一次 RDD 转换。它通常无法执行这种微妙的链接优化。
通过使用cogroup代替join，我们可以手动实现想要的优化。

实验

我制作了一个包含 100 个组的 RDD，每个组包含 1 到 10,000 的整数，并且在每个组中我计算了最多相距 1 的整数的数量：

import itertools as it
g = int(1e2) # number of groups
n = int(1e4) # number of integers in each group
nPart = 32 # standard partitioning: 8 cores, 4 partitions per core
A = sc.parallelize(list(it.product(xrange(g),xrange(n))),nPart) 

def joinAndFilter(A):
    return A.join(A).filter(lambda (k,(x1,x2)): abs(x1 - x2) <= 1)

def cogroupAndFilter(A):
    def fun(xs):
        k,(xs1,xs2) = xs
        return [(x1,x2) for (x1,x2) in it.product(xs1,xs2) if abs(x1 - x2) <= 1]
    return A.cogroup(A).flatMap(fun)

cogroupAndFilter(A).count()
joinAndFilter(A).count()

我没有简单的方法来分析代码，所以我只是在我的 Mac 上的“活动监视器”中观察它的运行情况：

当我使用时，内存使用量激增joinAndFilter，大概是因为它在应用相差一过滤器之前生成了所有对。事实上，我不得不杀死 PySpark，因为它耗尽了我所有的内存，并且即将导致系统崩溃。和cogroupAndFilter，这些对在生成时就被过滤，因此内存保持在控制之下。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark如何执行join+filter？它具有可扩展性吗？的相关文章

如何使用 Spark 2 屏蔽列？

我有一些表我需要屏蔽其中的一些列要屏蔽的列因表而异我正在读取这些列application conf file 例如对于员工表如下所示 id name age address 1 abcd 21 India 2 qazx 42 Ger
获取 int() 参数必须是字符串或数字，而不是“Column”- Apache Spark

如果我使用以下代码我会收到此异常 int argument must be a string or a number not Column df df withColumn FY F when df ID substr 5 2 isin
Spark/Gradle -- 在 build.gradle 中获取 IP 地址以用于启动 master 和worker

我在基本层面上了解 build gradle 构建脚本的各个移动部分但无法将它们全部结合在一起在 Apache Spark 独立模式下只需尝试从 build gradle 在同一个机器上启动 master 和worker 稍后将使用
Spark 中的 StandardScaler 未按预期工作

知道为什么 Spark 会这样做吗StandardScaler 根据定义StandardScaler StandardScaler 将一组特征标准化为均值为零标准差为 1 withStd 标志将数据缩放为单位标准差而标志 withMe
R data.table 多个条件连接

我设计了一种解决方案用于从两个单独数据表的多个列中查找值并添加基于新列的值计算多个条件比较代码如下它涉及在计算两个表中的值时使用 data table 和联接但是这些表没有联接在我正在比较的列上因此我怀疑我可能无法获得 da
我可以使用 HTTP 范围标头“有意”加载部分文件吗？

我正在研究 HTTP 范围标头 specs http www w3 org Protocols rfc2616 rfc2616 sec14 html sec14 16 据我了解我可以设置文件的字节范围ala 0 199 2000 200
最快的高斯模糊实现

如何以最快的速度实施高斯模糊 http en wikipedia org wiki Gaussian blur算法我要用Java来实现它所以GPU http en wikipedia org wiki Graphics processi
ORA-00933 与内部联接和“as”混淆

我有一个使用以下命令从两个表中获取数据的查询inner join 但我收到错误SQL command not properly ended as 下面有一个星号 select P carrier id O order id O aircra
Scala 案例类忽略 Spark shell 中的导入

我希望这个问题有一个明显的答案我刚刚升级到 Spark v2 0 并且遇到了一个奇怪的问题火花外壳 Scala 2 11 版本如果我输入以下最小的 Scala import java sql Timestamp case class C
一旦自定义 PySpark Transformer 成为安装的 ML Pipeline 中的一个阶段，如何为它设置参数？

我编写了一个自定义 ML PipelineEstimator and Transformer对于我自己的 Python 算法遵循所示的模式here https stackoverflow com a 37279526 1843329 然而
简单的 Linq 查询对同一个表有重复的连接？

来自 Julia Lerman 的新实体框架书中的示例我有一个包含两个表的数据库联系人和地址 Contact 表有一个 ContactID int 以及名字姓氏等 Address 表有一个 ContactID 以及城市州邮政编码等
如何加速spark df.write jdbc到postgres数据库？

我是 Spark 新手正在尝试使用 df write 加速将数据帧的内容可以有 200k 到 2M 行附加到 postgres 数据库 df write format jdbc options url psql url spark d
了解 Spark 中的 DAG

问题是我有以下 DAG 我认为当需要洗牌时火花将工作划分为不同的阶段考虑阶段 0 和阶段 1 有些操作不需要洗牌那么为什么 Spark 将它们分成不同的阶段呢我认为跨分区的实际数据移动应该发生在第 2 阶段因为这里我们需要cogr
MySQL 左连接 WHERE table2.field = "X"

我有以下表格 pages Field Type Null Key Default Extra page id int 11 NO PRI NULL auto increment type varchar 20 NO NULL
如何将 Dataframe 列名称与 Scala 案例类属性相匹配？

本示例中的 Spark sql 列名来自case class Person case class Person name String age Int val people RDD Person An RDD of case class o
数量重新分配逻辑 - 具有外部数据集的 MapGroups

我正在研究一种复杂的逻辑需要将数量从一个数据集重新分配到另一个数据集在例子中我们有Owner and Invoice 我们需要从数量中减去Invoice准确地Owner匹配在给定汽车的给定邮政编码处减去的数量需要重新分配回同一辆车出
Spark Scala Cassandra 连接器删除所有行失败，并出现 IllegalArgumentException 要求失败异常

创建表 CREATE TABLE test word groups group text word text count int PRIMARY KEY group word 插入数据 INSERT INTO test word group
Spark：导入UTF-8编码的文本文件

我正在尝试处理一个包含很多特殊字符的文件例如德语变音符号 o 等如下所示 sc hadoopConfiguration set textinputformat record delimiter r n r n sc textFile f
Spark-1.6.1 上的 DMLC 的 XGBoost-4j

我正在尝试在 Spark 1 6 1 上使用 DMLC 的 XGBoost 实现我能够使用 XGBoost 训练我的数据但在预测方面面临困难我实际上想以在 Apache Spark mllib 库中完成的方式进行预测这有助于计算训练
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1

随机推荐

Java：三个字符串，字典顺序

初学者 Java 程序员在这里我试图将三个字符串相互比较并让系统按字典顺序吐出第二个中间的单词 import java util public class Ordered2 public static void main String
Elm - 生成随时间变化的随机数列表

我试图使一列随机数每秒发生变化但我收到不同的错误消息 import Random main flow down asText Random range 0 100 every second asText Random range 0 10
标准库函数在 C 中如何工作？ [复制]

这个问题在这里已经有答案了在浏览 C 标准库函数时 glibc 我找到printf 实际上打电话puts 功能 IO puts 但我无法找出 put 函数实际上是如何写入的stdout 是否使用write 系统调用定义在unistd h或
带有虚线图案的渐变线

我需要创建一条具有线性渐变的虚线我设法使用创建了一条虚线 hr 以及以下样式 line border 0px border bottom 2px dashed 我也知道要实现渐变我需要这样做 background webkit grad
在 ec2 中启动 minikube 显示“X 抱歉，Kubernetes v1.18.0 需要将 conntrack 安装在 root 路径中”

我正在尝试启动 Minikube 所以我跑了 minikube start vm driver none 但它在控制台中显示以下行 Amazon 2 Xen amd64 上的 minikube v1 9 2 根据用户配置使用无驱动程序 X
使用 Google Apps 脚本 (GAS) V8 定义私有类字段

自从 Google 推出 V8 引擎以来我正在将一些代码迁移到新引擎 ES6 允许定义私有类但是在 Google App Script 上运行时我收到错误 Example class IncreasingCounter count 0
SharePlum 错误：“无法获取用户信息列表”

我正在尝试使用分享梅花 https pypi python org pypi SharePlum 0 1 1这是 SharePoint 的 Python 模块但是当我尝试连接到我的 SharePoint 时 SharePlum 会向我抛出
对象拥有 QObject 派生类集合的正确方法是什么？

我正在尝试创建一个类公开 QObject 派生类具有其自己的 qt 属性的集合或多个我可以在 qml 中使用 qt 属性根据http qt project org doc qt 5 0 qtcore qobject html n
如何从wpf中的代码隐藏更改控件的Grid.Row和Grid.Column

我已将控件放置在DataGrid像这样
python结构解包长度错误

我有一个长度为 41 的字节对象我尝试用以下方法解压它 struct unpack 2B2B32sBi data 但我收到一个错误 struct error 解包需要长度为 44 的字节对象我认为长度2B2B32sBi应该2 1 2 1
使c++程序在windows中的特定核心上运行

我想知道如何强制 Visual Studio 中的 C 程序在特定的核心上运行在拥有多个核心的计算机上 i found this https stackoverflow com questions 8326427 how to force
以编程方式设置Android动画列表

我正在尝试将 gif 动画添加到我的应用程序中 1 我可以从服务器下载 gif 动画 2 我能够解码动画 gif 使用我的自定义解码器并拥有与其帧相对应的单独位图现在我想使用逐帧动画来制作它的动画正如我所读到的要执行逐帧动画首先需
如何设置camel处理器或其他路由成分的id

Camel 自动生成处理器和其他内容的 ID processor1 processor25 有没有办法设置这个名字我们需要通过 jmx 识别某些处理器来获取遥测数据我想要设置的名称是通过属性给出的它们在开始时是已知的因此我需要在定
jQuery 交换图像未加载

我正在尝试使用 jQuery attr 将图像从 Images origImage 的原始图像源位置交换到 Images newImage 的新图像源位置当我单击 div 时如果右键单击图像并查看地址 URL 属性图像 Url 属性会
如何将不同类型的列插入到numpy数组中？

我想附加两个类型的 numpy 数组np datetime64 and int到另一个这会导致错误我需要做什么来纠正这个问题如果我将向量附加到自身上即 np append c c axis 1 or np append a a ax
如何设置gdb的默认选项？

我每次打开 GDB 时都会设置几个选项例如 set print thread events off 有没有办法默认设置这些选项也许类似于 gdb rc 文件初始化文件为gdb叫做 gdbinit 您可以将所需的选项放入此文件中它们将
当 div 滚动到视口时淡入

好的所以我一直在寻找simple当用户将其滚动到视图中时淡入 div 的方法但我找不到直接的解决方案 HTML div class container div class topdiv This is a 100 height div
C# - 无法在方法内声明委托

我这里真的是一片空白我在想why我无法在方法中声明委托类型但我必须在类级别声明委托类型 namespace delegate learning class Program Works fine public delegate void
静态内存实例中的字符串计数

据我所知编译时类似 C 的字符串仅作为一个实例保存在静态内存中例如我两者都有true在 gcc 4 6 上运行下面的示例但我想知道它是否总是如此并且可以便携 C 和 C 上的行为都很有趣 include
Spark如何执行join+filter？它具有可扩展性吗？

假设我有两个大型 RDD A 和 B 包含键值对我想使用密钥连接 A 和 B 但是在匹配的 a b 对中我只想要一小部分好的所以我进行连接并随后应用过滤器 A join B filter isGoodPair where isGo

Spark如何执行join+filter？它具有可扩展性吗？

实验

Spark如何执行join+filter？它具有可扩展性吗？ 的相关文章

随机推荐

热门标签

Spark如何执行join+filter？它具有可扩展性吗？的相关文章