Spark中使用reduceByKey时有没有有效的分区方法？

2024-03-05

当我使用reduceByKey or aggregateByKey，我遇到了分区问题。

ex)reduceBykey(_+_).map(code)

特别是，如果输入数据存在偏差，则使用上述方法时分区问题会变得更加严重。

因此，作为解决方案，我使用repartition method.

例如，http://dev.sortable.com/spark-repartition/ http://dev.sortable.com/spark-repartition/很相似。

这对于分区分布来说是有好处的，但是repartition也很贵。

有没有办法明智地解决分区问题？

你是对的，

重新分区的运行成本确实很高。由于洗牌和其他小步骤。创建一个示例，如您的示例所示：

rdd.map(x => (x, x * x)).repartition(8).reduceByKey(_+_)

请参阅此处的 DAG：

此步骤将在 DAG 上创建一个映射、一个重新分区和一个缩减。

但是如果你使用里面的重新分区reduceByKey您可以“免费”重新分区。

Repratition的主要部分是Shuffle，reduceByKey的主要部分也是shuffle。你可以看到在 Scala lib 中，reduceByKey有一个 numPartition范围 https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.rdd.PairRDDFunctions@reduceByKey(func:(V,V)=%3EV,numPartitions:Int):org.apache.spark.rdd.RDD%5B(K,V)%5D.

所以你可以为此更改你的代码：

rdd.map(x => (x, x * x)).reduceByKey(_+_, 8)

您可以在以下位置看到与重新分区相同的代码reduceByKey它要快得多。因为你可以少洗牌一次。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

RDD

partitioning

Spark中使用reduceByKey时有没有有效的分区方法？的相关文章

如何更改 SparkContext.sparkUser() 设置（在 pyspark 中）？

我是新来的Spark and pyspark 我使用 pyspark 之后我rdd处理中我试图将其保存到hdfs使用saveAsTextfile 功能但我得到一个没有权限错误消息因为 pyspark 尝试写入hdfs使用我的本地帐
如何在 Apache Spark 中基于列的子集实现“ except ”？

我正在 Spark 中使用两个模式 table1 and table2 scala gt table1 printSchema root user id long nullable true item id long nullable tr
如何使用 Scala 在 Spark 中漂亮地打印 JSON 数据帧？

我有一个数据帧我想将其作为有效的 json 写入 json 文件我当前的代码如下所示 val df DataFrame myFun df toJSON saveAsTextFile myFile json 输出的格式为如何将文件内容组
如何在 Mac 上使用 homebrew 安装 apache-spark 2.3.3

brew install apache spark只安装最新版本的 Spark 2 4 和 brew search apache spark没有给出任何其他选项有没有办法用自制程序安装旧版本的 Spark Type brew tap ed
Spark - scala - 如何检查配置单元中是否存在表

我必须使用 Spark 1 6 2 scala 检查配置单元中是否存在表如果没有我必须创建一个空数据框并将其保存为配置单元表如果存在则覆盖现有表我需要一个返回布尔值的函数基于该函数我可以做出上述决定是否创建新表或覆盖现有表 1
如何将模型从 ML Pipeline 保存到 S3 或 HDFS？

我正在尝试保存 ML Pipeline 生成的数千个模型正如答案中所示here https stackoverflow com questions 32121046 run 3000 random forest models by gro
使用 pyspark 计算所有可能的单词对

我有一个文本文档我需要找到整个文档中重复单词对的可能数量例如我有下面的word文档该文档有两行每行用分隔文档 My name is Sam My name is Sam My name is Sam My name is Sa
如何在 Apache Spark 中通过 DStream 使用特征提取

我有通过 DStream 从 Kafka 到达的数据我想进行特征提取以获得一些关键词我不想等待所有数据的到达因为它是可能永远不会结束的连续流所以我希望以块的形式执行提取如果准确性会受到一点影响对我来说并不重要到目前为止我整理
如何使用 PySpark 预处理图像？

我有一个项目需要为 1 设置大数据架构 AWS S3 SageMaker 的概念验证使用 PySpark 预处理图像 2 执行 PCA and 3 训练一些机器或深度学习模型我的问题是了解如何使用 PySpark 操作图像数据但无法在
Spark SQL 失败，因为“常量池已超过 JVM 限制 0xFFFF”

我在 EMR 4 6 0 Spark 1 6 1 上运行此代码 val sqlContext SQLContext getOrCreate sc val inputRDD sqlContext read json input try inp
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
Scala：什么是 CompactBuffer？

我试图弄清楚 CompactBuffer 的含义和迭代器一样吗请解释其中的差异根据 Spark 的文档它是 ArrayBuffer 的替代方案可以提供更好的性能因为它分配的内存更少以下是 CompactBuffer 类文档的摘
Spark DataFrame 序列化为无效 json

TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储
如何设置SPARK_HOME变量？

按照链接中的气泡水步骤进行操作http h2o release s3 amazonaws com sparkling water rel 2 2 0 index html http h2o release s3 amazonaws com
在 Spark 结构化流 2.3.0 中连接两个流时，左外连接不发出空值

两个流上的左外连接不发出空输出它只是等待记录添加到另一个流中使用套接字流来测试这一点在我们的例子中我们想要发出具有 null 值的记录这些记录与 id 不匹配或且不属于时间范围条件水印和间隔的详细信息如下 val ds1Map
Spark 中的 StandardScaler 未按预期工作

知道为什么 Spark 会这样做吗StandardScaler 根据定义StandardScaler StandardScaler 将一组特征标准化为均值为零标准差为 1 withStd 标志将数据缩放为单位标准差而标志 withMe
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
Spark scala 模拟 Spark.implicits 用于单元测试

当尝试使用 Spark 和 Scala 简化单元测试时我使用 scala test 和mockito scala 以及mockito Sugar 这只是让你做这样的事情 val sparkSessionMock mock SparkSes
使用 Python 计算 Spark 中成对 (K,V) RDD 中每个 KEY 的平均值

我想与 Python 共享这个特定的 Apache Spark 解决方案因为它的文档非常贫乏我想通过 KEY 计算 K V 对存储在 Pairwise RDD 中的平均值示例数据如下所示 gt gt gt rdd1 take 10
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统

随机推荐

如何将此代码转换为使用字符串

char recursivecombo char str int choices int level int len strlen str level if level choices for int i 0 i lt len 2 i pr
带键的 LINQ groupby 语句

我的查询的语法很好但输出却不好这真的很奇怪我有下表 AppointID UserID AppointSet AppointResolved AppointStatus AppointmentDatetime 1 1 3 1 2011
python 2.x 中 json.dump 后 json.loads 上的 UnicodeDecodeError 与 Ensure_ascii=False

我使用转储 dict 对象json dump 避免UnicodeDecodeError I set ensure ascii False下列的这个建议 https stackoverflow com questions 19872773 u
当 C# 编译器打印“存在显式转换”时，它意味着什么？

如果我创建一个空的测试类 public class Foo 我尝试用以下语句编译代码 Foo foo test 然后我按照预期收到此错误无法将类型 string 隐式转换为 ConsoleApplication1 Foo 但是如果我更改
Powershell 中的 Bash/类似批处理的子 shell

在 Unix shell 中你可以这样写 cmd1 cmd2 cmd3 在Windows Batch中你可以这样写 cmd1 cmd2 cmd3 在这两种情况下 cmd1 和 cmd2 的输出都会传递到 stdin 上的 cmd3 是否
无法在 ios5 的connectionDidFinishDownloading 中获取destinationURL 数据

我正在尝试获取要下载的资产网址列表我使用 NSURLConnection 来获取包含此 url 列表的 JSON 文件在 void connection NSURLConnection connection didWriteData l
Docker 容器无法解析 DNS 来访问另一台 AWS Ec2 机器

我无法通过从主机 App1 上运行的容器解析 DNS 来 ping 另一台计算机主机 App2 尽管 etc resolv conf 与主机的相同我正在利用 AWS Route 53 私有托管 DNS 来允许通过解析 DNS 而不是 I
React/Redux，如何获取用户输入

我正在关注与 React 一起使用 http redux js org docs basics UsageWithReact html终极版教程我真正不明白的是如何检索用户输入他们构建了一个FilterLink容器其mapDispat
Axios 通过 Django REST Framework 被 CORS 策略阻止

我正在尝试使用 Axios 向我的 API Django REST Framework 发出请求但出现以下错误 Access to XMLHttpRequest at http trvl hopto org 8000 api airpor
复制文件时 Homebrew 安装失败

我运行这个 usr bin ruby e curl fsSL https raw githubusercontent com Homebrew install master install 我得到提示 gt This script will
在 netbeans 8.0 中添加 Java ME 平台

我在安装 Netbeans 8 0 的 ME 平台时遇到问题我有安装 Netbeans IDE 8 0 安装jmesdk 3 4 安装 jmesdk 3 4 插件并在 Netbeans 中激活它当我尝试创建新的 Java ME gt
如何在javafx中显示图像的特定部分

我有这张图片所有这些效果都在一个 png 文件中我想显示例如第二张图片如何在 javafx 中使用 Image 和 ImageView 来显示该图像的特定部分谢谢这个答案太过分了但是有了像您问题中那样的一组漂亮的图像也许需要
正则表达式.匹配整个单词

In C 我想使用正则表达式来匹配以下任何单词 string keywords shoes shirt pants 我想找到内容字符串中的整个单词我以为这个regex会这样做 if Regex Match content keywords
java中如何将二进制字符串转换为2个字节的字节数组

我有二进制字符串String A 1000000110101110 我想把这个字符串转换成长度为2的字节数组java 我已经得到了帮助this https stackoverflow com questions 17727310 conve
两个 div 元素，一个在中间，另一个在右边

我想将一个 div 元素放置在宽度约为 1000px 的页面中央另一个元素位于其右侧覆盖整个右侧可以根据窗口大小进行调整实际上我在居中的 div 上有一个右浮动元素所以绝对定位可以完成这项工作但在放大页面时可以看到其中的缺陷
NSTask waitUntilExit 在越狱 iOS 上挂起应用程序

所以我让 NSTask 运行一个脚本该脚本生成一个列表并将其放入我读取的 txt 中但是如果我使用当前的代码如下则会在 NSTask 完成之前弹出警报从而导致空白警报我试过了waitUntilExit但这会使调用此操作的按钮
在固定宽度

Spark中使用reduceByKey时有没有有效的分区方法？

Spark中使用reduceByKey时有没有有效的分区方法？ 的相关文章

随机推荐

Spark中使用reduceByKey时有没有有效的分区方法？的相关文章