Spark：reduce和reduceByKey之间的语义差异

2023-12-22

在 Spark 的文档中，它说 RDDs 方法reduce http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.rdd.RDD需要一个结合与交换的二元函数。

然而，该方法reduceByKey http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.rdd.PairRDDFunctions仅需要关联二元函数。

sc.textFile("file4kB", 4)

我做了一些测试，显然这就是我得到的行为。为什么会有这样的差异？为什么reduceByKey确保二元函数始终按特定顺序应用（以适应交换律的缺乏）reduce才不是？

例如，如果加载一些具有 4 个分区（最少）的（小）文本：

val r = sc.textFile("file4k", 4)

then:

r.reduce(_ + _)

返回一个字符串，其中各部分的顺序并不总是相同，而：

r.map(x => (1,x)).reduceByKey(_ + _).first

始终返回相同的字符串（其中所有内容的顺序与原始文件中的顺序相同）。

（我检查过r.glom并且文件内容确实分布在4个分区上，不存在空分区）。

就我而言，这是文档中的错误，您看到的结果只是偶然的。实践，其他资源 http://ampcamp.berkeley.edu/3/exercises/data-exploration-using-spark.html和一个简单的代码分析 https://github.com/apache/spark/blob/b122c861cd72b580334a7532f0a52c0439552bdf/core/src/main/scala/org/apache/spark/rdd/PairRDDFunctions.scala#L72显示该函数传递给reduceByKey不仅应该是结合律，而且还应该是交换律。

实践 - 虽然看起来顺序是在本地模式下保留的，但当您在集群上运行 Spark（包括独立模式）时，情况就不再如此。
其他资源 - 引用使用 Spark 进行数据探索 http://ampcamp.berkeley.edu/3/exercises/data-exploration-using-spark.html from 扩音营 3 http://ampcamp.berkeley.edu/3/exercises/index.html:

Spark 中有一个名为reduceByKey 的便捷方法正是针对这种模式。请注意，reduceByKey 的第二个参数决定要使用的化简器数量。默认情况下，Spark 假定reduce 函数是可交换和关联的，并在映射器端应用组合器。
code - reduceByKey是使用实现的combineByKeyWithClassTag并创造ShuffledRDD。由于 Spark 不保证打乱后的顺序，因此恢复它的唯一方法是将一些元数据附加到部分减少的记录上。据我所知，没有发生过这样的事情。

附注reduce因为它是在 PySpark 中实现的，所以它可以与仅可交换的函数一起正常工作。当然，这只是实施的细节，而不是合同的一部分。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark：reduce和reduceByKey之间的语义差异的相关文章

从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
Akka-Http 2.4.9 抛出 java.lang.NoClassDefFoundError: akka/actor/ActorRefFactory 异常

我正在尝试使用 Akka http 构建一个简单的 Web 服务我遵循了这个指南 http doc akka io docs akka 2 4 9 scala http low level server side api html htt
Spark.sql.shuffle.partitions 的最佳值应该是多少，或者在使用 Spark SQL 时如何增加分区？

我实际上正在使用 Spark SQLhiveContext sql 它使用 group by 查询我遇到了 OOM 问题所以考虑增加价值spark sql shuffle partitions从默认的 200 到 1000 但这没有帮助
scala 返回列表中的第一个 Some

我有一个清单l List T1 目前我正在执行以下操作 myfun T1 gt Option T2 val x Option T2 l map myfun l flatten find gt true The myfun函数返回 None
如何关闭 Scala 中因方法重载而导致代码无法编译的特定隐式？

我正忙着尝试自己回答这个问题 Scala Play 2 4 x 通过 anorm MySQL 处理扩展字符到 Java Mail https stackoverflow com questions 31417718 scala play 2
如何在 Lift 框架中添加新页面

如何在 lift 中的 webapp 目录中添加一个可供用户访问的新页面目前只能通过index html访问http localhost 8080 com http localhost 8080 or http localhost 808
Scala 的“神奇”函数列表

在哪里可以找到 Scala 的神奇函数列表例如apply unapply update etc 魔法函数是指编译器的某些语法糖使用的函数例如 o update x y lt gt o x y 我用谷歌搜索了一些组合scala mag
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
了解 Spark 中的 DAG

问题是我有以下 DAG 我认为当需要洗牌时火花将工作划分为不同的阶段考虑阶段 0 和阶段 1 有些操作不需要洗牌那么为什么 Spark 将它们分成不同的阶段呢我认为跨分区的实际数据移动应该发生在第 2 阶段因为这里我们需要cogr
在 scala 宏中使用 LabelDef (2.10)

我正在尝试 scala 2 10 宏功能我使用时遇到问题LabelDef但在某些情况下在某种程度上我偷看了编译器的代码阅读了摘录米格尔加西亚的论文 http lampwww epfl ch magarcia但我还是卡住了如果我的
在没有匹配器的情况下如何跳过specs2中的测试？

我正在尝试使用 scala 中的 specs2 测试一些与数据库相关的内容目标是测试 db running 然后执行测试我发现如果数据库关闭我可以使用 Matcher 类中的 orSkip 问题是我正在获取一个匹配条件的输出作为
是否有一种类型安全的方法可以将较大的对象减少（）为打字稿中的新类型？

我有一个表示数据库查询结果的数据结构它是一个具有许多属性的对象所有属性都是标量在我的例子中都是字符串或数字我想提取这些属性的一部分并填充一个具有已定义形状的新对象 const input Record
过滤器的 Scala 集合类型

假设您有一个 List 1 1 其类型为 List Any 这当然是正确的且符合预期现在如果我像这样映射列表 scala gt List 1 1 map case x Int gt x case y String gt y toInt 结
pyspark加入多个条件

我如何指定很多条件当我使用pyspark时 join 例子与蜂巢 query select a NUMCNT b NUMCNT as RNUMCNT a POLE b POLE as RPOLE a ACTIVITE b ACTIVIT
使用 apply 方法的泛型类型的 Scala 工厂？

假设我有以下特征它定义了一个接口并采用几个类型参数 trait Foo A B implementation details not important 我想使用伴随对象作为该特征的具体实现的工厂我还想强制用户使用Foo接口而不是子类所
使用什么框架来引导我的第一个生产 scala 项目？

我正在第一次涉足 scala 的生产应用程序该应用程序当前打包为 war 文件我的计划是创建 scala 编译工件的 jar 文件并将其添加到 war 文件的 lib 文件夹中我的增强功能是通过 Jersey 公开的 mysql 支
Spark SQL sql("").first().getDouble(0) 给我不一致的结果

我有下面的查询它应该找到列值的平均值并返回一个数字的结果 val avgVal hiveContext sql select round avg amount 4 from users payment where dt between 2
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
Apache Spark 两个 RDD 之间的差异

假设我有这个示例作业在带有 Java API 的 Groovy 中 def set1 def set2 0 upto 10 set1 lt lt it 8 upto 20 set2 lt lt it def rdd1 context pa
Slick：将操作与 DBIOAction 的 Seq 组合起来

我有工作以下代码 val actions for lt slickUsers insertOrUpdate dbUser loginInfo lt loginInfoAction lt slickUserLoginInfos DBUse

随机推荐

泛型在 C# 中不起作用，即使运行没有任何错误

我正在使用 Silverlight 5 VS 2010 创建一个 C Web 应用程序首先我创建了控制台应用程序一切正常但是当我在网络应用程序中执行此操作时会出现问题即使在网络应用程序中它对于特定的设置数据类型也能正常工作例如
旧版本的 spring boot 无法在 Java 11 上启动

我正在使用 spring boot 应用程序的 1 4 1 RELEASE Java 8 一切正常但是当我将 java 版本更新到 11 时我无法使用命令运行应用程序mvn clean spring boot run 同时我可以打包成
覆盖getter只需要@synthesize

我想覆盖惰性实例化的 getter 并保留默认的 setter 我需要 synthesize 吗 Why interface Foo property strong nonatomic NSObject bar end implementa
表达式/语句树

进一步更新问题我一直在尝试使用 NET 4 中的表达式树在运行时生成代码并且我一直在尝试实现foreach通过构建表达式树来声明最后表达式应该能够生成执行此操作的委托 Action
如何在 git 上执行 3 向视觉差异？

我想对存在于 2 个不同分支中的单个文件进行 3 路比较即每个分支中的最后一次提交并考虑共同的祖先我想使用一个允许进行三向比较的外部工具我正在考虑使用 git difftool 但据我所知它只允许比较给定文件的任何两个版本我可以
计算嵌套列表中包含特定元素的列表的数量

我有一个列表例如 res a b a a b c a 我想计算有多少个列表包含特定字母例如 a 包含在 3 个列表中 b 包含在 2 个列表中 c 包含在 1 个列表中下面的代码是我到目前为止所拥有的 count 0 docs a l
Visual Studio 2013 的 RC 更新 2 共享项目

我最近安装了 Visual Studio 2013 的 RC 更新 2 在浏览通用应用程序的模板时我发现了一个项目 Shared其中有一个扩展 shproj 当我在网上浏览一些材料时我发现它是一个用于共享代码和文件的项目模板我认为这很
clang-format 正则表达式语法参考

我希望 clang format 不修改我用来分隔函数的注释行我认为commentPragmas是正确的选择但我找不到有关 clang format 正则表达式格式的信息 I tried commentPragmas 捕捉我的分隔线看
如何在 PHP 中包含其他文件？

我刚刚开始在家里创建一个网站当然我必须有这两个页面才能快速完成我的网站 footer php header php 所以我创建了这些页面并放置了一些内容还创建了一个索引页作为index php在的里面htdocs folder 然后
并行运行多个查询动画

我有两个路由组件及其容器我已为其设置了动画触发器 slide 其中我查询每个并相应地设置动画 div div
如何检测屏幕脚轮android，检测点击压力

我开发了一个玩起来很有趣的应用程序但有一些顽皮的人通过使用不同类型的方式破坏其他人的乐趣屏幕脚轮然后玩弄自动化脚本并欺骗用户这是一个链接 http code google com p androidscreencast 一位非常著名的屏
MagicalRecords 从 JSON / NSDictionary 导入数据。导入关系

我对人际关系有疑问我必须使用 NSManagedObject 类 Team 和 Player 团队可以包含许多玩家玩家只能包含一支球队以下是两个请求的 JSON team id 1 name Chicago Bulls city Ch
Excel VBA 工作簿.ChangeFileAccess

我在使用 VBA 更改 Excel 工作簿上的文件访问模式时遇到问题我使用的是 Office 2010 我希望能够适当地在只读和读写模式之间切换然而似乎将工作簿从读写更改为只读然后再返回如下面的代码所示在尝试访问工作簿对象的任
XML 两个同名标签

在我的 XML 文档中我有两个同名的标签都称为 item 我现在已经为此文档创建了一个 XML 架构考虑到我有两个同名的标签我的 XML 架构准确吗 XML文档
无法在我自己的代码中将 CHOLMOD 与 CUDA 加速一起使用

我正在尝试使用CHOLMOD with CUDA加速度SuiteSparse 4 4 4 我按照用户指南编译了它我可以运行gpu sh under Demo文件夹成功这表明GPU正在做部分工作但是当我尝试使用运行我自己的代码时CHO
以编程方式加载 SSIS 包配置

我正在 SSIS 中制作一个框架用于从可配置文件夹加载文件并将它们与数据库中的逻辑作业相匹配在此作业中配置了包名称并在 SSIS 中我在运行时执行此包我想根据加载的作业以编程方式加载此包的包配置 SSIS SQL Server 包配
基于 SAML 断言的 SAML2 身份验证和授权

我在用着spring security saml2 service provider针对 SAML IdP 验证我的 SpringBoot Web 应用程序这有效我还可以使用 REST 控制器访问 SAML 断言 Authenticat
H2数据库：使用jdbcTemplate插入记录时，列“ID”不允许为NULL

我使用 hibernate 的 hbm2ddl 自动生成模式这是我的域名 Entity public class Reader Id GeneratedValue strategy GenerationType AUTO Long id
推送通知加密错误

我在 PHP Laravel 应用程序中使用 Push Notifs 我创建了一个 pem 文件并对其进行了测试在我的开发机器上使用它时它可以正确推送到移动设备当我现在将整个项目推送到生产服务器并启动 Pushnotif 调用时我收
Spark：reduce和reduceByKey之间的语义差异

在 Spark 的文档中它说 RDDs 方法reduce http spark apache org docs latest api scala index html org apache spark rdd RDD需要一个结合与交换的二

Spark：reduce和reduceByKey之间的语义差异

Spark：reduce和reduceByKey之间的语义差异 的相关文章

随机推荐

热门标签

Spark：reduce和reduceByKey之间的语义差异的相关文章