Spark：当我在 Range 中使用累加器时，它无法正常工作

2024-04-05

我不明白为什么 Spark 没有正确更新我的累加器。

object AccumulatorsExample extends App {
  val acc = sc.accumulator(0L, "acc")
  sc range(0, 20000, step = 25) map { _ => acc += 1 } count()
  assert(acc.value == 800) // not equals
}

我的火花配置：

setMaster("local[*]") // should use 8 cpu cores

我不确定 Spark 是否在每个核心上分配累加器的计算，也许这就是问题所在。

我的问题是如何汇总所有acc值在一个总和中并获得正确的累加器值（800）？

如果我限制核心数量setMaster("local[1]")比一切都好。

这里有两个不同的问题：

你正在延长App而不是实施main方法。有一些与此方法相关的已知问题，包括不正确的累加器行为，因此它不应该在 Spark 应用程序中使用 https://spark.apache.org/docs/latest/quick-start.html#self-contained-applications。这很可能是问题的根源。

参见示例SPARK-4170 https://issues.apache.org/jira/browse/SPARK-4170对于与扩展相关的其他可能的问题App.
您在转换中使用累加器。这意味着累加器可以递增任意次数（当给定作业成功时至少一次）。

一般来说，您需要精确的结果，您应该仅在类似的操作中使用累加器foreach and foreachPartition尽管您不太可能在像这样的玩具应用程序中遇到任何问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

accumulator

Spark：当我在 Range 中使用累加器时，它无法正常工作的相关文章

如何在不从 DataFrame 转换并访问它的情况下向数据集添加列？

我知道使用以下方法将新列添加到 Spark 数据集的方法 withColumn and a UDF 它返回一个 DataFrame 我还知道我们可以将生成的 DataFrame 转换为 DataSet 我的问题是如果我们仍然遵循传统的
我应该在 Prolog 和一般情况下避免尾递归吗？

我正在阅读立即学习 Prolog 在线书籍以获取乐趣我正在尝试编写一个谓词该谓词遍历列表的每个成员并向其添加一个使用累加器我已经在没有尾递归的情况下轻松完成了 addone addone X Xs Y Ys Y is X 1 a
当泛型类型与无界通配符一起使用时，不考虑类型参数绑定

在我的项目中我有一个这样的星座 trait F trait X A lt F def test x X X lt F x Trait X有一个类型参数其上限为F 根据我的理解类型X and X lt F 应该是等价的但scalac2
使用 scalapb 在 Spark Streaming 中解码 Proto Buf 消息时出错

这是一个 Spark Streaming 应用程序它使用编码的 Kafka 消息Proto Buf Using scalapb图书馆我收到以下错误请帮忙 gt com google protobuf InvalidProtocolBu
如果两个阶段使用相同的 DataFrame，spark 是否会读取同一文件两次？

以下代码读取相同的 csv 两次即使只调用一个操作端到端可运行示例 import pandas as pd import numpy as np df1 pd DataFrame np arange 1 000 reshape 1 1
实现只有一个居民的类型的价值

感谢 MilesSabin 的answer https stackoverflow com a 32157259 867671我可以编写类型级别的斐波那契序列 sealed trait Digit case object Zero exte
如何使用 Scala 从 Spark 更新 ORC Hive 表

我想更新 orc 格式的 hive 表我可以从 ambari hive 视图进行更新但无法从 sacla spark shell 运行相同的更新语句 objHiveContext sql select from table name 能
过滤器的 Scala 集合类型

假设您有一个 List 1 1 其类型为 List Any 这当然是正确的且符合预期现在如果我像这样映射列表 scala gt List 1 1 map case x Int gt x case y String gt y toInt 结
pyspark加入多个条件

我如何指定很多条件当我使用pyspark时 join 例子与蜂巢 query select a NUMCNT b NUMCNT as RNUMCNT a POLE b POLE as RPOLE a ACTIVITE b ACTIVIT
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
解决 sbt 中 jar 加载冲突的问题

当两个特定的 sbt 插件启动时我在 sbt 启动时收到以下错误加在一起到其构建定义中的项目这些 sbt 插件之一是规模化jdbc https github com scalikejdbc scalikejdbc另一个是my own h
数量重新分配逻辑 - 具有外部数据集的 MapGroups

我正在研究一种复杂的逻辑需要将数量从一个数据集重新分配到另一个数据集在例子中我们有Owner and Invoice 我们需要从数量中减去Invoice准确地Owner匹配在给定汽车的给定邮政编码处减去的数量需要重新分配回同一辆车出
Spark SQL sql("").first().getDouble(0) 给我不一致的结果

我有下面的查询它应该找到列值的平均值并返回一个数字的结果 val avgVal hiveContext sql select round avg amount 4 from users payment where dt between 2
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
hive - 在值范围之间将一行拆分为多行

我在下面有一张表想按从开始列到结束列的范围拆分行即 id 和 value 应该对开始和结束之间的每个值重复包括两者 id value start end 1 5 1 4 2 8 5 9 所需输出 id value current
在 Scala 中提取案例类字段名称

我有一个案例类 case class A field1 String field2 Int 我想在某些代码中引用确切的字符串 field1 例如 val q Query field1 gt hello performQuery q 现在我必
如何在不使用 .toPandas() hack 的情况下提取 PySpark 中对长度敏感的特征？

我是 PySpark 的新手我想翻译特征提取 FE 将 pythonic 部分脚本放入 PySpark 中首先我有所谓的 Spark 数据框sdf包括 2 列 A 和 B 下面是示例 data A B https example1 o
在这种情况下，scala 的类型检查是如何工作的？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案 Start writing your ScalaFiddle code here sealed trait DSL A def run
scala 如何对元组进行排序？

我试图了解 scala 如何处理元组的排序和排序例如如果我得到了列表 val l for i lt 1 to 5 yield i i 2 Vector 1 2 2 4 3 6 4 8 5 10 scala 知道如何对其进行排序 l so
对于 Scala，“无全局类型推断”是什么意思？

我读过 Scala 的类型推断不是全局的因此人们必须在方法上放置类型注释这会是本地类型推断吗我只知道一点点原因是它面向对象的本质但我不清楚是否有全局类型推断的解释以及为什么 Scala 不能让初学者可以理解 The pr

随机推荐

如何使用数据绑定在 WPF 中设置列表视图项的背景颜色？

我有一个列表视图它绑定到类型为 person 的可观察集合我将以下属性添加到我的 person 对象中 public System Windows Media SolidColorBrush Brush get set 如何通过绑定到此
如何从 C 代码生成 #define 值列表？

我的代码有很多复杂的 define 错误代码这些错误代码不容易解码因为它们嵌套在多个级别中有没有什么优雅的方法可以让我获得 define 列表及其最终数值或其他任何值举个例子
在faster_rcnn_resnet50_coco模型中哪里可以找到model.ckpt？

在一个很棒的教程中使用tensorflow API进行迁移学习 https medium com WuStangDan step by step tensorflow object detection api tutorial part 4
Db4o Mvc 应用程序架构

我目前正在测试 Db4o 的 asp net MVC 2 应用程序想法但有一些事情我不太确定最佳的继续方式我希望我的应用程序使用可猜测的路由而不是 Id 来引用我的实体但我也认为我需要某种 Id 来更新场景例如我想要 country
py2exe 错误处理重定向和弹出窗口

一直试图找出如何让 py2exe 更优雅地处理错误基本上发生了两件奇怪的事情 1 关闭程序后弹出消息 gt 想要抑制不显示此弹出窗口 Use try except gt doesn t work http osdir com ml p
在 Terraform 中，数据源中可以有变量吗？

我想知道在 terraform 中调用数据源时是否可以使用变量而不是 data terraform remote state dev vpc 我想要一个变量调用 dev 像 data terraform remote state var
更改 Windows 计划任务的电源设置

我创建了一个 Windows 任务并计划每 1 小时运行一次任务每小时运行一次但收到警告Task Scheduler did not launch task Sample Task because computer is running
想要在 C# 中绘制一个跟随鼠标的圆圈

首先我是 C 的真正初学者所以请保持温柔我试图让一个圆圈跟随我的光标我不想留下任何痕迹 private void Form1 MouseMove object sender MouseEventArgs e drawCircle
MKMapViewDelegate：如何识别 rendererForOverlay 中的覆盖

我添加两个不同的MKGeodesicPolyline实例到MKMapView像这样 CLLocation LAX CLLocation alloc CLLocation JFK CLLocation alloc CLLocation LHR
调用批处理脚本而不使用 CALL 或 START

当我从批处理脚本调用批处理脚本而没有CALL or START 例子我有两个脚本 a bat 和 b bat a bat echo I am A gt gt log b bat echo end of A gt gt log b bat
如何备份本地Git仓库？

我在一个相对较小的项目上使用 git 我发现压缩 git 目录的内容可能是备份项目的好方法但这有点奇怪因为当我恢复时我需要做的第一件事是git reset hard 以这种方式备份 git 存储库有任何问题吗另外有没有更好的方法来
JSF 2.2 - 文件上传不适用于 Ajax。表单的 enctype 似乎不正确（仅通过 AJAX）

尝试实现 JSF 2 2 示例我有以下代码
Java中有二进制文字吗？

我想用二进制文字来声明我的整数在Java中可以吗在 JDK 7 中可以 int binaryInt 0b101 只需在您的号码前添加前缀即可0b
HornetQ 重启后不会保留消息

我使用 HornetQ 作为队列提供程序因为它具有持久性功能但是在我重新启动应用程序后队列中的所有消息都会丢失也许是配置问题这是代码 Step 1 Create the Configuration and set the pro
Excel VBA 禁用快捷键有时会禁用数据输入

为什么我的代码会随机偶尔禁用数据输入但即使我隔离它并删除所有其他宏大多数时间仍然可以工作该代码禁用了几乎所有快捷键但不应影响简单的数据输入 Option Explicit Rem mod ShortCutKeys Ctrl Alt
WebGet 的 WCF 响应格式

WCF 为 ServiceContract 中的 WebGet 注释中的 ResponseFormat 属性提供了两个选项 ServiceContract public interface IService1 OperationContra
Drupal 6：打印纯正的主链接和所有子链接

世界上怎么可能我发誓我读了相当于三本百科全书的书却毫无用处我已经尝试过区域 page tpl php 和块内的解决方案他们都没有给我我需要的东西而且我知道还有很多其他人也需要这个我得出的结论是我想打印出 page tpl p
模糊除 div 之外的整个页面

我有以下代码除了中心的红色 div 之外我需要将所有内容都模糊化我尝试使用filter none or filter blur 0 但这行不通如何模糊背景中除红色 div 之外的所有内容编辑我也尝试将它与 z index 一起使
iOS 11：蜂窝信号强度

我正在获取蜂窝信号强度 iOS let statusBarView UIApplication shared value forKey statusBar as UIView if let foregroundView statusBarV
Spark：当我在 Range 中使用累加器时，它无法正常工作

我不明白为什么 Spark 没有正确更新我的累加器 object AccumulatorsExample extends App val acc sc accumulator 0L acc sc range 0 20000 step 25

Spark：当我在 Range 中使用累加器时，它无法正常工作

Spark：当我在 Range 中使用累加器时，它无法正常工作 的相关文章

随机推荐

热门标签

Spark：当我在 Range 中使用累加器时，它无法正常工作的相关文章