使用 Spark collectionAccumulator 时出现 ConcurrentModificationException

2024-04-30

我尝试在 Azure HDInsight 按需群集上运行基于 Spark 的应用程序，并且看到记录了大量 SparkException（由 ConcurrentModificationException 引起）。当我启动本地 Spark 实例时，应用程序运行时没有出现这些错误。

我看过有关的报道使用累加器时出现类似错误 https://issues.apache.org/jira/browse/SPARK-17463我的代码确实使用了 CollectionAccumulator，但是我在使用它的任何地方都放置了同步块，这没有什么区别。累加器相关的代码如下所示：

class MySparkClass(sc : SparkContext) {
    val myAccumulator = sc.collectionAccumulator[MyRecord]

    override def add(record: MyRecord) = {
        synchronized {
            myAccumulator.add(record)
        }
    }

    override def endOfBatch() = {
        synchronized {
            myAccumulator.value.asScala.foreach((record: MyRecord) => {
                processIt(record)
            })
        }
    }
}

异常不会导致应用程序失败，但是当endOfBatch被调用并且代码尝试从累加器中读取值，它是空的并且processIt从未被调用过。

我们正在使用HDInsight 版本 3.6 https://learn.microsoft.com/en-us/azure/hdinsight/hdinsight-component-versioningSpark 版本 2.3.0

18/11/26 11:04:37 WARN Executor: Issue communicating with driver in heartbeater
org.apache.spark.SparkException: Exception thrown in awaitResult: 
    at org.apache.spark.util.ThreadUtils$.awaitResult(ThreadUtils.scala:205)
    at org.apache.spark.rpc.RpcTimeout.awaitResult(RpcTimeout.scala:75)
    at org.apache.spark.rpc.RpcEndpointRef.askSync(RpcEndpointRef.scala:92)
    at org.apache.spark.executor.Executor.org$apache$spark$executor$Executor$$reportHeartBeat(Executor.scala:785)
    at org.apache.spark.executor.Executor$$anon$2$$anonfun$run$1.apply$mcV$sp(Executor.scala:814)
    at org.apache.spark.executor.Executor$$anon$2$$anonfun$run$1.apply(Executor.scala:814)
    at org.apache.spark.executor.Executor$$anon$2$$anonfun$run$1.apply(Executor.scala:814)
    at org.apache.spark.util.Utils$.logUncaughtExceptions(Utils.scala:1988)
    at org.apache.spark.executor.Executor$$anon$2.run(Executor.scala:814)
    at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511)
    at java.util.concurrent.FutureTask.runAndReset(FutureTask.java:308)
    at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$301(ScheduledThreadPoolExecutor.java:180)
    at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:294)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
    at java.lang.Thread.run(Thread.java:748)
Caused by: java.util.ConcurrentModificationException
    at java.util.ArrayList.writeObject(ArrayList.java:770)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at java.io.ObjectStreamClass.invokeWriteObject(ObjectStreamClass.java:1140)
    at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1496)
    at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1432)
    at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1178)
    at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1548)
    at java.io.ObjectOutputStream.defaultWriteObject(ObjectOutputStream.java:441)
    at java.util.Collections$SynchronizedCollection.writeObject(Collections.java:2081)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at java.io.ObjectStreamClass.invokeWriteObject(ObjectStreamClass.java:1140)
    at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1496)
    at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1432)
    at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1178)
    at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1548)
    at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1509)
    at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1432)
    at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1178)
    at java.io.ObjectOutputStream.writeArray(ObjectOutputStream.java:1378)
    at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1174)
    at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1548)
    at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1509)
    at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1432)
    at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1178)
    at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1548)
    at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1509)
    at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1432)
    at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1178)
    at java.io.ObjectOutputStream.writeArray(ObjectOutputStream.java:1378)
    at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1174)
    at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1548)
    at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1509)
    at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1432)
    at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1178)
    at java.io.ObjectOutputStream.writeObject(ObjectOutputStream.java:348)
    at org.apache.spark.serializer.JavaSerializationStream.writeObject(JavaSerializer.scala:43)
    at org.apache.spark.rpc.netty.RequestMessage.serialize(NettyRpcEnv.scala:565)
    at org.apache.spark.rpc.netty.NettyRpcEnv.ask(NettyRpcEnv.scala:231)
    at org.apache.spark.rpc.netty.NettyRpcEndpointRef.ask(NettyRpcEnv.scala:523)
    at org.apache.spark.rpc.RpcEndpointRef.askSync(RpcEndpointRef.scala:91)
    ... 13 more

以下代码是一个更独立的示例，可重现该问题。MyRecord是一个仅包含数值的简单案例类。该代码在本地运行时没有错误，但在 HDInsight 群集上会产生上述错误。

object MainDemo {
    def main(args: Array[String]) {
        val sparkContext = SparkSession.builder.master("local[4]").getOrCreate().sparkContext
        val myAccumulator = sparkContext.collectionAccumulator[MyRecord]

        sparkContext.binaryFiles("/my/files/here").foreach(_ => {
            for(i <- 1 to 100000) {
                val record = MyRecord(i, 0, 0)
                myAccumulator.add(record)
            }
        })

        myAccumulator.value.asScala.foreach((record: MyRecord) => {
            // we expect this to be called once for each record that we 'add' above,
            // but it is never called
            println(record)
        })
    }
}

我怀疑同步块是否真的有帮助。 CustomeAccumulators 或所有其他累加器都不是线程安全的。它们实际上不必这样做，因为 Spark 驱动程序在任务完成（成功或失败）后用于更新累加器值的 DAGScheduler.updateAccumulators 方法仅在运行调度循环的单个线程上执行。除此之外，它们是具有自己的本地累加器引用的工作人员的只写数据结构，而仅驱动程序允许访问累加器的值。当你说它在本地模式下工作时，因为它是单个 JVM，但在集群模式下，它们是不同的 JVM 和 java 实例，正在触发 PRC 调用以启用通信。

MyRecord 对象的外观以及如果您只是以 .value 结束行而不是在其上使用迭代器会有所帮助。你试一试。

myAccumulator.value

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Spark collectionAccumulator 时出现 ConcurrentModificationException 的相关文章

Slick和bonecp：org.postgresql.util.PSQLException：FATAL：抱歉，太多客户端已经错误

当我在本地开发应用程序时我使用以下命令启动我的 play2 应用程序sbt run 我喜欢如何更改代码然后重新加载浏览器以查看我的更改在大约 10 次代码更改之后我收到 postgresql 太多连接错误见下文我的数据库连接使用
Java 8 Stream，获取头部和尾部

Java 8 引入了Stream http download java net jdk8 docs api java util stream Stream html类似于 Scala 的类Stream http www scala lang
解决“Show”类型类实例的隐式问题

我正在努力使Gender实施Show类型类 scala gt trait Gender extends Show Gender defined trait Gender scala gt case object Male extends G
Azure Java SDK：ServiceException：ForbiddenError：

尝试了基本位置检索器代码如下所示 String uri https management core windows net String subscriptionId XXXXXXXX 5fad XXXXXX 9dfa XXXXXX St
Azure 发布包不包含所有文件

我有几个配置 dll 和一个 exe 文件位于 bin 文件夹中并包含在项目中文件设置为内容和始终复制当我在本地调试项目时一切正常问题是当我发布云服务时文件丢失了 Azure 发布过程忽略了这些文件并且部署包文件中也缺少这
在 CosmosDb 中使用 /id 作为分区键的含义

在每分钟有 1000 个条目唯一键进入 cosmos 的场景中使用 id 作为分区键安全吗特别是有一个逻辑分区的概念https learn microsoft com en us azure cosmos db partition
具有继承类型的 Aux 模式推理失败

我有一个复杂的玩具算法我希望纯粹在类型级别上表示根据饮食要求选择当天菜肴的修改对卷积表示歉意但我认为我们需要每一层才能达到我想要使用的最终界面我的代码有一个问题如果我们表达一个类型约束Aux 模式生成的类型基于另一个泛型类型它
Azure 和直播

我正在尝试使用 Azure 制作实时视频流但我真的不知道应该先尝试什么首先有一个网站上面有最新版本的 Flowplayer 现在我需要知道如何将网络摄像头的视频流传输到 Azure 我需要什么样的软件我正在尝试使用 Express
IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
Scala Spark 包含与不包含

我可以使用 contains 过滤 RDD 中的元组如下所示但是使用不包含来过滤 RDD 又如何呢 val rdd2 rdd1 filter x gt x 1 contains 我找不到这个的语法假设这是可能的并且我没有使用Dat
在 Spark 结构化流 2.3.0 中连接两个流时，左外连接不发出空值

两个流上的左外连接不发出空输出它只是等待记录添加到另一个流中使用套接字流来测试这一点在我们的例子中我们想要发出具有 null 值的记录这些记录与 id 不匹配或且不属于时间范围条件水印和间隔的详细信息如下 val ds1Map
获取SettingKey[T]的值

我正在开发一个用于文档生成的插件我想将所有生成的文件输出到我选择的目录中该目录可以是SBT的子目录target目录如下 val newTargetDirectory SettingKey File document target di
删除实例后，Azure 云服务变得无响应？

我的 Azure 云服务当它从 3 个实例缩减到 2 个实例时我的网站会变得无响应几分钟我的印象是我的现有实例将保持不变除了那些被删除的实例并且我的网站将继续正常运行我可能是错的这是正常行为吗当您从 2 个实例缩减到 1
Akka-Http 2.4.9 抛出 java.lang.NoClassDefFoundError: akka/actor/ActorRefFactory 异常

我正在尝试使用 Akka http 构建一个简单的 Web 服务我遵循了这个指南 http doc akka io docs akka 2 4 9 scala http low level server side api html htt
Spark scala 模拟 Spark.implicits 用于单元测试

当尝试使用 Spark 和 Scala 简化单元测试时我使用 scala test 和mockito scala 以及mockito Sugar 这只是让你做这样的事情 val sparkSessionMock mock SparkSes
IntelliJ IDEA 不会从 SBT 项目加载 Lift 库

我通过创建了一个空白项目sbt使用最基本的指南具体来说 gt cd xyz gt sbt here we create a new project w Scala 2 8 1 gt lift is org lifty lifty 1 6
如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc
Scala：类型参数中的问号

我试图理解以下代码来自 Scalaz 库 def kleisliIdApplicative R Applicative Kleisli Id R 我假设一种形式T P0 是一个带有参数的类型构造函数但是我无法找到解释类型参数中问号用法的
Azure 上的“phpcomposer.phar install”出现“无法终止进程”错误

我正在尝试将我的 Symfony 2 应用程序部署到 Microsoft Azure 网站云为此我按照本指南中的步骤操作http symfony com doc current cookbook deployment azure web
Azure函数版本2.0-应用程序blobTrigger不工作

我有一个工作功能应用程序它有一个 blob 输入和一个事件中心输出在测试版中工作随着最新的更改我的功能不再起作用我尝试根据发行说明更新 host json 文件但它没有引用 blob 触发器 version 2 0 extens

随机推荐

使用 sed 和 pstree 显示正在使用的终端类型

我一直在尝试仅显示用作名称的终端类型例如如果我使用 konsole 它会显示 konsole 到目前为止我一直在使用这个命令 pstree A s 输出这个 systemd konsole bash pstree 我有以下内容可以从该行
如何在php中重写url？

我有一些关于在 php 中重写 url 的问题要问 1 www test com index php name 123 至 www test com 123 2 www test com folder1 index php name 123
运行线程时我的 Try Catch 块应该在哪里？

就拿这个话题来说吧 Thread thread new Thread delegate Code thread Start 应该是在thread Start 或里面 Thread thread new Thread delegate try
OnValidateIdentity 会话为空 - Mvc Owin

目前我在 OnValidateIdentity 中访问 Session 时遇到问题 HttpContext Current Session一片空白怎么了我的申请如下我有 2 个项目 Mvc 与 WebApi 我希望用户在更改密码时注
Rails：如何自动完成名称搜索但保存 ID？

我用过这个视频http railscasts com episodes 102 auto complete association revised http railscasts com episodes 102 auto complete
将 typescript ^3.7.2 更新为最新的“typescript”后：“^4.4.4” - 错误 TS2339：类型“Navigator”上不存在属性“msSaveOrOpenBlob”

我已经使用了这个 msSaveOrOpenBlob 方法它工作正常但将打字稿更新到最新版本后我收到多个错误有两个错误 window navigator msSaveOrOpenBlob 数据文件名错误 TS2322 类型 Pro
适用于 Scala 和 Java 的类型安全构建器库

下面是 Scala 中类型安全流畅的构建器模式如下所述http www tikalk com java blog type safe builder scala using type constraints http www tikal
有人可以提供一个如何使用 HTTParty 和 Ruby on Rails 发布 XML 的示例吗？

我需要将一些 xml 发布到 web 服务并且我正在尝试使用 HTTParty 有人可以举个例子来说明我如何这样做吗这是我需要发布的 XML 格式
FileVersionInfo.GetVersionInfo 在运行时获取旧版本的 exe 交换

我有一个用 C 执行的程序有时会在运行时通过将 exe 交换到新的来进行更新我希望程序定期检查是否已更新如果是则重新启动我使用以下函数来执行此操作 public static bool DoINeedToRestart strin
与其自身的多对多关系不能利用相关名称属性

我正在尝试克隆 Twitter 该应用程序有一系列用户每个用户都有一个用户个人资料 UserProfile模型如下 class UserProfiles models Model authenticated user models One
如何暂停使用 videosourceplayer 播放的视频文件

我正在使用 videosourceplayer 播放视频文件 wmv 我可以停止视频播放器但是当我启动它时它从头开始但不是从当前帧开始我如何实现视频的暂停和恢复播放 None
修补模块引发模块未找到错误

我使用jdk 11并尝试理解 patch modulejava编译器的选项这是我的简单模块 mdl platform com test mdl platform Patch java module info java module inf
Symfony2 - 扩展 RememberMe 成功处理程序

我想在某人刚刚使用 Symfony2 中的记住我功能登录后执行一个小的 PHP 操作我已经看到了这一点但不知道如何扩展它 http api symfony com 2 3 Symfony Component Security Htt
如何为多个画布图像填充颜色？

这是我第一次使用 html5 canvas 我还不知道它是如何工作的我的问题是我必须修改画布中图像的颜色如果只有一张图像这很容易但是我会有不止一张换句话说重叠的图像为了进一步理解我的问题我创建了一个插图只有 2 个图像
具有平滑、无限滚动功能的最佳开源网格

当我开始从事当前的项目时我接到了一项相当艰巨的任务构建一些本质上可以取代人们在公司内部使用的大型电子表格的东西这就是为什么我们认为分页表永远不会起作用而且老实说我认为分页是愚蠢的在分页表上显示动态变化的数据是蹩脚的假设第 2
查找在上下文菜单下单击的节点

如何找出树列表中的哪个节点已激活上下文菜单例如右键单击节点并从菜单中选择一个选项我无法使用 TreeViews SelectedNode属性因为该节点仅被右键单击而未被选中您可以向 TreeView 添加鼠标单击事件然后使用 G
使用 Entity Framework Code First 和 Fluent API 配置许多一对一关系

我有一个可怕的数据库模型在 MySQL 中尽管我认为这并不重要是其他人设计的所以我坚持使用它但无论如何想与实体框架一起使用 Database Item ASSET ID ASSET NAME FIELDS ID 1 Cat 1 2
运行带参数的 python 脚本

我想从 C 调用 Python 脚本传递脚本中所需的一些参数我想使用的脚本是 mrsync 或者组播远程同步 http sourceforge net projects mrsync 我通过调用以下命令从命令行开始工作 python m
如何将阿拉伯语、希伯来语写入 CSV 文件？ [关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 我无法向
使用 Spark collectionAccumulator 时出现 ConcurrentModificationException

我尝试在 Azure HDInsight 按需群集上运行基于 Spark 的应用程序并且看到记录了大量 SparkException 由 ConcurrentModificationException 引起当我启动本地 Spark 实例

使用 Spark collectionAccumulator 时出现 ConcurrentModificationException

使用 Spark collectionAccumulator 时出现 ConcurrentModificationException 的相关文章

随机推荐

热门标签