Spark：Java 中 forEach 循环中的任务不可序列化异常

2024-04-04

我正在尝试迭代 JavaPairRDD 并使用 JavaPairRDD 的键和值执行一些计算。然后将每个 JavaPair 的结果输出到处理后的数据 list.

我已经尝试过的：将我在 lambda 函数内部使用的变量设为静态。 make 方法，我从 lambda foreach 循环调用静态方法。添加了可序列化的实现

这是我的代码：

    	List<String> processedData = new ArrayList<>();
      
      JavaPairRDD<WebLabGroupObject, Iterable<WebLabPurchasesDataObject>> groupedByWebLabData.foreach(data ->{
    	
     JavaRDD<WebLabPurchasesDataObject> oneGroupOfData = convertIterableToJavaRdd(data._2());
          
     double opsForOneGroup = getOpsForGroup(oneGroupOfData);
     double unitsForOneGroup = getUnitsForGroup(oneGroupOfData);
    			
     String combinedOutputForOneGroup =  data._1().getProductGroup() + "," + opsForOneGroup + "," + unitsForOneGroup;
    					
     processedData.add(combinedOutputForOneGroup);
   });



 private JavaRDD<WebLabPurchasesDataObject> convertIterableToJavaRdd(Iterable<WebLabPurchasesDataObject> groupedElements)
   {
      List<WebLabPurchasesDataObject> list = new ArrayList<>();				 
    	groupedElements.forEach(el -> list.add(el));
      return this.context.parallelize(list);
   }

这是异常本身：

Exception in thread "main" org.apache.spark.SparkException: Task not serializable
at org.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:166)
at org.apache.spark.util.ClosureCleaner$.clean(ClosureCleaner.scala:158)
at org.apache.spark.SparkContext.clean(SparkContext.scala:1623)
at org.apache.spark.rdd.RDD.foreach(RDD.scala:797)
at org.apache.spark.api.java.JavaRDDLike$class.foreach(JavaRDDLike.scala:312)
at org.apache.spark.api.java.AbstractJavaRDDLike.foreach(JavaRDDLike.scala:46)
at com.amazon.videoads.emr.spark.WebLabDataAnalyzer.processWebLabData(WebLabDataAnalyzer.java:121)
at com.amazon.videoads.emr.spark.WebLabMetricsApplication.main(WebLabMetricsApplication.java:110)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:497)
at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:569)
at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:166)
at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:189)
at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:110)
at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala).Caused by: java.io.NotSerializableException: org.apache.spark.api.java.JavaSparkContext . Serialization stack:
- object not serializable (class: org.apache.spark.api.java.JavaSparkContext, value: org.apache.spark.api.java.JavaSparkContext@395e9596)
- element of array (index: 0)
- array (class [Ljava.lang.Object;, size 2)
- field (class: java.lang.invoke.SerializedLambda, name: capturedArgs, type: class [Ljava.lang.Object;)
- object (class com.amazon.videoads.emr.spark.WebLabDataAnalyzer$$Lambda$14/1536342848, com.amazon.videoads.emr.spark.WebLabDataAnalyzer$$Lambda$14/1536342848@5acc8c7c)
- field (class: org.apache.spark.api.java.JavaRDDLike$$anonfun$foreach$1, name: f$14, type: interface org.apache.spark.api.java.function.VoidFunction)
- object (class org.apache.spark.api.java.JavaRDDLike$$anonfun$foreach$1, <function1>)
at org.apache.spark.serializer.SerializationDebugger$.improveException(SerializationDebugger.scala:38)
at org.apache.spark.serializer.JavaSerializationStream.writeObject(JavaSerializer.scala:47)
at org.apache.spark.serializer.JavaSerializerInstance.serialize(JavaSerializer.scala:80)
at org.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:164)
... 16 more

TL;DR：你正在尝试使用JavaSparkContext在你的里面按网络实验室数据分组RDD：你不能这样做，因为 JavaSparkContext 不可序列化。

堆栈跟踪在这里非常有用：

at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala).Caused by: java.io.NotSerializableException: org.apache.spark.api.java.JavaSparkContext . Serialization stack:

这意味着

您正在尝试序列化无法序列化的内容
这个东西是一个JavaSparkContext

这是由这两行引起的：

JavaPairRDD<WebLabGroupObject, Iterable<WebLabPurchasesDataObject>> groupedByWebLabData.foreach(data ->{
 JavaRDD<WebLabPurchasesDataObject> oneGroupOfData = convertIterableToJavaRdd(data._2());

because

convertIterableToJavaRdd

它由 RDD 的每个元素调用，使用

this.context.parallelize(list)

即它使用JavaSparkContext：您正在尝试在执行器上使用 JavaSparkContext （其中数据使您的按网络实验室数据分组RDD 还活着）。那么你不能这样做，因为 JavaSparkContext 不可序列化。

这里你正在做的事情可能可以通过UDF您可以收集结果（如果不是太大）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

apachespark

Lambda

RDD

Spark：Java 中 forEach 循环中的任务不可序列化异常的相关文章

Spring Security 自定义过滤器

我想自定义 Spring security 3 0 5 并将登录 URL 更改为 login 而不是 j spring security check 我需要做的是允许登录目录并保护 admin report html 页面首先我使用教
是否有任何简单（且最新）的 Java 框架可用于在 Swing 应用程序中嵌入电影？

我正在构建一个小型 Swing 应用程序我想在其中嵌入一部电影重要的是这个应用程序是一个 WebStart 应用程序并且该库应该能够打包在我启动的 jnlp 中即不依赖于本机库我知道并尝试过 JMF 但我认为与其他框架相比其
打印星号的 ASCII 菱形

我的程序打印出这样的钻石但只有当参数或菱形的每一面为4 例如如果我输入6 底部三角形的间距是错误的我一直在试图找出答案当参数改变时底部的三角形不会改变只有顶部的三角形会改变它只适用于输入4 public static void
Spring Boot自动装配存储库始终为空[重复]

这个问题在这里已经有答案了每次我进入我的服务类时存储库似乎都没有自动连接因为它不断抛出 NullPointerException 谁能帮我检查一下我缺少什么吗这是我的代码演示应用程序 java package com exampl
通往楼梯顶部的可能路径

这是一个非常经典的问题我听说谷歌在他们的面试中使用过这个问题问题制定一个递归方法打印从楼梯底部到楼梯顶部的所有可能的独特路径有 n 个楼梯您一次只能走 1 步或 2 步示例输出如果它是一个有 3 级楼梯的楼梯 1 1 1 2
使用 Python 计算 Spark 中成对 (K,V) RDD 中每个 KEY 的平均值

我想与 Python 共享这个特定的 Apache Spark 解决方案因为它的文档非常贫乏我想通过 KEY 计算 K V 对存储在 Pairwise RDD 中的平均值示例数据如下所示 gt gt gt rdd1 take 10
是否可以通过编程方式查找 logback 日志文件？

自动附加日志文件以支持电子邮件会很有用我可以以编程方式设置路径如以编程方式设置 Logback Appender 路径 https stackoverflow com questions 3803184 setting logback
套接字的读写如何同步？

我们创建一个套接字在套接字的一侧有一个服务器在另一侧有一个客户端服务器和客户端都可以向套接字写入和读取这是我的理解我不明白以下事情如果服务器从套接字读取数据它在套接字中是否只看到客户端写入套接字的内容我的意思是如果服务
使用 Guice 优化注册表

你好今天思考了一种优化有一些疑问语境我正在使用 Guice 2 进行 Java 开发在我的网络应用程序中我有一个转换器注册表可以即时转换为某种类型转换器描述如下 public class StringToBoolean im
生成的序列以 1 开头，而不是注释中设置的 1000

我想请求一些有关 Hibernate 创建的数据库序列的帮助我有这个注释下面的代码在我的实体类中以便为合作伙伴表提供单独的序列我希望序列以 1000 开头因为我在部署期间使用 import sql 将测试数据插入数据库并且我希
Java：如何为山区时间创建 TimeZone 对象？

必须不禁用夏令时嗯在这个清单 http en wikipedia org wiki List of tz database time zones在 zoneinfo 时区名称中有很多声称是山地时间找到最适合您想要的那个然后使用它
GWT 2.3 开发模式 - 托管模式 JSP 编译似乎不使用 java 1.5 兼容性

无法编译 JSP 类生成的 servlet 错误 DefaultMessage 上次更新 0 日期中 0 时间 HH mm ss z 语法错误注释仅在源级别为 1 5 时可用在尝试以开发模式在 Web 浏览器中打开我的 gwt 模
Java实现累加器类，提供Collector

A Collector具有三种通用类型 public interface Collector
Freemarker 和 Struts 2，有时它计算为序列+扩展哈希

首先我要说的是使用 Struts2 Freemarker 真是太棒了然而有些事情让我发疯因为我不明白为什么会发生这种情况我在这里问是因为也许其他人有一个想法可以分享我有一个动作有一个属性说 private String myT
使用架构注册表对 avro 消息进行 Spring 云合约测试

我正在查看 spring 文档和 spring github 我可以看到一些非常基本的内容examples https github com spring cloud samples spring cloud contract sample
java库维护数据库结构

我的应用程序一直在开发所以偶尔当版本升级时需要创建更改删除一些表修改一些数据等通常需要执行一些sql代码是否有一个 Java 库可用于使我的数据库结构保持最新通过分析类似 db structure version 信息并执
JMenu 中的文本居中

好吧我一直在网上寻找有关此问题的帮助但我尝试的任何方法似乎都不起作用我想让所有菜单文本都集中在菜单按钮上当我使用setHorizontalTextPosition JMenu CENTER 没有变化事实上无论我使用什么常量菜单
“无法实例化活动”错误

我的一个 Android 应用程序拥有大约 100 000 个用户每周大约 10 次我会通过 Google 的市场工具向我报告以下异常情况 java lang RuntimeException Unable to instantiate
Java Swing：需要一个高质量的带有复选框的开发 JTree

我一直在寻找一个 Tree 实现其中包含复选框其中当您选择一个节点时树中的所有后继节点都会被自动选择当您取消选择一个节点时树中其所有后继节点都会自动取消选择当已经选择了父节点并且从其后继之一中删除了选择时节点颜色将发生变化
在 Google App-Engine JAVA 中将文本转换为字符串，反之亦然

如何从字符串转换为文本 java lang String to com google appengine api datastore Text 反之亦然 Check Javadoc http code google com appengin

随机推荐

Android Studio 3 库模块和功能模块的区别

Android Studio 3 中至少有两种新的模块类型首先是Instant app module第二个是feature module With Instant App module这是很明显的但是feature module从我的角度
arrayWillChange 中“无法调用未定义的‘销毁’方法”

我有一个非常标准的数组模板关系设置但是当我将一个新项目推入数组时我得到了上面提到的内容Cannot call method destroy of undefined错误在arrayWillChangeEmber源码的方法 for id
将格式化日期转换回unix

我将使用哪个函数将自定义格式的日期转换回 Unix 纪元时间例如 Ymd gt U 我在看date U strtotime 20140525 但我不确定如何适应原始格式Ymd 该函数如何知道输入格式是 YYYYMMDD 因为它看起来有效
如何将 Haskell 转换为 F#？

我正在尝试通过翻译我很久以前编写的一些 Haskell 代码来学习 F 但我陷入了困境 percent Int gt Int gt Float percent a b fromInt a fromInt b 100 freqs String
跨多个线程的 Java 日志记录

我们有一个使用线程的系统以便它可以同时并行处理不同的功能我们希望找到一种方法将特定事务的所有日志条目绑定在一起通常人们可能会使用 threadName 将它们收集在一起但显然这在多线程情况下会失败如果没有通过每个方法调用传递
使用 C++ 登录到 Windows 上的事件查看器 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我想在我的 C 应用程序上使用日志但是我想使用 Windows 10 事件查看器而不是文本文件我
如何将“捐赠”按钮集成到印度的网站中？

我们正在为印度的慈善信托基金开发一个网站为此我们需要在网站上添加一个捐赠按钮供任何想要通过支付网关向慈善机构捐赠的人使用然而 Paypal 和 Google Wallet Google Checkout 都限制在印度使用捐赠
杰克逊：将对象视为原始对象

我有一门或多或少是围绕双精度型的包装类当我通过 Jackson 序列化我的类时我将收到类似以下内容的信息 value 123 0 我基本上希望发生的是杰克逊只给我 123 0 0 如果我可以扩展 Number 我的问题就会得到解决但
用每列的组平均值填充 NaN [重复]

这个问题在这里已经有答案了我知道fillna 方法可用于在整个数据框中填充 NaN df fillna df mean fill with mean of column 如何将平均值计算限制为 NaN 所在的组和列 Exemple im
ng-if="true" + data-ng-if="true" 计算结果为 false？

事实是如果你使用ng if truthyValue and data ng if truthyValue 里面一个html元素使用角JS 1 6 受影响的元素不会在DOM 即使您使用这也是如此ng if and data ng if与b
ActionScript 的 File.upload 不适用于 iOS 设备的 Air SDK

我尝试使用 ActionScript 的 File upload 在 Air SDK for iOS 环境中上传文件但 File upload 无法正常工作调用 File upload 后不会执行有关文件上传的处理程序也不会捕获任何
Node.js 12 的 TypeScript tsconfig 设置？

最佳的 TypeScript 是什么tsconfig用于输出将在 Node js 12 上运行的代码的设置从 Node js 开始12 0 0 100 支持ES2019 如果您知道您的目标是该版本或更高版本则最佳配置将如下所示 modu
为什么 TypeScript 中受保护的成员可以被公共成员覆盖？

我是 Typescript 的新手我尝试在本文中使用 TypeScript 进行一些尝试操场 http www typescriptlang org play 我注意到在 TypeScript 中基类中的受保护成员可以被公共成员覆盖 c
如何创建 pip 可安装项目？

如何创建 pip 可安装项目如何注册 pip 所有项目都应该具有哪些元数据配置以便允许集成和轻松导入或者如果你感觉很奇特阅读 lazy sudo easy install PasteScript paster create myn
实体框架 4 Visual Studio 2008

我一直在四处寻找并试图查看 Entity Framework 4 是否可以在 Visual Studio 2008 下运行但找不到任何对它的引用可以让 EF4 在 VS2008 上运行吗 On the ADO NET 实体框架团队博客
动画同步、光标和突出显示

所以我几乎有了我的code http jsfiddle net bplumb PBFWV 9 按照我想要的方式工作但无法让我的动画正确同步我正在尝试对光标进行动画突出显示文本然后单击按钮问题是光标要么太慢要么太快我正在尝试做这个
C 语言快速联合实现中的分段错误（核心转储）

include
如何创建包含不同元素和操作的列表？

我想创建包含不同类型项目的列表他们应该调用不同的意图或做其他事情显示地图等它应该像联系方式一样项目和操作的数量是预定义的如何优雅地达到这样的效果呢我不需要确切的代码但需要指导方针和信息任何帮助将不胜感激 UPDATE 我所说
如何从 CDK 上的 CodePipeline 获取源工件？

我正在使用官方 AWS 文档来使用 CDK 创建管道 https docs aws amazon com cdk latest guide cdk pipeline html cdk pipeline define https docs a
Spark：Java 中 forEach 循环中的任务不可序列化异常

我正在尝试迭代 JavaPairRDD 并使用 JavaPairRDD 的键和值执行一些计算然后将每个 JavaPair 的结果输出到处理后的数据 list 我已经尝试过的将我在 lambda 函数内部使用的变量设为静态 make 方法

Spark：Java 中 forEach 循环中的任务不可序列化异常

Spark：Java 中 forEach 循环中的任务不可序列化异常 的相关文章

随机推荐

热门标签

Spark：Java 中 forEach 循环中的任务不可序列化异常的相关文章