Spark如何处理对象

2023-11-24

为了测试 Spark 中的序列化异常，我用两种方式编写了一个任务。
第一种方式：

package examples
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext

object dd {
  def main(args: Array[String]):Unit = {
    val sparkConf = new SparkConf
    val sc = new SparkContext(sparkConf)

    val data = List(1,2,3,4,5)
    val rdd = sc.makeRDD(data)
    val result = rdd.map(elem => {
      funcs.func_1(elem)
    })        
    println(result.count())
  }
}

object funcs{
  def func_1(i:Int): Int = {
    i + 1
  }
}

这样 Spark 的效果就非常好。
当我将其更改为以下方式时，它不起作用并抛出 NotSerializedException。
第二种方式：

package examples
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext

object dd {
  def main(args: Array[String]):Unit = {
    val sparkConf = new SparkConf
    val sc = new SparkContext(sparkConf)

    val data = List(1,2,3,4,5)
    val rdd = sc.makeRDD(data)

    val handler = funcs
    val result = rdd.map(elem => {
      handler.func_1(elem)
    })

    println(result.count())

  }
}

object funcs{
  def func_1(i:Int): Int = {
    i + 1
  }
}

我知道我收到错误“任务不可序列化”的原因是因为我试图发送不可序列化的对象funcs在第二个示例中从驱动程序节点到工作程序节点。对于第二个例子，如果我创建对象funcs extend Serializable，这个错误就会消失。

但在我看来，因为funcs是一个对象而不是类，它是一个单例，应该被序列化并从驱动程序发送到工作人员，而不是在工作人员节点本身内实例化。在这种情况下，虽然使用对象的方式funcs是不同的，我猜是不可序列化的对象funcs在这两个示例中，都是从驱动程序节点传送到工作程序节点。

我的问题是为什么第一个示例可以成功运行，但第二个示例失败并出现“任务不可序列化”异常。

当您在 RDD 闭包（映射、过滤器等）中运行代码时，执行该代码所需的所有内容都将被打包、序列化并发送到执行器来运行。任何被引用的对象（或其字段被引用）都将在此任务中序列化，有时您会在此处获得NotSerializableException.

不过，您的用例有点复杂，并且涉及 scala 编译器。通常，在 scala 对象上调用函数相当于调用 java 静态方法。该对象从未真正存在过——它基本上就像内联编写代码一样。但是，如果将对象分配给变量，那么实际上是在内存中创建对该对象的引用，并且该对象的行为更像是类，并且可能存在序列化问题。

scala> object A { 
  def foo() { 
    println("bar baz")
  }
}
defined module A

scala> A.foo()  // static method
bar baz

scala> val a = A  // now we're actually assigning a memory location
a: A.type = A$@7e0babb1

scala> a.foo()  // dereferences a before calling foo
bar baz

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark如何处理对象的相关文章

为什么 Spark-ml ALS 模型返回 NaN 和负数预测？

实际上我正在尝试使用ALS from spark ml具有隐性评级我注意到我训练的模型给出的一些预测是negative or NaN 为什么 Apache Spark 提供了一个强制选项非负约束关于肌萎缩侧索硬化症因此要删除这些负值
强制 protobuf-net 忽略 IEnumerable/ICollection 接口

如何让 protobuf net v2 忽略我的类实现 ICollection IEnumerable 等的事实对于这个特定场景我只希望序列化标记为 ProtoMember 的字段我目前正在从使用 protobuf net v1 转换
创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp
为什么流式数据集会失败并显示“当流式数据帧/数据集上存在流式聚合时不支持完整输出模式...”？

我使用 Spark 2 2 0 在 Windows 上使用 Spark 结构化流时出现以下错误有时不支持完整输出模式streaming aggregations on streaming DataFrames DataSets没有wate
通过spark-shell以静默模式执行scala脚本

需要通过spark shell以静默模式执行scala脚本当我使用时spark shell i file scala 执行后我进入scala交互模式我不想进入那里我尝试执行spark shell i file scala 但我不知道
Spark SQL中如何按列降序排序？

I tried df orderBy col1 show 10 但它是按升序排列的 df sort col1 show 10 也按升序排序我查看了 stackoverflow 发现的答案都已过时或称为 RDD https stackove
非 Web 项目的 XML 序列化程序集

我正在尝试解决 VS 2010 VB NET 和 C 中自动生成序列化程序集的众所周知的问题项目设置中的生成序列化程序集选项对于非 Web 项目没有任何作用请参阅http blog devstone com aaron archiv
如何在 PySpark 中累计聚合一天内超过“1 小时”的窗口

我有一个如下所示的 Spark DataFrame group id event time XXXX 2017 10 25 14 47 02 717013 XXXX 2017 10 25 14 47 25 444979 XXXX 2017
使用 System.Text.Json.Serialization.JsonConverter 解析 JSON 序列化过程中复杂类型的循环引用

有一个复杂类型引用相同类型的对象有时是同一对象 public class User public string Name get set public int Age get set public User Reference get s
Spark 输出：日志式与进度式

spark submit两个不同集群都运行 Spark 1 2 上的输出看起来不同一个是日志式即大量消息流例如 15 04 06 14 53 13 INFO TaskSetManager Starting task 262 0 i
我可以在 RestEasy 中指定用于方法结果转换的 jackson @JsonView 吗？

我正在使用基于的序列化模型 JsonView 我通常配置杰克逊ContextResolver像这样 Override public ObjectMapper getContext Class
Spark 中的 RDD 和 Dataframe 有什么区别？ [复制]

这个问题在这里已经有答案了嗨我对 apache Spark 比较陌生我想了解 RDD 数据帧和数据集之间的区别例如我正在从 s3 存储桶中提取数据 df spark read parquet s3 output unattribu
Spark Workers 上缺少 SLF4J 记录器

我正在尝试通过以下方式运行工作spark submit 此作业导致的错误是 Exception in thread main java lang NoClassDefFoundError org slf4j Logger at java l
反序列化 HTTP POST 参数

我正在尝试找到一种更原生或更优雅的解决方案用于将 HTTP POST 参数反序列化为相应的对象目前我将字符串转换为字典然后将其序列化为 JSON 然后将其反序列化为我的最终对象参数字符串示例 TotalCost 0 01200 D
无法启动 Spark-Shell

我使用的是 Spark 1 4 1 我可以毫无问题地使用spark submit 但当我跑的时候 spark bin spark shell 我收到以下错误我已经配置了SPARK HOME and JAVA HOME 不过 Spark 1
Pyspark - 根据条件重置累积和列

我有以下数据框 id date reset cumsum 1001 2023 04 01 false 0 1001 2023 04 02 false 0 1001 2023 04 03 false 1 1001 2023 04 04 fal
在 Spark 中将流式 XML 转换为 JSON

我是 Spark 新手正在开发一个简单的应用程序将从 Kafka 接收的 XML 流转换为 JSON 格式 Using 火花2 4 5 斯卡拉 2 11 12 在我的用例中 kafka 流采用 xml 格式以下是我尝试过的代码 val
如何从本地模式下运行的 pyspark 中的 S3 读取数据？

我正在使用 PyCharm 2018 1 使用 Python 3 4 并通过 virtualenv 中的 pip 安装 Spark 2 3 本地主机上没有安装hadoop 因此没有安装Spark 因此没有SPARK HOME HADOOP
createOrReplaceTempView 在 Spark 中如何工作？

我是 Spark 和 Spark SQL 的新手如何createOrReplaceTempView在 Spark 工作如果我们注册一个RDD对象作为表 Spark 会将所有数据保留在内存中吗 createOrReplaceTempVie
如何检查SparkContext是否已停止？

如何检测是否SparkContext http spark apache org docs latest programming guide html已经stopped https spark apache org docs latest

随机推荐

C++ 中的 sizeof 运算符是如何实现的？

有人可以向我指出 sizeof 运算符在 C 中的实现以及有关其实现的一些描述吗 sizeof 是不能重载的运算符之一那么这意味着我们无法更改其默认行为 sizeof不是 C 中的真正运算符它只是插入一个等于参数大小的常量的特殊语法 s
Python 中匹配非空白的正则表达式

我想用研究提取第一组非空白字符我有以下伪脚本来重现我的问题 usr bin env python2 7 import re line STARC 1 1 1 5 ConsCase WARNING Warning m re search S
C++，根据一个向量对另一个向量进行排序[重复]

这个问题在这里已经有答案了我得到的最好的例子是我想根据分数对名称进行排序 vector
R 缺少哪些其他语言有的调试工具？ [关闭]

很难说出这里问的是什么这个问题模棱两可含糊不清不完整过于宽泛或言辞激烈无法以目前的形式合理回答如需帮助澄清此问题以便重新打开访问帮助中心我熟悉browser trace traceback and options error
.NET HttpWebRequest 速度与浏览器

我有一个关于 Net HttpWebRequest 客户端或 WebClient 给出类似结果性能的问题如果我使用 HttpWebRequest 请求 html 页面在本例中为 news bbc co uk 并分析应用程序读取响应的
为什么设置 document.domain 不能允许对父域的 AJAX 请求？

我有两个文件 domain com test2 php div div 和domain com test3 php b var1 var2 b 在本例中 domain com test2 php 输出var1 1 var2 2正如人们所期望
固定长度和类型文字的列表

我正在尝试在 Haskell 中定义固定长度列表的类型当我使用标准方法将自然数编码为一元类型时一切正常然而当我尝试在 GHC 的类型文字上构建所有内容时我遇到了很多问题我第一次尝试所需的列表类型是 data List n Nat
无法捕获 DataIntegrityViolationException

我使用 Spring Boot 2 和 spring boot starter data jpa 以及底层 MariaDB 我有一个带有唯一键用户名的表我想抓住DataIntegrityViolationException如果违反了这
PHP 扩展对 docker-compose 中的 Composer 容器不可用

我使用 docker compose 并在一个项目中拥有多个容器 Nginx PHP Composer 和 nginx 一切都很好除了一件事作曲家不工作我正在尝试安装一个使用 GD 扩展的作曲家项目该项目安装在 PHP 中在 PH
为什么 getOAuthAccessToken 方法总是在 twitter4j api 中引发异常？

我正在按照大量说明从我的应用程序中创建一条简单的推文我已经在 Twitter 上注册了但我就是无法发推文我可以登录但无法更新我的状态这是登录代码 private void twitterLogOn Twitter twitter
Android Studio pm 安装中止

我试图从 android studio 在我的 GS5 上运行一个应用程序我得到了这个 Waiting for device Target device samsung sm g900v f3af9744 Uploading file l
为什么 [].append() 在 python 中不起作用？ [复制]

这个问题在这里已经有答案了为什么这有效 a a append 4 print a 但这并不 print append 4 第二种情况的输出是None 你能解释一下输出吗 The append方法没有返回值它会就地更改列表并且由于您没有
Flutter：使用自定义 ErrorWidget

有没有办法显示在生产中自定义错误小部件而不是死机红屏我不会更改框架代码而且即使我们尝试无错误地编程我们也不能保证它会发生可以通过更改来更改默认错误渲染ErrorWidget builder ErrorWidget builder
Google Analytics 缺少 __utmz cookie

我在我的网站上安装了通用分析并且想要解析 utmzcookie 来获取推荐信息然而我从未见过这个饼干集有什么改变吗有什么原因没有设置吗我确实看到了 ga当我浏览我的网站时我会看到 cookie utmzcookie 在我的浏览
Python找不到本地模块

我有一个这样的文件夹结构 setup py core init py interpreter py tests init py test ingest py 如果我尝试导入core in test ingest py运行它我得到一个Imp
如何判断 onCreate firebase 云函数中的用户是否为“匿名”？

在我的里面onCreatefirebase 处理程序的 auth 云函数我如何判断用户是否是匿名的例如这isAnonymous我在客户端获得的财产onAuthStateChanged or onIdTokenChanged回复 expo
URL 中的 # 是什么意思以及如何使用它？

我经常发现一些如下所示的 URL www something com some page someword 编写此页面后 some page 将打开然后设置滚动以便我可以看到 someword 在我的屏幕开头我不知道是什么意思我一
GetAdornerLayer 神秘地返回 null

我一直在我的应用程序的多个版本中使用相同的代码没有任何问题但我现在神秘地收到NullRerefenceException具有以下内容 this Loaded delegate deleteBrush new DeleteBrushAdo
如何重置SA密码？

到底如何重置sa密码我知道如何进入对话框并重置密码这就是我现在要问的它的运行比单击单击新密码更深入一点完成我不知道SA密码是什么这台机器的先前用户也没有之前的用户说他从未在这台机器上运行过 SQL Express 当我尝试
Spark如何处理对象

为了测试 Spark 中的序列化异常我用两种方式编写了一个任务第一种方式 package examples import org apache spark SparkConf import org apache spark SparkC

Spark如何处理对象

Spark如何处理对象 的相关文章

随机推荐

热门标签

Spark如何处理对象的相关文章