在 PySpark Builder 中设置 PySpark 序列化器

2023-12-03

我正在使用 PySpark 2.1.1，并尝试在使用 Spark Submit 时设置序列化器。在我的应用程序中，我按如下方式初始化 SparkSession.builder

print("creating spark session")
spark = SparkSession.builder.master("yarn").appName("AppName").\
config("driver-library-path","libPath")).\
config("driver-java-options",driverJavaOptions).\
enableHiveSupport().\
config("deploy-mode","client").\
config("spark.serializer","PickleSerializer").\
config("spark.executor.instances",100).\
config("spark.executor.memory","4g").\
getOrCreate()

我收到以下错误

java.lang.ClassNotFoundException: PickleSerializer

初始化序列化器的正确方法是什么？我意识到 Pickle 是默认的，但我想知道我是否也使用其他受支持的序列化器之一。

spark.serializer用于设置Java序列化器。对于 Python 序列化器使用serializer的论证SparkContext

from pyspark.serializers import PickleSerializer

conf = SparkConf().set(...)
sc  = SparkContext(conf=conf, serializer=PickleSerializer())

Once SparkContext准备好了你可以用它来初始化SparkSession明确地：

spark = SparkSession(sc)
spark.sparkContext is sc

## True

或隐含地（它将使用SparkContext.getOrCreate):

spark = SparkSession.builder.enableHiveSupport().getOrCreate()
spark.sparkContext is sc

## True

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

sparksubmit

在 PySpark Builder 中设置 PySpark 序列化器的相关文章

如何在后台运行python程序以保持活动窗口相同

我编写了一个程序可以将前景窗口更改为显示器尺寸的 85 并且要成功运行前景窗口需要保持不变我已将 python 脚本 pyw 放入批处理文件运行 pythonw 并在桌面上创建了批处理文件的快捷方式并提供了快速运行它的快捷方式我
如何将一组重叠范围划分为不重叠范围？

假设您有一组范围 0 100 一 0 75 b 95 150 c 120 130 d 显然这些范围在某些点上重叠您将如何剖析这些范围以生成不重叠范围的列表同时保留与其原始范围相关的信息在本例中为范围后面的字母例如运行算法后的上述
如何阻止 Django 中发生级联删除？

我的 Django 应用程序中有三个模型类 class Folder models Model folder models ForeignKey Folder null True blank True related name folder
通过 SSH 的 Pygame 不注册击键（Raspberry Pi 3）

所以我得到了 raspi 3 和简单的 8x8 LED 矩阵在玩了一些之后我决定用 pygame 的事件制作一个简单的蛇游戏显示在该矩阵上我之前没有 pygame 的经验除了 LED 矩阵之外没有连接任何屏幕显示器所以最初的
AES 会话密钥的 RSA 解密失败，并显示“AttributeError：‘bytes’对象没有属性‘n’”

我正在努力在 Python 3 6 上从 PyCryptodome 实现公钥加密当我尝试创建对称加密密钥并加密解密变量时一切正常但是当我引入 RSA 和 PKCS1 OAEP 的那一刻一切就都顺理成章了 session key加密
如何读取一次流数据集并输出到多个接收器？

我有 Spark 结构化流作业它从 S3 读取数据转换数据然后将其存储到一个 S3 接收器和一个 Elasticsearch 接收器目前我正在做readStream一次然后writeStream format start 两次这
PyQt：如何设置组合框项目可检查？

为了将 GUI 小部件数量保持在最低限度我需要找到一种方法来为用户提供下拉菜单项的选择这些菜单项可用于过滤掉 listWidget 项中显示的内容假设 listWidget 列出了 5 个不同类别的项目 Cat A Cat B Cat
使用 PRAW 帮助获取 Reddit 帖子链接到的 URL

我正在尝试使用 Praw 获取 Reddit 提交标题中链接的帖子例如提交 http www reddit com r AdviceAnimals comments 1adu71 apparently people still need
如何使用 tweepy 仅提取主题标签中的文本？

我想为我的情感分析项目提取主题标签但是我得到了一个字典列表其中包含所有主题标签及其在推文中的索引我只想要文字我的代码 data tweepy Cursor api search q since a i until b i items
使用 Python 读取 App Engine 上的文件？

是否可以在 GAE 上打开文件来读取其内容并获取最后修改的标签我收到 IOError Errno 13 文件无法访问我知道我无法删除或更新但我相信阅读应该是可能的有人遇到过类似的问题吗 os stat f r st mtim 您可能
Python Raspberry pi - 如果路径不存在，则跳过循环

我有一个收集温度文本文件中的值的功能它使用部分预定义的路径但是有时如果温度传感器未加载断开连接则路径不存在如果路径不可用如何设置条件或例外来跳过循环我想使用 continue 但我不知道要设置什么条件 def read
带有 UnboundLocalError 的本地和全局引用

我不太明白为什么代码 def f print s s foo f 运行得很好但是 def f print s s bar s foo f 给我 UnboundLocalError 我知道我可以通过声明来解决这个问题s作为函数内的全局变量或简
根据Python中两行之间的匹配创建一个带有[0,1]的新列

我正在尝试将多个列表或数据帧与一个大型基础数据帧进行比较然后对于任何匹配我想附加一个存储 1 匹配或 0 不匹配的列 df pd DataFrame Name A B C D ID 5 6 6 7 8 9 7 list1 5 6 8 9
如何在海龟图形中将多个按键绑定在一起？

我正在尝试制作一个连接点的 python 游戏我希望游戏记录 2 次按钮按下操作示例如果用户按向上和向右箭头键乌龟将向东北方向移动 45 度这是我的代码 import turtle flynn turtle Turtle win
按最小值分组并用另一列中的值填充 NA

我有一个如下所示的示例数据框 df pd DataFrame data uid 1 1 1 2 2 3 pagename home blah blah home blah blah startpage NA NA NA home home
加载 IPython 笔记本时出错

一旦我用 Jupyter 打开笔记本文件它要求我转换文件我就再也无法在标准 IPython 笔记本中打开它了我收到以下错误 Error loading notebook Bad Request 2014 12 21 04 13 03
为什么计算大整数阶乘的“分而治之”方法如此快？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
获取 pandas 中最后一次出现特定值之后的所有行

我的数据框看起来像 ID colA 1 B 1 D 2 B 2 D 2 C 我已返回每组中事件 B 最后一次出现后的所有行输出将是 ID colA 1 D 2 D 2 C 我试过 a df colA str contains B grou
使 flake8 区分未定义函数和星型导入

我有一个相当大的项目我试图在发布之前清理它但是当我运行 flake8 时我得到了大量的 F405
在 Spark MLlib 上使用 Java 中的 Breeze

在尝试从Java使用MLlib时使用微风矩阵运算的正确方法是什么例如scala 中的乘法很简单 matrix vector 相应的功能在Java中是如何表达的有一些方法例如 colon times 可以通过正确的方式调用 breez

随机推荐

Instagram“你不能喜欢这个媒体”400状态代码

我知道 Instagram API 几个小时前关闭了但现在似乎又恢复了问题是当我们向 Instagram 发布数据说喜欢某张特定照片时我们会收到以下错误 meta error type APINotAllowedError code
窗口大小调整时获取文档的大小

当我调整窗口大小时我可以找到窗口的大小就像这样现在我想在调整窗口大小时获取文档大小每次调整窗口大小时如何获取大小窗口 width 返回浏览器视口的宽度文档 width 返回 HTML 文档的宽度
嵌入式 Google 文档 PDF 查看器显示登录页面而不是 PDF

我有一个网页在 iFrame 中嵌入了 Google 文档查看器其中 URL encoded URL 是实际编码的 URL 对于我的许多大多数用户来说 Google PDF 文档查看器会出现并显示引用的 PDF 但我的一些用户却看到带
如何在Python中读取大文件的特定部分

给定一个大文件数百 MB 我如何使用 Python 快速读取文件内特定开始索引和结束索引之间的内容本质上我正在寻找一种更有效的方法 open filename read start index end index You can se
webview 不显示 javascript windows.open()

我有一个WebView我在其中显示我无法控制的网页内容内容显示正常但有生成弹出窗口的链接执行此操作的 javascript 函数如下所示 function getEntry id var win window open Booking
如何获取使用特定共享工作簿的用户列表？

我正在使用共享工作簿有一个代码可以撤消 WB 共享更新工作表中的数据然后再次共享 WB 如果有用户连接到该 WB 他们将失去在 WB 上保存的能力 Excel 会要求他们以不同的名称保存 WB 我的问题是如何获取当前正在使用 WB 的
REST WCF 的 WSDL

我通过在 web config 中指定 WebGET 和 WebHttpBinding 在 C 中创建了 REST WCF 该服务通过 IE 运行良好我的 wsdl 开始如下它在 wsdl 中有肥皂由于这是 REST soap 不应该
输入键保存文本区域值

你好我有 ckeditor 和一个用于使用 ajax 保存 ckeditor 文本的按钮
生成与现有一维数组具有预先指定相关性的 NumPy 一维数组？

我有一个未生成的一维 NumPy 数组现在我们将使用生成的一个 import numpy as np arr1 np random uniform 0 100 1 000 我需要一个关联的数组0 3用它 arr2 print np co
本地控制器与核心控制器

我在本地管理 app code local Mage Adminhtml Block Catalog Product Grid php 中添加新的列和操作但是效果很好本地控制器 app code local Mage Adminhtml
如何向Android中同一应用程序的注册用户发送通知

每当我作为管理员添加某些内容时我想通知已下载应用程序的用户每个下载该应用程序的用户都会注册我有关于用户的所有信息我想在向我的应用程序添加某些内容时发出通知通常我添加的数据将存储在数据库中请告诉我如何实现这一点你应该使用GCM用
PhotoKit 中的删除：可以跳过“最近删除”吗？

从 iOS8 开始当您删除照片时它会进入一个名为最近删除的类似垃圾箱的文件夹中当您通过 Photos app 或通过 PhotoKit API 使用PHAssetChangeRequest deleteAssets 在 Photo
Excel VBA If and then 无法正确评估

我有下面的代码在我看来 IF 语句有问题工作簿中有两个选项卡 ALLDATA 选项卡和 COMP 选项卡该宏应该按日期 ALLDATA 选项卡的 A 列金额 COMP 选项卡上的单独列以第 1 行开头填充收款人列表 ALLDAT
我的 .map 方法在功能上无法正常工作

我不知道为什么 map 方法被完全忽略即使在删除条件后它也不会将小部件添加到我的列表中似乎 groupsToRename map 根本不存在 List
详细说明：方法重载是静态/编译时绑定，但不是多态性。将静态绑定与多态性相关联是否正确？

在提问之前我先阐述一下我的理解和看法除非有向上转换否则仅通过重写无法实现多态性由于它只能在运行时看到人们可能将其命名为运行时多态性我不反对打电话多态性 as 运行时多态性我有异议打电话方法重载 as 编译时多态性 or 多态性
简单的 MVC 路线遇到问题

某些路线遇到一些问题我并不完全理解 MVC 路由系统所以请耐心等待我有两个控制器产品和主页还有更多控制器我希望无需在 url 中键入 Home 即可访问 Home 控制器中的视图本质上我想将 www example com
如何在VSCode中添加自定义代码片段？

是否可以在 Visual Studio Code 中添加自定义代码片段如果是这样怎么办 VSCode是基于Atom的所以应该是可以的 Hit gt shift command p and type snippets Select 首选
如何在 Unity 中全局创建类的别名？

现在我正在使用字符串来枚举角色上的设备槽列表我还使用 string 来枚举该项目可以装备的类类型这使得我获取删除生成等项目的所有方法都涉及两个字符串参数即设备槽和类类型我真正想要的是使用 2 个类这样我就有了 slot
单击通知时获取 PendingIntent 事件

我试图在单击通知时单击事件我拥有的 NotificationManager notificationManager NotificationManager getSystemService Context NOTIFICATION SER
在 PySpark Builder 中设置 PySpark 序列化器

我正在使用 PySpark 2 1 1 并尝试在使用 Spark Submit 时设置序列化器在我的应用程序中我按如下方式初始化 SparkSession builder print creating spark session spa

在 PySpark Builder 中设置 PySpark 序列化器

在 PySpark Builder 中设置 PySpark 序列化器 的相关文章

随机推荐

热门标签

在 PySpark Builder 中设置 PySpark 序列化器的相关文章