pickle.PicklingError：无法腌制未打开读取的文件

2024-06-20

我在 Dataproc 上运行 PySpark 作业时收到此错误。可能是什么原因？

这是错误的堆栈跟踪。

  File "/usr/lib/python2.7/pickle.py", line 331, in save
  self.save_reduce(obj=obj, *rv)
  File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/cloudpickle.py", 
  line 553, in save_reduce
  File "/usr/lib/python2.7/pickle.py", line 286, in save
  f(self, obj) # Call unbound method with explicit self
  File "/usr/lib/python2.7/pickle.py", line 649, in save_dict
  self._batch_setitems(obj.iteritems())
  File "/usr/lib/python2.7/pickle.py", line 681, in _batch_setitems
  save(v)
  File "/usr/lib/python2.7/pickle.py", line 286, in save
  f(self, obj) # Call unbound method with explicit self
  File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/cloudpickle.py", 
  line 582, in save_file
  pickle.PicklingError: Cannot pickle files that are not opened for reading

问题是我在 Map 函数中使用了字典。它失败的原因是：工作节点无法访问我在映射函数中传递的字典。

解决方案：

I broadcasted the dictionary and then used it in function (Map)
sc =  SparkContext()
lookup_bc = sc.broadcast(lookup_dict)

然后在函数中，我通过使用这个来获取价值：

data = lookup_bc.value.get(key)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PySpark

pickle

googleclouddataproc

pickle.PicklingError：无法腌制未打开读取的文件的相关文章

是否可以在 Golang 中 pickle 结构实例

我正在 Golang 中做一些机器学习我现在碰壁了我训练有素的分类器需要将近半分钟的时间来训练并且想要保存分类器的该实例这样我就不必每次都从头开始训练在 Golang 中应该如何去做呢仅供参考我的分类器是一个结构当我用 py
我如何判断我的 Spark 工作是否有进展？

我有一个正在运行的 Spark 作业YARN它似乎只是挂起并且没有进行任何计算这是当我这样做时纱线所说的yarn application status
PySpark 应用程序因 java.lang.OutOfMemoryError: Java 堆空间而失败

我通过 pycharm 和 pyspark shell 分别运行 Spark 我已经堆积了这个错误 java lang OutOfMemoryError Java heap space at org apache spark api pyt
更改spark_temporary目录路径

是否可以更改 temporarySpark在写入之前保存临时文件的目录特别是由于我正在编写表的单个分区因此我希望临时文件夹位于分区文件夹内是否可以由于其实现原因无法使用默认的 FileOutputCommiter FileOut
使用 Spark 版本 2.2 的 row_number() 函数创建 PySpark DataFrame 中每行的行号

我有一个 PySpark DataFrame valuesCol Sweden 31 Norway 62 Iceland 13 Finland 24 Denmark 52 df sqlContext createDataFrame valu
为什么 Databricks Connect Test 无法在 Mac 上运行？

我已经阅读了配置文档databricks connect但运行时仍然出现以下错误databricks connect test 来自终端的错误 java lang NoSuchMethodError org apache spark int
Python 3 如何知道如何 pickle 扩展类型，尤其是 Numpy 数组？

Numpy 数组是扩展类型也称为使用 C API 扩展定义的声明了 Python 解释器范围之外的附加字段例如data属性这是一个Buffer Structure 如 Numpy 中所述阵列接口 https docs scipy o
使用多行选项和编码选项读取 CSV

在 azure Databricks 中当我使用以下命令读取 CSV 文件时multiline true and encoding SJIS 似乎编码选项被忽略了如果我使用multiline选项 Spark 使用默认值encoding那
pyspark 中的 Pandas UDF

我正在尝试在 Spark 数据帧上填充一系列观察结果基本上我有一个日期列表我应该为每个组创建缺失的日期在熊猫中有reindex函数这是 pyspark 中不可用的我尝试实现 pandas UDF pandas udf schema
如何测试pickle是否创建了文件？

有没有办法检查文件是否已创建pickle 我可以捕获抛出的异常pickle load但没有特定的不是 pickle 文件例外 Pickle 文件没有标头因此没有标准方法可以识别它们除非尝试解开文件并查看这样做时是否引发任何异常 Yo
酸洗过程是确定性的吗？

对于特定的输入值 Pickle 是否总是产生相同的输出我想当腌制具有相同内容但不同插入删除历史记录的字典时可能会出现问题我的目标是使用 Pickle 和 SHA1 创建函数参数的签名以实现 memoize 我想当腌制具有相同内容但
如何通过API（最好使用flask-restplus）封送腌制对象？

我有一个完整记录并完成的 API 使用 Flask restplus 在 python 3 5 flask 中构建我想添加一大块功能返回一个腌制对象作为我的响应的一部分欢迎非特定于 Flask restplus 的通用解决方案但由于
将 JSON 文件读入 Spark 时出现 _corrupt_record 错误

我有这个 JSON 文件 a 1 b 2 这是通过Python json dump方法获得的现在我想使用 pyspark 将此文件读入 Spark 中的 DataFrame 根据文档我正在这样做 sc SparkContext sql
如何将 DataFrame 作为输入传递给 Spark UDF？

我有一个数据框我想对每一行应用一个函数该函数依赖于其他数据帧简化的例子我有如下三个数据框 df sc parallelize a b 1 c d 3 toDF feat1 feat2 value df other 1 sc para
带有 pySpark 的 GraphFrames

我想将 GraphFrames 与 PySpark 一起使用目前在 Google Dataproc 上使用 Spark v2 3 3 安装 GraphFrames 后 pip install graphframes 我尝试运行以下代码 f
PySpark 使用统计信息写入 Parquet 二进制列（signed-min-max.enabled）

我找到了这张 apache parquet 票https issues apache org jira browse PARQUET 686 https issues apache org jira browse PARQUET 686被标
pyspark中的函数input()

我的问题是当我输入 p 的值时没有任何反应它不执行请问有办法修复它吗 import sys from pyspark import SparkContext sc SparkContext local simple App p inp
为什么我可以将实例方法传递给 multiprocessing.Process，但不能传递给 multiprocessing.Pool？

我正在尝试编写一个应用程序该应用程序同时应用一个函数multiprocessing Pool 我希望这个函数成为一个实例方法这样我可以在不同的子类中以不同的方式定义它这似乎不可能正如我在其他地方了解到的那样显然绑定方法不能被 pi
如何将参数传递给用户定义函数？

我有一个用户定义的函数 calc udf calculate FloatType param1 A result df withColumn col1 calc col type col pos groupBy pk sum events
泡菜：为什么叫这个名字？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我很惊讶这对我来说很难找到答案这是一个多么奇怪的名字啊泡菜为什么叫泡菜 http en wikipedia org wiki Pickle

随机推荐

如何指定网站的语言？（HTML？）

如何指定页面采用某种语言以便搜索引擎可以理解这是我放在顶部的元标记吗如果是您知道大多数搜索引擎是否使用它来确定语言吗我已将一页英文内容转换为几种不同的语言并希望将该信息包含在 html 中让搜索引擎知道他们正在处理哪种语言快速
会话重新启动后 AVcapture 会话启动缓慢

我有一个主视图控制器它连接到具有 avcapturesession 的第二个视图控制器我第一次从主视图控制器转向捕获会话控制器大约需要 50 毫秒使用仪器检查然后我从捕获会话返回到主视图控制器然后从主控制器返回到 avcap
使用模数按字母顺序对列表进行排序

我在获取元素列表并按字母顺序对它们进行排序方面没有任何问题但我很难理解如何使用模数来做到这一点更新这是按我的方式工作的代码但是我更喜欢下面提供的答案的可重用性因此接受了该答案
如何在 __init__ 中使用await设置类属性

我如何定义一个类await在构造函数或类体中例如我想要的 import asyncio some code class Foo object async def init self settings self settings setti
Supabase 客户端权限被拒绝，模式为 public

每当我尝试使用 supabase supabase js 查询数据库时都会收到错误 error hint null details null code 42501 message permission denied for schema
HSQL - 识别打开连接的数量

我正在使用嵌入式 HSQL 数据库服务器有什么方法可以识别活动打开连接的数量吗 Yes SELECT COUNT FROM INFORMATION SCHEMA SYSTEM SESSIONS
如何使用sunspot_rails gem 搜索相关文章

我有一个迷你博客应用程序我希望用户查看与他们在文章显示页面中阅读的内容相关的文章没有 sunspot rails gem 我会做这样的事情在我的模型中 def self related search query join AND fi
PNG 透明度问题 - 带有黑色阴影的褪色图像 - IE 中的边框

我使用图像旋转器在主页上显示一些图像所有图像均为 PNG 格式问题出在 IE 7 8 中图像旁边有黑色阴影我花了几个小时来解决这个问题但仍然不知道问题出在哪里以及如何删除它没有人有类似的问题和提示吗如何解决尝试使用 img
在 NodeJS 中将子进程的输出保存在父进程的变量中

我想在 NodeJS 中启动一个子进程并将其输出保存到一个变量中以下代码将其提供给标准输出 require child process execSync echo Hello World stdio inherit 我的想法与此代码类似
XAMPP为MariaDB设置root用户密码

如何在 Ubuntu Kubuntu 16 04 上的 XAMPP 中设置 MariaDB 的 root 用户密码默认情况下 root 用户没有设置密码我正在使用 XAMPP 7 1 11 我在 Windows 和 Linux 上都成功
Pig Udf 显示结果

我是 Pig 的新手我用 Java 编写了一个 udf 并且包含了一个 System out println 其中的声明我必须知道在 Pig 中运行时该语句在哪里打印假设你的UDF 扩展了 EvalFunc 您可以使用从返回的 Log
如何在 Spring 中禁用使用 @Component 注释创建 bean？

我的项目中有一些用于重构逻辑的通用接口它看起来大约是这样的 public interface RefactorAwareEntryPoint default boolean doRefactor if EventLogService wa
如何设置Firestore安全规则？ Resource.data：空值错误

我需要一些帮助来使我的 Firestore 安全规则发挥作用这些是我的 Firestore 规则 service cloud firestore match databases database documents match order
从数组中删除空白元素

当我从 ruby on Rails 表单中保存多个选择时它似乎在前面添加了一个空白元素我该如何删除它该字段为 selected player utf8 gt authenticity token gt H8W7qPBezubyeU0a
以编程方式将文本颜色设置为主要 Android 文本视图

如何设置我的文本颜色TextView to android textColorPrimary以编程方式我已经尝试了下面的代码但它将 textColorPrimary 和 textColorPrimary Inverse 的文本颜色始终设
从实时 tcpdump 捕获中提取唯一的 IP

我使用以下命令从实时 tcpdump 捕获中输出 IP sudo tcpdump nn q ip l awk print 3 fflush stdout gt gt ips txt 我得到以下输出 192 168 0 100 50771 1
Rails content_for 和yield 之间有什么区别？

例如 content for stuff vs yield stuff 我知道它们的实现略有不同但是有任何真正的功能差异吗是否有普遍接受的最佳实践 yield是您指定内容区域在布局中的位置的方式你可能有这样的事情 div h1 Thi
AVAssetExportSession 无法导出从 iCloud 下载的视频

我正在尝试创建从用户相册中选择的视频的缩小版本输出的最大尺寸为 720p 因此在检索视频时我使用 mediumQualityFormat as the deliveryMode 如果用户设备中不存在原始视频或其中等质量版本这会导致
为什么 dataclasses.astuple 返回类属性的深层副本？

在下面的代码中astuple函数正在执行数据类的类属性的深层复制为什么它不能产生与函数相同的结果my tuple import copy import dataclasses dataclasses dataclass class Dem
pickle.PicklingError：无法腌制未打开读取的文件

我在 Dataproc 上运行 PySpark 作业时收到此错误可能是什么原因这是错误的堆栈跟踪 File usr lib python2 7 pickle py line 331 in save self save reduce ob

pickle.PicklingError：无法腌制未打开读取的文件

pickle.PicklingError：无法腌制未打开读取的文件 的相关文章

随机推荐

热门标签

pickle.PicklingError：无法腌制未打开读取的文件的相关文章