Pyspark 出现 TypeError：无法 pickle _abc_data 对象

2024-04-04

我正在尝试使用 pyspark 从 pickled 模型生成预测，我使用以下命令获取模型

model = deserialize_python_object(filename)

with deserialize_python_object(filename)定义为：

import pickle
def deserialize_python_object(filename):
try:
    with open(filename, ‘rb’) as f:
        obj = pickle.load(f)
except:
    obj = None
return obj

错误日志如下所示：

File “/Users/gmg/anaconda3/envs/env/lib**strong text**/python3.7/site-packages/pyspark/sql/udf.py”, line 189, in wrapper
    return self(*args)
  File “/Users/gmg/anaconda3/envs/env/lib/python3.7/site-packages/pyspark/sql/udf.py”, line 167, in __call__
    judf = self._judf
  File “/Users/gmg/anaconda3/envs/env/lib/python3.7/site-packages/pyspark/sql/udf.py”, line 151, in _judf
    self._judf_placeholder = self._create_judf()
  File “/Users/gmg/anaconda3/envs/env/lib/python3.7/site-packages/pyspark/sql/udf.py”, line 160, in _create_judf
    wrapped_func = _wrap_function(sc, self.func, self.returnType)
  File “/Users/gmg/anaconda3/envs/env/lib/python3.7/site-packages/pyspark/sql/udf.py”, line 35, in _wrap_function
    pickled_command, broadcast_vars, env, includes = _prepare_for_python_RDD(sc, command)
  File “/Users/gmg/anaconda3/envs/env/lib/python3.7/site-packages/pyspark/rdd.py”, line 2420, in _prepare_for_python_RDD
    pickled_command = ser.dumps(command)
  File “/Users/gmg/anaconda3/envs/env/lib/python3.7/site-packages/pyspark/serializers.py”, line 600, in dumps
    raise pickle.PicklingError(msg)
_pickle.PicklingError: Could not serialize object: TypeError: can’t pickle _abc_data objects

看来您遇到了与此问题相同的问题：https://github.com/cloudpipe/cloudpickle/issues/180 https://github.com/cloudpipe/cloudpickle/issues/180

发生的情况是 pyspark 的 cloudpickle 库对于 python 3.7 来说已经过时了，您现在应该使用这个精心制作的补丁来解决问题直到 pyspark 更新该模块 https://github.com/apache/spark/pull/26009.

尝试使用此解决方法：

安装cloudpicklepip install cloudpickle
将其添加到您的代码中：

import cloudpickle
import pyspark.serializers
pyspark.serializers.cloudpickle = cloudpickle

猴子补丁信用https://github.com/cloudpipe/cloudpickle/issues/305 https://github.com/cloudpipe/cloudpickle/issues/305

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

PySpark

Pyspark 出现 TypeError：无法 pickle _abc_data 对象的相关文章

相当于 java PBKDF2WithHmacSHA1 的 Python

我的任务是构建一个 API 的使用者该 API 需要带有 UNIX 时间种子值的加密令牌我看到的示例是使用我不熟悉的 Java 实现的在阅读文档和其他堆栈文章后一直无法找到解决方案使用javax crypto SecretKey j
Python BS4 Scraper 仅返回每个页面的前 9 个结果

我让这段代码按预期工作只是它并没有完全按预期工作一切似乎都很顺利直到我检查了我的 csv 输出文件并注意到我每页只得到前 9 个结果每页应该有 40 个结果因此我得到的结果少于预期的 25 有什么想法吗 import reques
为什么 python 允许没有“pass”语句的空函数（带有文档字符串）主体？

class SomeThing object Represents something def method one self This is the first method will do something useful one da
防止脚本目录被添加到Python 3中的sys.path

有没有办法阻止脚本的目录被添加到python3中的sys path 由于导入在 python 中是相对的因此我遇到了导入冲突我正在处理的一个遗留项目有一个名为logger py在与内置冲突的脚本的根目录中logger 我使用的自定义构建
如何阻止 Django 中发生级联删除？

我的 Django 应用程序中有三个模型类 class Folder models Model folder models ForeignKey Folder null True blank True related name folder
AttributeError：模块“pandas”没有属性“read_csv”Python3.5

我已经成功使用pandas read csv很久以来当我尝试读取 csv 文件时突然开始出现错误 df pd read csv file csv encoding utf 8 错误是 AttributeError module pand
通过 SSH 的 Pygame 不注册击键（Raspberry Pi 3）

所以我得到了 raspi 3 和简单的 8x8 LED 矩阵在玩了一些之后我决定用 pygame 的事件制作一个简单的蛇游戏显示在该矩阵上我之前没有 pygame 的经验除了 LED 矩阵之外没有连接任何屏幕显示器所以最初的
具有相同内容的拆分列表

例如我有以下列表 contents i have two pens prices 5 made in and 我想将它们分开使其具有与以下内容相同的内容 array 0 i have two pens array 1 prices 5 a
QTextEdit.find() 在 Python 中不起作用

演示问题的简单代码 usr bin env python import sys from PyQt4 QtCore import QObject SIGNAL from PyQt4 QtGui import QApplication QTe
Twython - 如何使用媒体 url 更新状态

在我的应用程序中我允许用户在 Twitter 上发帖现在我想让他们通过媒体更新他们的状态 In twython py我看到一个方法update status with media从文件系统读取图像并上传到 Twitter 我的图像不在文
如何使用 tweepy 仅提取主题标签中的文本？

我想为我的情感分析项目提取主题标签但是我得到了一个字典列表其中包含所有主题标签及其在推文中的索引我只想要文字我的代码 data tweepy Cursor api search q since a i until b i items
Scrapy 仅抓取每个页面的第一个结果

我目前正在尝试运行以下代码但它只保留每个页面的第一个结果知道可能是什么问题吗 from scrapy contrib spiders import CrawlSpider Rule from scrapy contrib linkext
使用 scikit 包在 Python 中绘制集群区域的边界

这是我处理 3 个属性 x y 值中的数据聚类的简单示例每个样本代表其位置 x y 及其所属变量我的代码发布在这里 x np arange 100 200 1 y np arange 100 200 1 value np random
在 LINUX 上使用 Python 连接到 OLAP 多维数据集

我知道如何在 Windows 上使用 Python 连接到 MS OLAP 多维数据集嗯至少有一种方法通常我使用 win32py 包并调用 COM 对象进行连接 import win32com client connection wi
构建一个简单的解析器，能够使用 PyParse 解析不同的日期格式

我正在构建一个简单的解析器它接受如下查询显示 fizi 从 2010 年 1 月 1 日到 2006 年 2 月 11 日的提交到目前为止我有 class QueryParser object def parser self stmn
在 Python 中进行模糊键查找的最佳方法？

我遇到一个问题我需要在哈希映射中进行模糊查找即返回与最接近查询的键相对应的值在我的例子中是通过 Levenshtein 距离测量的我目前的方法是子类化dict使用特殊的查找方法计算所有键的编辑距离然后返回得分最低的键的值基本上是
django REST框架多源领域

假设我的 models py 中有这些 models py class Theme models Model An theme is an asset of multiple levels adventure models ForeignK
按最小值分组并用另一列中的值填充 NA

我有一个如下所示的示例数据框 df pd DataFrame data uid 1 1 1 2 2 3 pagename home blah blah home blah blah startpage NA NA NA home home
如何检索 SQLAlchemy 结果集的 python 列表？ [复制]

这个问题在这里已经有答案了我有以下查询来检索单列数据 routes query select schema stop times c route number schema stop times c stop id stop id dis
如何获取DataFrame.pct_change来计算每日价格数据的每月变化？

我知道可以用periods争论但是如何将分布在一个月内例如交易日的每日价格数据进行回报化呢示例数据是 In 1 df AAPL 2009 01 02 16 00 00 90 36 2009 01 05 16 00 00 94 18

随机推荐

VS2010中关闭双击取消停靠

我总是不小心双击 VS2010 中的选项卡并取消停靠它们是否可以关闭此行为注意我正在使用 Productivity Power Tools 中的 Document Well 2010 Plus 以防产生影响在文档选项卡上找到它以及高
重命名实体框架 T4 模板生成的类名称？

我有一个包含大量表的数据库不幸的是这些表的命名没有任何标准约定表名另一个表名还有另一个表名垃圾表我使用实体框架和标准 T4 代码生成模板在 C 中创建 POCO 类是否有我可以遵循的最佳实践让我可以合并自己的约定在 C 应
Excel - VLOOKUP 与 INDEX/MATCH - 哪个更好？

我了解如何使用每种方法 VLOOKUP or HLOOKUP vs INDEX MATCH 我寻找它们之间的差异不是出于个人喜好而是主要在以下方面是否有一种方法可以做到而另一种方法不能做到的事情一般来说哪一种更有效或者取决于具体情
如何导入具有正确类型的 Vue 类组件？

例如如果我有一个单文件 Vue 类组件 MyComponent vue
在 jQuery .serialize() 中包含空值字段

我正在尝试通过 jQuery post 提交表单并通过序列化表单数据 form serialize 不幸的是未选中的字段单选按钮 or 复选框没有被序列化因此已提交有没有办法包含所有字段无论它们是否包含值我想这只会影响这样的字段
使用seaborn和pandas绘图防止重叠条

我正在尝试使用 pandas 绘图来创建带有 seaborn 导入的堆叠水平条形图我想删除条之间的空间但也不让条重叠这是我尝试过的 import pandas as pd import numpy as pd import seabo
HDF5 - 并发、压缩和 I/O 性能 [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我对 HDF5 性能和并发性有以下疑问 HDF5 支持并发写访问吗撇开并发因素不谈 HDF5 的性能如何输入输出性能 does 压缩率影响性能
适用于 IOS/Android 应用程序的谷歌云存储下载

有没有一种方法可以将单个大文件作为多线程下载并在从谷歌云存储下载后合并所有文件是的从 Google Cloud 存储下载对象时您可以指定要检索的字节范围使用 XML API 这将通过 Range 标头进行处理这对于恢复中断的下载
正则表达式如何验证字母之间的下划线

我如何允许任何单词字符和下划线之间应该有一个字母和一个数字示例 ab2 sb s s 但它不应该允许 sdc 或 s2 这是我的代码 a zA Z0 9 6 255 我在 javascript 上使用正则表达式您需要将字符长度检查与模式
MVC 的替代方案 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案模型视图控制器的替代设计方法有哪些 MVC 似乎很流行 SO 是用它构建的我知道很多但它是唯一使用的方法吗关于几种不同的交互
错误：mysqlnd 无法使用旧的不安全身份验证连接到 MySQL 4.1+

我收到以下错误数据库连接失败 mysqlnd 无法使用旧的不安全身份验证连接到 MySQL 4 1 请使用管理工具通过以下命令重置您的密码SET PASSWORD PASSWORD your existing password 这将存储一
C# 项目在 Visual Studio 中重建的原因

我有一个包含约 320 个项目的大型解决方案即使对单个 Web 表单进行很小的更改也会导致测试调试小更改所需的构建时间很长我怀疑构建后文件复制任务会触及文件日期时间并导致多次重建在没有任何强大的命名和版本控制影响的情况下除了
如何定义输出类型取决于输入类型的函数

给定以下课程 case class AddRequest x Int y Int case class AddResponse sum Int case class ToUppercaseRequest str String case cl
在 x86-64 asm 中：如果源操作数是两个立即值，是否有办法优化两个相邻的 32 位存储/写入内存？

有没有一个好的方法来优化这段代码 x86 64 mov dword ptr rsp 0 mov dword ptr rsp 4 0 其中立即值可以是任何值不一定为零但在这种情况下始终是立即常量原双店还慢吗硬件中的写组合和 op 的并
Swift4：“MessageKind”没有成员“url”

下面是 MessageKit 库的示例代码目前其行为是所有图像消息必须在显示给最终用户之前完全加载因此需要花费大量时间等待我想要的是在加载所有消息后加载图像看 1 你会看到 kind 变量将是一个 mediaItem 看2 你会看
ENOENT：没有这样的文件或目录 - pug 中出现错误

当上传到 Heroku 时它会抛出此错误而在本地主机上运行时不会出现错误 Here is browser message 这是我的display pug extends LoginLayout LoginLayout pug block
计算沿 y 轴方向（角度测量）的变化率？

我想计算 iPhone 沿 y 轴方向的变化率 1 最初我需要将参考定义为y轴 2 然后测量相对于定义参考的方向变化率角度测量 CMAttitude 是否提供可靠的角度测量来实现此目的或者我可以使用旋转矩阵或积分陀螺仪数据我实现了这种
如何在顶部显示中线

我有一个正在运行的方便脚本ab然后生成情节然而有一个问题它向我显示了每一点这很好但是我还想看到它们之间的平均线我会在图中展示更多那么有没有办法在上面添加中中游侠呢 Script usr local bin gnuplot s
如何存储位置敏感的哈希值？

我已经有了生成局部敏感哈希的算法但是我应该如何对它们进行存储以利用它们的特性即相似的元素具有接近的哈希具有汉明距离在 matlab 代码中我发现他们只是在要搜索的点的哈希值和数据库中的点的哈希值之间创建一个距离矩阵以简化代码同
Pyspark 出现 TypeError：无法 pickle _abc_data 对象

我正在尝试使用 pyspark 从 pickled 模型生成预测我使用以下命令获取模型 model deserialize python object filename with deserialize python object fil

Pyspark 出现 TypeError：无法 pickle _abc_data 对象

Pyspark 出现 TypeError：无法 pickle _abc_data 对象 的相关文章

随机推荐

热门标签

Pyspark 出现 TypeError：无法 pickle _abc_data 对象的相关文章