为什么我无法加载 PySpark RandomForestClassifier 模型？

2024-02-08

我无法加载 Spark 保存的 RandomForestClassificationModel。

环境：Apache Spark 2.0.1，在小型（4 台机器）集群上运行的独立模式。没有 HDFS - 一切都保存到本地磁盘。

构建并保存模型：

classifier = RandomForestClassifier(labelCol="label", featuresCol="features", numTrees=50)
model = classifier.fit(train)
result = model.transform(test)
model.write().save("/tmp/models/20161030-RF-topics-cats.model")

后来，在一个单独的程序中：

model = RandomForestClassificationModel.load("/tmp/models/20161029-RF-topics-cats.model")

gives:

Py4JJavaError: An error occurred while calling o81.load.
: org.apache.spark.sql.AnalysisException: Unable to infer schema for ParquetFormat at /tmp/models/20161029-RF-topics-cats.model/treesMetadata. It must be specified manually;
    at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$16.apply(DataSource.scala:411)
    at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$16.apply(DataSource.scala:411)
    at scala.Option.getOrElse(Option.scala:121)
    at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:410)
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:149)
    at org.apache.spark.sql.DataFrameReader.parquet(DataFrameReader.scala:439)
    at org.apache.spark.sql.DataFrameReader.parquet(DataFrameReader.scala:423)
    at org.apache.spark.ml.tree.EnsembleModelReadWrite$.loadImpl(treeModels.scala:441)
    at org.apache.spark.ml.classification.RandomForestClassificationModel$RandomForestClassificationModelReader.load(RandomForestClassifier.scala:301

我注意到，当我使用朴素贝叶斯分类器时，相同的代码可以工作。

将模型保存到 HDFS，然后从 HDFS 读取模型可能会解决您的问题。

您有 4 个节点，每个节点都有自己的本地磁盘。您正在使用 model.write().save("/temp/xxx")

后来，在一个单独的程序中：您正在使用 load("/temp/xxx")

由于有 4 个节点，有 4 个不同的本地磁盘，因此我不清楚 write.save() 操作期间到底保存了什么（以及保存到哪个本地磁盘），以及 load() 和 load() 操作期间到底保存了什么来自哪个本地磁盘。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

apachesparkmllib

为什么我无法加载 PySpark RandomForestClassifier 模型？的相关文章

Spark Workers 上缺少 SLF4J 记录器

我正在尝试通过以下方式运行工作spark submit 此作业导致的错误是 Exception in thread main java lang NoClassDefFoundError org slf4j Logger at java l
Scala Sparkcollect_list() 与 array()

有什么区别collect list and array 在 Spark 中使用 scala 我看到到处都有使用情况但我不清楚用例来确定差异尽管两者array https spark apache org docs latest api
在 Spark 中将流式 XML 转换为 JSON

我是 Spark 新手正在开发一个简单的应用程序将从 Kafka 接收的 XML 流转换为 JSON 格式 Using 火花2 4 5 斯卡拉 2 11 12 在我的用例中 kafka 流采用 xml 格式以下是我尝试过的代码 val
如何从本地模式下运行的 pyspark 中的 S3 读取数据？

我正在使用 PyCharm 2018 1 使用 Python 3 4 并通过 virtualenv 中的 pip 安装 Spark 2 3 本地主机上没有安装hadoop 因此没有安装Spark 因此没有SPARK HOME HADOOP
如何将多个 parquet 文件附加到 Pandas 中的一个数据帧

我正在使用 Spark 和 Pandas 解压缩 snappy parquet 文件我有 180 个文件我的 Jupyter 笔记本中有 7GB 数据根据我的理解我需要创建一个循环来获取所有文件用 Spark 解压缩它们并附加到
从 pySpark 中的字典构建一行

我正在尝试在 pySpark 1 6 1 中动态构建一行然后将其构建到数据帧中总体思路是扩展结果describe例如包括偏斜和峰度这是我认为应该起作用的 from pyspark sql import Row row dict C0
当我们在 Apache Spark 中使用时，无法找到 Set([TOPIC NAME,0])) 的领导者

我们使用 Apache Spark 1 5 1 和 kafka 2 10 0 8 2 1 以及 Kafka DirectStream API 通过 Spark 从 Kafka 获取数据我们使用以下设置在 Kafka 中创建了主题复制因子
Apache Spark 何时发生混洗？

我正在优化 Spark 中的参数并且想确切地了解 Spark 是如何对数据进行洗牌的准确地说我有一个简单的字数统计程序并且想知道spark shuffle file buffer kb如何影响运行时间现在当我将此参数设置得非常高
PySpark - RDD 到 JSON

我有一个 Hive 查询返回以下格式的数据 ip category score 1 2 3 4 X 5 10 10 10 10 A 2 1 2 3 4 Y 2 12 12 12 12 G 10 1 2 3 4 Z 9 10 10 10 10
将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
使用 pyspark awsglue 时显示 DataFrame

如何使用 awsglue 的 job etl 显示 DataFrame 我尝试了下面的代码但没有显示任何内容 df show code datasource0 glueContext create dynamic frame from c
来自 Janino 和 Commons-Compiler 的 Spark java.lang.NoSuchMethodError

我正在构建一个使用 Spark 进行基于随机森林分类的应用程序当尝试运行该程序时我从该行收到异常 StringIndexerModel labelIndexer new StringIndexer setInputCol label
创建涉及 ArrayType 的 Pyspark 架构

我正在尝试为我的新 DataFrame 创建一个架构并尝试了括号和关键字的各种组合但无法弄清楚如何完成这项工作我目前的尝试 from pyspark sql types import schema StructType StructF
为什么 Spark 退出并显示 exitCode: 16？

我将 Spark 2 0 0 与 Hadoop 2 7 一起使用并使用纱线集群模式每次我都会收到以下错误 17 01 04 11 18 04 INFO spark SparkContext Successfully stopped S
pyspark。数据框中的 zip 数组

我有以下 PySpark DataFrame id data 1 10 11 12 2 20 21 22 3 30 31 32 最后我想要以下 DataFrame id data
Spark Dataframe 中的分析

在这个问题中我们有两个经理 M1 和 M2 在经理 M1 的团队中有两个员工 e1 和 e2 在 M2 的团队中有两个员工 e4 和 e5 以下是经理和员工的层次结构 1 M1 a e1 b e2 2 M2 a e4 b e5 我们有以下
Spark Python：标准缩放器错误“不支持... SparseVector”

我又撞到了堵墙我是一个新手所以我不得不再次依赖你强大的知识我从一个数据集开始如下所示 user account id user lifetime user no outgoing activity in days user acco
我可以使用 dask 创建 multivariate_normal 矩阵吗？

有点相关这个帖子 https stackoverflow com questions 52337612 random multivariate normal on a dask array 我正在尝试复制multivariate norma
在 pyspark 中包装 java 函数

我正在尝试创建一个用户定义的聚合函数我可以从 python 调用它我试图遵循答案this https stackoverflow com questions 33233737 spark how to map python with s
Spark toLocalIterator 和迭代器方法之间的区别

在编写 Spark 程序时我遇到了这个toLocalIterator 方法之前我只使用iterator method 如果有人曾经使用过这种方法请点亮我在使用时遇到foreach and foreachPartitionSpark程序

随机推荐

在多个列表段落上循环 Word 宏会导致内存问题

我遇到了一个相当简单的 Microsoft Word vba 宏问题该宏旨在解决当我们从 Word 文档创建 PDF 版本时我们在列表缩进中遇到的一些问题该宏基本上循环遍历文档中的每个列表并且对于与列表关联的每个列表段落它设置列表模
页面必须填满整个ViewPager2（使用match_parent）

我有一个项目布局其中显示图像产品名称和产品图像我必须使用约束布局以 1 1 5 比例显示图像但是当我加载小图像时下面的文本不显示下面是我的项目 XML 代码
将图像拖放到网页中并使用 HTML 文件 API 自动调整图像大小

我想创建网页允许用户将图像拖放到页面各个部分的框中以便他们可以打印带有图像的页面我希望图像在放入框中时自动调整大小我结合了一些代码http html5demos com file api http html5demos com fi
Git Bash for Windows 显示/期望带有正斜杠的文件路径，没有驱动器冒号

我安装了 Git 扩展它会自动下载并安装适用于 Windows 的 Git 当我使用 Git Bash 时它显示文件路径为 c whatever folder 而不是 C whatever folder 如果我粘贴来自 Windows
如何将 rst.FindFirst 与 rst.NoMatch 一起使用？

我的代码除了这一行之外都有效 FindFirst DONOR CONTACT ID strTemp2 我希望我的代码检查是否存在一条记录其中存在特定的 DONOR CONTACT ID 因为存在多个具有相同 DONOR CONTACT I
性能问题：ON DUPLICATE KEY UPDATE 与 UPDATE (MySQL)

INSERT INTO ON DUPLICATE KEY UPDATE 和 UPDATE 之间有性能差异吗如果我知道可以更新的值我应该使用更新还是它并不重要它们是有区别的 The INSERT查询必须检查每一列的约束以查看添加该行是
将字符串转换为json字符串并在R中解析

我有一个数据其中一列为 json 字符串 reservation reasons 1592 name gt jorge value gt MX name gt Billing phone number value gt 1123 name
d3.js 右对齐嵌套条形图

我正在与这个 d3 js 示例 http bl ocks org mbostock 1283663我希望将图表的整个方向更改为从右到左我能够反转 x 轴刻度 var x d3 scale linear range width 0 以及 y
在 Python 中打印不带换行符（但带空格）的列表

我正在尝试使用打印不带换行符的列表的值sys stdout write 它工作得很好但唯一的问题是我想将每个值与另一个值隔开换句话说而不是123 我想1 2 3 我在网站上寻找解决方案但没有找到涉及列表的内容当我添加 to sys
multiDexEnabled 不起作用

我有一个相当大的android项目该项目仍然可以编译但是当我尝试编译测试时出现错误 Execution failed for task app dexDebugTest trouble writing output Too many m
Ruby 中的“if (a == b || c == b)”语句可以做得更短吗

我有一段 Ruby 代码如下所示 def check if a b c b execute some code b the same variable end end 这可以写成这样 def check if a c b this doe
预期的 ';'在声明末尾 /vector /c++

当我尝试初始化一个vector of ints 我总是收到此错误预期的在声明结束时我使用了 C Primer 中的原始代码 vector
.NET：阻止 XmlDocument.LoadXml 检索 DTD

我有以下代码 C 它花费太长时间并且抛出异常 new XmlDocument LoadXml
Android 捕获视频 mediaRecorder.start() 失败 -19

我需要录制视频并保存但出现错误start 媒体记录器方法失败 19 这个错误应该是什么文档中没有对此进行评论第二天我正在与这个错误作斗争我尝试了多个代码谷歌教程英特尔示例我在网络上找到了所有代码但无法使其中任何一个工作请
SQL，什么聚合逻辑会产生不同的结果？

SQL1 返回具有聚合名称的行而 SQL2 返回非聚合名称问题是执行这两个SQL时聚合逻辑有什么区别谢谢 SQL1 SELECT name CASE WHEN COUNT CASE WHEN course SQL THEN 1 END
从 C 中的命令行参数打开文件

我希望我的 C 程序要求用户键入他们想要打开的文件的名称并将该文件的内容打印到屏幕上我正在学习 C 教程到目前为止有以下代码但是当我执行它时它实际上不允许我输入文件名我得到按任意按钮继续我正在使用代码块我在这里做错了什么
Liferay：如何保存到portlet用户信息？

我在欢迎页面上有一个天气 portlet 用户可以配置该 portlet 并选择他的城市是否可以将用户信息存储在 portlet 首选项中以便每个用户都有一个存储的城市或者存储用户 portlet 信息而无需开发自己的持久服务的标
将比视口更宽的 DIV 居中[重复]

这个问题在这里已经有答案了我正在创建一个页面来显示祖先的家谱该页面是动态创建的因此我无法知道会有多少代或内容是什么然而这里显示了一个相当简单的示例 http myrootsmap com so tree2 php http myr
将 TF.exe 与 Team Foundation Service 结合使用？

我们正在将构建从 Team Build Team Foundation Service 转移到使用 Jenkins CI 进行构建的本地构建机器但是我们仍然希望使用云进行源代码控制所以现在我们需要访问云TFS来获取最新版本 Jenki
为什么我无法加载 PySpark RandomForestClassifier 模型？

我无法加载 Spark 保存的 RandomForestClassificationModel 环境 Apache Spark 2 0 1 在小型 4 台机器集群上运行的独立模式没有 HDFS 一切都保存到本地磁盘构建并保存模型 cl

为什么我无法加载 PySpark RandomForestClassifier 模型？

为什么我无法加载 PySpark RandomForestClassifier 模型？ 的相关文章

随机推荐

热门标签

为什么我无法加载 PySpark RandomForestClassifier 模型？的相关文章