为什么我无法加载 PySpark RandomForestClassifier 模型?

2024-02-08

我无法加载 Spark 保存的 RandomForestClassificationModel。

环境:Apache Spark 2.0.1,在小型(4 台机器)集群上运行的独立模式。没有 HDFS - 一切都保存到本地磁盘。

构建并保存模型:

classifier = RandomForestClassifier(labelCol="label", featuresCol="features", numTrees=50)
model = classifier.fit(train)
result = model.transform(test)
model.write().save("/tmp/models/20161030-RF-topics-cats.model")

后来,在一个单独的程序中:

model = RandomForestClassificationModel.load("/tmp/models/20161029-RF-topics-cats.model")

gives:

Py4JJavaError: An error occurred while calling o81.load.
: org.apache.spark.sql.AnalysisException: Unable to infer schema for ParquetFormat at /tmp/models/20161029-RF-topics-cats.model/treesMetadata. It must be specified manually;
    at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$16.apply(DataSource.scala:411)
    at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$16.apply(DataSource.scala:411)
    at scala.Option.getOrElse(Option.scala:121)
    at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:410)
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:149)
    at org.apache.spark.sql.DataFrameReader.parquet(DataFrameReader.scala:439)
    at org.apache.spark.sql.DataFrameReader.parquet(DataFrameReader.scala:423)
    at org.apache.spark.ml.tree.EnsembleModelReadWrite$.loadImpl(treeModels.scala:441)
    at org.apache.spark.ml.classification.RandomForestClassificationModel$RandomForestClassificationModelReader.load(RandomForestClassifier.scala:301

我注意到,当我使用朴素贝叶斯分类器时,相同的代码可以工作。


将模型保存到 HDFS,然后从 HDFS 读取模型可能会解决您的问题。

您有 4 个节点,每个节点都有自己的本地磁盘。 您正在使用 model.write().save("/temp/xxx")

后来,在一个单独的程序中: 您正在使用 load("/temp/xxx")

由于有 4 个节点,有 4 个不同的本地磁盘,因此我不清楚 write.save() 操作期间到底保存了什么(以及保存到哪个本地磁盘),以及 load() 和 load() 操作期间到底保存了什么来自哪个本地磁盘。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

为什么我无法加载 PySpark RandomForestClassifier 模型? 的相关文章

随机推荐

  • 在多个列表段落上循环 Word 宏会导致内存问题

    我遇到了一个相当简单的 Microsoft Word vba 宏问题 该宏旨在解决当我们从 Word 文档创建 PDF 版本时我们在列表缩进中遇到的一些问题 该宏基本上循环遍历文档中的每个列表 并且对于与列表关联的每个列表段落 它设置列表模
  • 页面必须填满整个ViewPager2(使用match_parent)

    我有一个项目布局 其中显示图像 产品名称和产品图像 我必须使用约束布局以 1 1 5 比例显示图像 但是当我加载小图像时 下面的文本不显示 下面是我的项目 XML 代码
  • 将图像拖放到网页中并使用 HTML 文件 API 自动调整图像大小

    我想创建网页 允许用户将图像拖放到页面各个部分的框中 以便他们可以打印带有图像的页面 我希望图像在放入框中时自动调整大小 我结合了一些代码http html5demos com file api http html5demos com fi
  • Git Bash for Windows 显示/期望带有正斜杠的文件路径,没有驱动器冒号

    我安装了 Git 扩展 它会自动下载并安装适用于 Windows 的 Git 当我使用 Git Bash 时 它显示文件路径为 c whatever folder 而不是 C whatever folder 如果我粘贴来自 Windows
  • 如何将 rst.FindFirst 与 rst.NoMatch 一起使用?

    我的代码除了这一行之外都有效 FindFirst DONOR CONTACT ID strTemp2 我希望我的代码检查是否存在一条记录 其中存在特定的 DONOR CONTACT ID 因为存在多个具有相同 DONOR CONTACT I
  • 性能问题:ON DUPLICATE KEY UPDATE 与 UPDATE (MySQL)

    INSERT INTO ON DUPLICATE KEY UPDATE 和 UPDATE 之间有性能差异吗 如果我知道可以更新的值 我应该使用更新还是它并不重要 它们是有区别的 The INSERT查询必须检查每一列的约束 以查看添加该行是
  • 将字符串转换为json字符串并在R中解析

    我有一个数据 其中一列为 json 字符串 reservation reasons 1592 name gt jorge value gt MX name gt Billing phone number value gt 1123 name
  • d3.js 右对齐嵌套条形图

    我正在与这个 d3 js 示例 http bl ocks org mbostock 1283663我希望将图表的整个方向更改为从右到左 我能够反转 x 轴刻度 var x d3 scale linear range width 0 以及 y
  • 在 Python 中打印不带换行符(但带空格)的列表

    我正在尝试使用打印不带换行符的列表的值sys stdout write 它工作得很好 但唯一的问题是我想将每个值与另一个值隔开 换句话说 而不是123 我想1 2 3 我在网站上寻找解决方案 但没有找到涉及列表的内容 当我添加 to sys
  • multiDexEnabled 不起作用

    我有一个相当大的android项目 该项目仍然可以编译 但是当我尝试编译测试时出现错误 Execution failed for task app dexDebugTest trouble writing output Too many m
  • Ruby 中的“if (a == b || c == b)”语句可以做得更短吗

    我有一段 Ruby 代码 如下所示 def check if a b c b execute some code b the same variable end end 这可以写成这样 def check if a c b this doe
  • 预期的 ';'在声明末尾 /vector /c++

    当我尝试初始化一个vector of ints 我总是收到此错误 预期的 在声明结束时 我使用了 C Primer 中的原始代码 vector
  • .NET:阻止 XmlDocument.LoadXml 检索 DTD

    我有以下代码 C 它花费太长时间并且抛出异常 new XmlDocument LoadXml
  • Android 捕获视频 mediaRecorder.start() 失败 -19

    我需要录制视频并保存 但出现错误start 媒体记录器方法 失败 19 这个错误应该是什么 文档中没有对此进行评论 第二天我正在与这个错误作斗争 我尝试了多个代码 谷歌教程 英特尔示例 我在网络上找到了所有代码 但无法使其中任何一个工作 请
  • SQL,什么聚合逻辑会产生不同的结果?

    SQL1 返回具有聚合名称的行 而 SQL2 返回非聚合名称 问题是执行这两个SQL时聚合逻辑有什么区别 谢谢 SQL1 SELECT name CASE WHEN COUNT CASE WHEN course SQL THEN 1 END
  • 从 C 中的命令行参数打开文件

    我希望我的 C 程序要求用户键入他们想要打开的文件的名称 并将该文件的内容打印到屏幕上 我正在学习 C 教程 到目前为止有以下代码 但是当我执行它时 它实际上不允许我输入文件名 我得到 按任意按钮继续 我正在使用代码块 我在这里做错了什么
  • Liferay:如何保存到portlet用户信息?

    我在欢迎页面上有一个天气 portlet 用户可以配置该 portlet 并选择他的城市 是否可以将用户信息存储在 portlet 首选项中 以便每个用户都有一个存储的城市 或者存储用户 portlet 信息而无需开发自己的 持久 服务的标
  • 将比视口更宽的 DIV 居中[重复]

    这个问题在这里已经有答案了 我正在创建一个页面来显示祖先的家谱 该页面是动态创建的 因此我无法知道会有多少代或内容是什么 然而 这里显示了一个相当简单的示例 http myrootsmap com so tree2 php http myr
  • 将 TF.exe 与 Team Foundation Service 结合使用?

    我们正在将构建从 Team Build Team Foundation Service 转移到使用 Jenkins CI 进行构建的本地构建机器 但是 我们仍然希望使用云进行源代码控制 所以现在我们需要访问云TFS来获取最新版本 Jenki
  • 为什么我无法加载 PySpark RandomForestClassifier 模型?

    我无法加载 Spark 保存的 RandomForestClassificationModel 环境 Apache Spark 2 0 1 在小型 4 台机器 集群上运行的独立模式 没有 HDFS 一切都保存到本地磁盘 构建并保存模型 cl