Pyspark ML - 如何保存管道和 RandomForestClassificationModel

2023-12-31

我无法保存使用 python/spark 的 ml 包生成的随机森林模型。

>>> rf = RandomForestClassifier(labelCol="label", featuresCol="features")
>>> pipeline = Pipeline(stages=early_stages + [rf])
>>> model = pipeline.fit(trainingData)
>>> model.save("fittedpipeline")

回溯（最近一次调用）：文件“”，第 1 行，位于 AttributeError：“PipelineModel”对象没有属性 '节省'

>>> rfModel = model.stages[8]
>>> print(rfModel)

RandomForestClassificationModel (uid=rfc_46c07f6d7ac8) 有 20 棵树

>> rfModel.save("rfmodel")

回溯（最近一次调用）：文件“”，第 1 行，位于属性错误：“RandomForestClassificationModel”对象有没有属性“保存”**

还尝试通过传递“sc”作为保存方法的第一个参数。

您的代码的主要问题是您使用的是 2.0.0 之前的 Apache Spark 版本。因此，save尚不可用Pipeline API.

这是根据官方文档合成的完整示例。让我们首先创建我们的管道：

from pyspark.ml import Pipeline
from pyspark.ml.classification import RandomForestClassifier
from pyspark.ml.feature import IndexToString, StringIndexer, VectorIndexer

# Load and parse the data file, converting it to a DataFrame.
data = spark.read.format("libsvm").load("data/mllib/sample_libsvm_data.txt")

# Index labels, adding metadata to the label column.
# Fit on whole dataset to include all labels in index.
label_indexer = StringIndexer(inputCol="label", outputCol="indexedLabel")
labels = label_indexer.fit(data).labels

# Automatically identify categorical features, and index them.
# Set maxCategories so features with > 4 distinct values are treated as continuous.
feature_indexer = VectorIndexer(inputCol="features", outputCol="indexedFeatures", maxCategories=4)

early_stages = [label_indexer, feature_indexer]

# Split the data into training and test sets (30% held out for testing)
(train, test) = data.randomSplit([0.7, 0.3])

# Train a RandomForest model.
rf = RandomForestClassifier(labelCol="indexedLabel", featuresCol="indexedFeatures", numTrees=10)

# Convert indexed labels back to original labels.
label_converter = IndexToString(inputCol="prediction", outputCol="predictedLabel", labels=labels)

# Chain indexers and forest in a Pipeline
pipeline = Pipeline(stages=early_stages + [rf, label_converter])

# Train model. This also runs the indexers.
model = pipeline.fit(train)

您现在可以保存管道：

>>> model.save("/tmp/rf")
SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".
SLF4J: Defaulting to no-operation (NOP) logger implementation
SLF4J: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further details.

您还可以保存 RF 模型：

>>> rf_model = model.stages[2]
>>> print(rf_model)
RandomForestClassificationModel (uid=rfc_b368678f4122) with 10 trees
>>> rf_model.save("/tmp/rf_2")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

apachesparkmllib

Pyspark ML - 如何保存管道和 RandomForestClassificationModel 的相关文章

如何设置SPARK_HOME变量？

按照链接中的气泡水步骤进行操作http h2o release s3 amazonaws com sparkling water rel 2 2 0 index html http h2o release s3 amazonaws com
Scala Spark 包含与不包含

我可以使用 contains 过滤 RDD 中的元组如下所示但是使用不包含来过滤 RDD 又如何呢 val rdd2 rdd1 filter x gt x 1 contains 我找不到这个的语法假设这是可能的并且我没有使用Dat
错误：无法找到或加载主类 org.apache.spark.launcher.Main [重复]

这个问题在这里已经有答案了如果有人能帮我解决以下路径问题我将不胜感激我非常怀疑这与缺少路径设置有关但不知道如何修复它 rxie ubuntu Downloads spark echo PATH usr bin java usr lo
Spark 中的 StandardScaler 未按预期工作

知道为什么 Spark 会这样做吗StandardScaler 根据定义StandardScaler StandardScaler 将一组特征标准化为均值为零标准差为 1 withStd 标志将数据缩放为单位标准差而标志 withMe
Spark 2.2 无法将 df 写入 parquet

我正在构建一个聚类算法我需要存储模型以供将来加载我有一个具有以下架构的数据框 val schema new StructType add StructField uniqueId LongType add StructField tim
Spark 在 WholeTextFiles 上创建的分区少于 minPartitions 参数

我有一个文件夹里面有 14 个文件我在一个集群上使用 10 个执行器运行 Spark Submit 该集群的资源管理器为 YARN 我创建了我的第一个 RDD 如下所示 JavaPairRDD
如何在不从 DataFrame 转换并访问它的情况下向数据集添加列？

我知道使用以下方法将新列添加到 Spark 数据集的方法 withColumn and a UDF 它返回一个 DataFrame 我还知道我们可以将生成的 DataFrame 转换为 DataSet 我的问题是如果我们仍然遵循传统的
一旦自定义 PySpark Transformer 成为安装的 ML Pipeline 中的一个阶段，如何为它设置参数？

我编写了一个自定义 ML PipelineEstimator and Transformer对于我自己的 Python 算法遵循所示的模式here https stackoverflow com a 37279526 1843329 然而
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
Spark Scala Cassandra 连接器删除所有行失败，并出现 IllegalArgumentException 要求失败异常

创建表 CREATE TABLE test word groups group text word text count int PRIMARY KEY group word 插入数据 INSERT INTO test word group
Spark 请求最大计数

我是 Spark 的初学者我尝试请求允许我检索最常访问的网页我的要求如下 mostPopularWebPageDF logDF groupBy webPage agg functions count webPage alias cntW
Spark：导入UTF-8编码的文本文件

我正在尝试处理一个包含很多特殊字符的文件例如德语变音符号 o 等如下所示 sc hadoopConfiguration set textinputformat record delimiter r n r n sc textFile f
Spark-1.6.1 上的 DMLC 的 XGBoost-4j

我正在尝试在 Spark 1 6 1 上使用 DMLC 的 XGBoost 实现我能够使用 XGBoost 训练我的数据但在预测方面面临困难我实际上想以在 Apache Spark mllib 库中完成的方式进行预测这有助于计算训练
pyspark通过特定键加入rdd

我有两个 rdd 需要将它们连接在一起它们看起来像下面这样 RDD1 u 2 u 100 2 u 1 u 300 1 u 1 u 200 1 RDD2 u 1 u 2 u 1 u 3 我想要的输出是 u 1 u 2 u 100 2 所以我
如何在不使用 .toPandas() hack 的情况下提取 PySpark 中对长度敏感的特征？

我是 PySpark 的新手我想翻译特征提取 FE 将 pythonic 部分脚本放入 PySpark 中首先我有所谓的 Spark 数据框sdf包括 2 列 A 和 B 下面是示例 data A B https example1 o
Spark 对 RDD 中按值排序

我有一个火花对 RDD 键计数如下 Array String Int Array a 1 b 2 c 1 d 3 使用spark scala API如何获取按值排序的新RDD对所需结果 Array d 3 b 2 a 1 c 1 这应
为什么 Spark-ml ALS 模型返回 NaN 和负数预测？

实际上我正在尝试使用ALS from spark ml具有隐性评级我注意到我训练的模型给出的一些预测是negative or NaN 为什么 Apache Spark 提供了一个强制选项非负约束关于肌萎缩侧索硬化症因此要删除这些负值
pyspark.sql.utils.AnalysisException：u'Path不存在

我正在使用标准 hdfs 与 amazon emr 运行 Spark 作业而不是 S3 来存储我的文件我在 hdfs user hive warehouse 有一个配置单元表但当我的 Spark 作业运行时找不到它我配置了 Spar
创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp
Spark Shuffle 写入超慢

为什么对于 1 6MB shuffle 写入和 2 4MB 输入 spark shuffle 阶段如此缓慢为什么 shuffle 写入仅发生在一个执行器上我正在运行一个 3 节点集群每个集群有 8 个核心火花用户界面 Code Ja

随机推荐

如何在页面加载时激活 JS 数据过滤器？

我正在这个网站上工作http fireworkslove com http fireworkslove com 我制作了具有不同类别推荐新闻等的导航我想在页面打开时显示推荐类别 data filter recommended 现
Erlang - 未定义的函数

我正在尝试执行一个非常简单的 Erlang 代码但它不起作用我尝试过毫无问题地执行一些 hello worlds 但不是我自己的代码 module server Exported Functions export start 0 pro
将组件的首选尺寸保留在 BorderLayout 的中心

我有一个使用 BorderLayout 的中型 UI 中心是一个选项卡式窗格包含具有各种布局的各种面板等我希望该边框布局中心的面板根据以下尺寸调整大小窗口但我不希望面板内的组件拉伸标签组合框文本字段按钮我希望它们保持首选大
什么时候可以使用 Java 中的浮点类型进行货币计算？

我了解到我不能使用浮点类型 float double在Java中进行金钱计算以及当我需要精确结果时的任何其他计算我必须使用decimal数字类型 BigDecimal在 Java 中代替现在我想知道当我can使用浮点类型他们提供
使用 Convert.ToDouble 时出现异常

我正在制作一个库存程序要求用户输入他们想要购买的不同数量的不同物品我使用此行将项目数转换为双精度数以便我可以计算但出现错误指出我有未处理的格式异常输入字符串的格式不正确我有什么遗漏的吗 itembatteries Conver
Python Pandas 使用新的 x 轴进行插值

我想对以下结构的 Pandas 系列进行插值 X 22 88 3 047 45 75 3 215 68 63 3 328 91 50 3 423 114 38 3 516 137 25 3 578 163 40 3 676 196 08 3
Jquery - 模拟点击按钮不触发功能

Ok 所以我一直在使用 firebug 以及我编写的一些扩展来在我经常使用的网站上创建快捷方式有件事我不明白为什么它不起作用或为什么它不可能示例代码
如何删除 mouseleave 上的下一个追加？

我的代码有问题当我mouseenter一个元素一个工具栏被附加到这个元素上但是当我mouseleave从工具栏到元素工具栏会再次附加我怎样才能防止这种重新附加 el on mouseenter function e var too
Android Studio 创建密钥库错误

我想通过 Android Studio 生成签名的 APK 这是我的第一个应用程序所以我需要创建新的密钥库但是当我填写文本框并单击确定时出现错误消息如下密钥库已导出但显示错误让我不敢使用它创建密钥时出现错误选择 JAV
R - 箱线图中的排序

我正在尝试制作一系列箱形图R由 2 个因素分组我已经成功地绘制了图但我无法将盒子按正确的方向排序我正在使用的数据场如下所示 Nitrogen Species Treatment 2 G L 3 R M 4 G H 4 B L 2 B
更改/设置 gcloud 操作系统登录用户名？

这么简单的问题我正在向我的计算引擎添加一个新帐户我添加了用户和角色以及所有有趣的东西现在我想添加 ssh 密钥我通过运行来执行此操作gcloud compute os login ssh keys add key file 这工作正
如何让 Jest 静默测试抛出的错误

我正在编写一个测试来断言如果提供了一个 prop 而没有提供另一个 prop 则组件会抛出错误测试本身通过了但控制台仍然抱怨未捕获的错误并打印整个堆栈跟踪有没有办法让 Jest 停止打印此信息因为它会污染测试运行程序并使其看起来像是
如何使 Maven Javadoc 插件适用于任何 Java 版本

我正在使用 Maven Javadoc 插件如下所示
Java 中的无效字符常量？

这是我的代码 import java util Scanner import javax swing JOptionPane import java text DecimalFormat Medium Speed Air 1100 feet
使用 TypeScript 将 JSON（来自 Sentry）转换为 HTML

我想学习 TypeScript 我有一个由哨兵方法返回的 JSON 字典event from exception Python 我想将其格式化为带有可扩展局部变量以及前后上下文的漂亮 HTML 结果应该大致如下所示下面是一个 json 示
rbind 数据框，重复的行名问题

虽然在一个文件中允许重复的行和列名称matrix 他们不允许在data frame 尝试去rbind 一些具有共同行名称的数据框突出了这个问题考虑下面的两个数据框 foo data frame a 1 3 b 5 7 rownames
从 C 访问网络数据包中未对齐数据的安全、有效的方法

我正在用 C 为 ARM9 处理器上的 Linux 编写一个程序该程序用于访问网络数据包其中包括一系列标记数据例如
PowerShell 中的子字符串截断字符串长度

是否可以在 PowerShell 中截断字符串使用SubString 达到给定的最大字符数 even如果原始字符串已经存在shorter 例如 foreach str in hello good morning hi str subStr
获取 ASP.NET MVC5 WebAPI 令牌有时会失败

获取 ASP NET MVC5 WebAPI 令牌有时会失败 Code string GetAPITokenSync string username string password string apiBaseUri var token s
Pyspark ML - 如何保存管道和 RandomForestClassificationModel

我无法保存使用 python spark 的 ml 包生成的随机森林模型 gt gt gt rf RandomForestClassifier labelCol label featuresCol features gt gt gt pip

Pyspark ML - 如何保存管道和 RandomForestClassificationModel

Pyspark ML - 如何保存管道和 RandomForestClassificationModel 的相关文章

随机推荐

热门标签