pyspark 中的交叉验证

2024-03-29

我使用交叉验证来训练线性回归模型，使用以下代码：

from pyspark.ml.evaluation import RegressionEvaluator

lr = LinearRegression(maxIter=maxIteration)
modelEvaluator=RegressionEvaluator()
pipeline = Pipeline(stages=[lr])
paramGrid = ParamGridBuilder().addGrid(lr.regParam, [0.1, 0.01]).addGrid(lr.elasticNetParam, [0, 1]).build()

crossval = CrossValidator(estimator=pipeline,
                          estimatorParamMaps=paramGrid,
                          evaluator=modelEvaluator,
                          numFolds=3)

cvModel = crossval.fit(training)

现在我想绘制 roc 曲线，我使用了以下代码，但出现此错误：

“LinearRegressionTrainingSummary”对象没有属性“areaUnderROC”

trainingSummary = cvModel.bestModel.stages[-1].summary
trainingSummary.roc.show()
print("areaUnderROC: " + str(trainingSummary.areaUnderROC))

我还想在每次迭代时检查客观历史记录，我知道我可以在最后得到它

print("numIterations: %d" % trainingSummary.totalIterations)
print("objectiveHistory: %s" % str(trainingSummary.objectiveHistory))

但我想在每次迭代时得到它，我该怎么做？

此外，我想根据测试数据评估模型，我该怎么做？

prediction = cvModel.transform(test)

我知道对于训练数据集我可以写：

print("RMSE: %f" % trainingSummary.rootMeanSquaredError)
print("r2: %f" % trainingSummary.r2)

但我怎样才能获得这些指标来测试数据集呢？

1）ROC曲线下面积（AUC）为defined https://en.wikipedia.org/wiki/Receiver_operating_characteristic仅适用于二元分类，因此您不能将它用于回归任务，就像您在这里尝试做的那样。

2) The objectiveHistory对于每次迭代仅在以下情况下可用solver回归中的参数是l-bfgs (文档 https://spark.apache.org/docs/latest/api/python/pyspark.ml.html#pyspark.ml.regression.LinearRegressionTrainingSummary.objectiveHistory）；这是一个玩具示例：

spark.version
# u'2.1.1'

from pyspark.ml import Pipeline
from pyspark.ml.linalg import Vectors
from pyspark.ml.evaluation import RegressionEvaluator
from pyspark.ml.regression import LinearRegression
from pyspark.ml.tuning import CrossValidator, ParamGridBuilder

dataset = spark.createDataFrame(
        [(Vectors.dense([0.0]), 0.2),
         (Vectors.dense([0.4]), 1.4),
         (Vectors.dense([0.5]), 1.9),
         (Vectors.dense([0.6]), 0.9),
         (Vectors.dense([1.2]), 1.0)] * 10,
         ["features", "label"])

lr = LinearRegression(maxIter=5, solver="l-bfgs") # solver="l-bfgs" here

modelEvaluator=RegressionEvaluator()
pipeline = Pipeline(stages=[lr])
paramGrid = ParamGridBuilder().addGrid(lr.regParam, [0.1, 0.01]).addGrid(lr.elasticNetParam, [0, 1]).build()

crossval = CrossValidator(estimator=lr,
                          estimatorParamMaps=paramGrid,
                          evaluator=modelEvaluator,
                          numFolds=3)

cvModel = crossval.fit(dataset)

trainingSummary = cvModel.bestModel.summary

trainingSummary.totalIterations
# 2
trainingSummary.objectiveHistory # one value for each iteration
# [0.49, 0.4511834723904831]

3）你已经定义了一个RegressionEvaluator您可以使用它来评估您的测试集，但如果不带参数使用，它会采用 RMSE 指标；这是一种使用不同指标定义评估器并将它们应用到您的测试集的方法（继续上面的代码）：

test = spark.createDataFrame(
        [(Vectors.dense([0.0]), 0.2),
         (Vectors.dense([0.4]), 1.1),
         (Vectors.dense([0.5]), 0.9),
         (Vectors.dense([0.6]), 1.0)],
        ["features", "label"])

modelEvaluator.evaluate(cvModel.transform(test))  # rmse by default, if not specified
# 0.35384585061028506

eval_rmse = RegressionEvaluator(metricName="rmse")
eval_r2 = RegressionEvaluator(metricName="r2")

eval_rmse.evaluate(cvModel.transform(test)) # same as above
# 0.35384585061028506

eval_r2.evaluate(cvModel.transform(test))
# -0.001655087952929124

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pyspark 中的交叉验证的相关文章

如何使用 Apache Livy 设置 Spark 配置属性？

我不知道在向 Apache Livy 提交 Spark 作业时如何以编程方式传递 SparkSession 参数这是测试 Spark 作业 class Test extends Job Int override def call jc J
计算行的排名

我想根据一个字段对用户 ID 进行排名对于相同的字段值排名应该相同该数据位于 Hive 表中 e g user value a 5 b 10 c 5 d 6 Rank a 1 c 1 d 3 b 4 我怎样才能做到这一点可以使用ra
如何使用sklearn Pipeline和FeatureUnion选择多个（数字和文本）列进行文本分类？

我开发了一个用于多标签分类的文本模型这OneVsRest分类器 http scikit learn org stable modules generated sklearn multiclass OneVsRestClassifier h
PyTorch 中的连接张量

我有一个张量叫做data形状的 128 4 150 150 其中 128 是批量大小 4 是通道数最后 2 个维度是高度和宽度我有另一个张量叫做fake形状的 128 1 150 150 我想放弃最后一个list array从第 2 维
以有效的方式从 BigQuery 读取到 Spark 中？

使用时BigQuery 连接器 https cloud google com hadoop examples bigquery connector spark example要从 BigQuery 读取数据我发现它首先将所有数据复制到 G
获取 emr-ddb-hadoop.jar 将 DynamoDB 与 EMR Spark 连接

我有一个 DynamoDB 表需要将其连接到 EMR Spark SQL 才能对该表运行查询我获得了带有发行标签 emr 4 6 0 和 Spark 1 6 1 的 EMR Spark Cluster 我指的是文档使用 Spark 分
Spark 执行器 STDOUT 到 Kubernetes STDOUT

我在 Spark Worker 中运行的 Spark 应用程序将执行程序日志输出到特定文件路径 worker home directory app xxxxxxxx 0 stdout I used log4j properties将日志从
为什么 PySpark 中的 agg() 一次只能汇总 DataFrame 的一列？ [复制]

这个问题在这里已经有答案了对于下面的数据框 df spark createDataFrame data Alice 4 300 Bob 7 677 schema name High 当我尝试找到最小值和最大值时我只得到输出中的最小值 d
如何在 R 中执行随机森林/交叉验证

我无法找到对我尝试生成的回归随机森林模型执行交叉验证的方法因此我有一个数据集其中包含 1664 个解释变量不同的化学性质和一个响应变量保留时间我正在尝试生成一个回归随机森林模型以便能够预测给定保留时间的物质的化学性质 ID
R 中多类分类的 ROC 曲线

我有一个包含 6 个类别的数据集我想绘制多类别分类的 ROC 曲线 Achim Zeileis 给出的第一个答案非常好 R中使用rpart包的ROC曲线 https stackoverflow com questions 30818188
我的 R 平方分数为负，但使用 k 倍交叉验证的准确度分数约为 92%

对于下面的代码我的 r 平方分数为负但使用 k 折交叉验证的准确度分数为 92 这怎么可能我使用随机森林回归算法来预测一些数据数据集的链接在下面的链接中给出 https www kaggle com ludobenistant hr
Tensorflow 的 LSTM 输入

I m trying to create an LSTM network in Tensorflow and I m lost in terminology basics I have n time series examples so X
如何在 Mac 上使用 homebrew 安装 apache-spark 2.3.3

brew install apache spark只安装最新版本的 Spark 2 4 和 brew search apache spark没有给出任何其他选项有没有办法用自制程序安装旧版本的 Spark Type brew tap ed
在 SciKit-Learn 中使用 Pipeline 计算排列重要性

我正在使用来自的确切示例SciKit https scikit learn org stable auto examples inspection plot permutation importance html sphx glr auto
对于“迭代算法”，转换为 RDD 然后再转换回 Dataframe 有什么优势

我在读高性能火花作者提出以下主张虽然 Catalyst 优化器非常强大但它目前遇到挑战的情况之一是非常大的查询计划这些查询计划往往是迭代算法的结果例如图算法或机器学习算法一个简单的解决方法是将数据转换为 RDD 并在每次迭代结束时
Spark Scala：按小时或分钟计算两列的 DateDiff

我在数据框中有两个时间戳列我想获取它们的分钟差异或者小时差异目前我可以通过四舍五入获得日差 val df2 df1 withColumn time datediff df1 ts1 df1 ts2 但是当我查看文档页面时https
为什么 cross_val_predict 比 KNeighborsClassifier 的拟合慢得多？

在 Jupyter 笔记本上本地运行并使用 MNIST 数据集 28k 条目每个图像 28x28 像素以下内容为27秒 from sklearn neighbors import KNeighborsClassifier knn clf
列对象不可调用 Spark

我尝试安装 Spark 并运行教程中给出的命令但出现以下错误 https spark apache org docs latest quick start html https spark apache org docs latest q
无法在 SBT 中运行 Apache Spark 相关单元测试 - NoClassDefFoundError

我有一个简单的单元测试使用SparkContext 我可以在 IntelliJ Idea 中运行单元测试没有任何问题但是当尝试从 SBT shell 运行相同的测试时我收到以下错误 java lang NoClassDefFoun
如何将模型从 ML Pipeline 保存到 S3 或 HDFS？

我正在尝试保存 ML Pipeline 生成的数千个模型正如答案中所示here https stackoverflow com questions 32121046 run 3000 random forest models by gro

随机推荐

如何使用 msbuild 获取 exec 任务输出

我试图通过 exec 任务获得简单的输出msbuild
如何在没有竞争条件的情况下重命名（）？

如果我想重命名A to B 但前提是B不存在天真的事情会检查是否B存在与access B F OK 或类似的东西如果不继续rename 不幸的是这会打开一个窗口在此期间其他进程可能会决定创建B 然后它被覆盖更糟糕的是没有迹象表明
如何使用 GStreamer 和 XOverlay 在 GTK+ 应用程序窗口中嵌入视频？

我正在尝试使用 GTK 和 GStreamer 编写一个小型媒体播放器目前使用 XOverlay 接口将视频嵌入到 GtkDrawing 区域中INSIDE主窗口该程序是使用以下命令编译的 g home phongcao cacao c
`rand()` 的用处 - 或者谁应该调用 `srand()`？

背景我用的是rand std rand std random shuffle 以及我的代码中用于科学计算的其他函数为了能够重现我的结果我总是明确指定随机种子并通过srand 直到最近我才发现 libxml2 也会调用srand 懒洋
Chrome 扩展程序将消息从 iFrame 发送到事件页面，然后发送到内容脚本

我已经从内容脚本插入了一个 iframe 效果很好但是如果我想在 iframe 上显示父级的 html 内容我必须使用消息传递在 iframe 和内容脚本之间进行通信但它不起作用然后我尝试将消息从 iframe 发送到事件页面然
OSX 上的 mongodb：如何更新 brew 服务以通过身份验证启动？

我用自制软件安装了 mongodb 我添加了一个 admin 并更新了 usr local etc mongod conf 以启用安全授权我可以使用 auth 启动 mongod mongod auth port 27017 dbpath
按日期连接两个 data.table，表 1 中最接近的日期严格小于第二个表中的日期

从 SO 上其他地方窃取一个虚拟示例按确切日期加入 data table 如果不是则按最近的小于日期加入 data table https stackoverflow com questions 11341557 join data t
Graphviz中如何使边重叠？

我想在 graphviz 中使边缘重叠但 graphviz 似乎重新排列了叶节点以避免重叠我可以强制 graphviz 停止重新排列节点吗制作 Desired 我正在使用 pygraphviz 创建树使用以下方法额外的隐形边缘非常适
使用 SelectionModel 或 ListDataProvider 选择 CellList 中的元素

我使用 CellList 列出数据使用 ListDataProvider 管理数据使用 SelectionModel 从 CellList 中选择元素并相应地生成事件现在当我使用 cellList getList set index
使用Azure B2C登录时如何在自定义页面中嵌入登录控件

我正在使用 Azure AD B2C 示例出于测试目的我使用稍作修改的单页应用程序sample https github com Azure Samples active directory b2c javascript msal si
如何防止创建空对象

我正在尝试将每个列表都位于嵌套对象内部的网络服务模型映射到更简单的东西 Model 1 public class Parent private Children children public class Children private
如何在Python中从邻接矩阵创建边列表数据框？

我有一个 pandas 数据框将其视为网络中节点的加权邻接矩阵的形式 df A B C D A 0 0 5 0 5 0 B 1 0 0 0 C 0 8 0 0 0 2 D 0 0 1 0 我想获得一个代表边缘列表的数据框对于上面的例子
PHPstorm项目导航

如何在PHPstorm项目列表中选择打开的文件我的意思是 PHPstorm 有一个在项目中选择 Netbeans 功能的模拟 Navigate View在旧版本中 Select In Project View 也可以启用Autoscro
NuGet 将 DLL 文件放在哪里？

我正在尝试解决 NuGet 的问题源代码控制限制 https stackoverflow com questions 7015149 multiperson team using nuget and source control 为此我需
使用关联数组作为 D3 的数据

我有一个非常简单的 D3 示例它首先将数据读入关联数组然后将其显示在条形图中不过我似乎无法使用此方法显示任何内容相反我必须在两者之间插入一个任务将数据读取到关联数组中将该数据复制到一个简单数组中然后使用该简单数组显示条形图
获取可用（语言）resx 文件的列表

许多程序都有社区在应用程序发布后向其添加语言因此在程序的设置窗口中人们可以看到可用语言的下拉列表那么人们在使用 resx 文件进行本地化时如何编码呢我在网上搜索了一遍又一遍但找不到任何答案一切都运行良好但现在我需要制作
如何在 pom.xml 文件中指定 Java 编译器版本？

我在 Netbeans 中编写了一些 Maven 代码大约有 2000 多行当我在 Netbeans 上编译它时一切都很好但如果我想在命令行上运行它我会收到以下错误 generics are not supported in so
JavaScript 风格的警报系统

我在用smoke js http ssssnakes com smoke 它允许设置经典警报 javascript 窗口的样式您所要做的就是放置 smoke在警报之前即 smoke confirm 我遇到的问题是确定取消回调它对我不
创建“拼写检查”，以合理的运行时间检查数据库

我不是在询问如何实现拼写检查算法本身我有一个包含数十万条记录的数据库我想要做的是针对所有这些记录的表中的特定列检查用户输入并返回具有特定汉明距离的任何匹配项同样这个问题不是关于确定汉明距离等当然目的是创建一个您的意思是功能
pyspark 中的交叉验证

我使用交叉验证来训练线性回归模型使用以下代码 from pyspark ml evaluation import RegressionEvaluator lr LinearRegression maxIter maxIteration m

pyspark 中的交叉验证

pyspark 中的交叉验证 的相关文章

随机推荐

热门标签

pyspark 中的交叉验证的相关文章