在 pySpark 中使用 paramGrid 从 CrossValidator 中提取结果

2023-12-20

我用 pySpark 训练随机森林。我想要一个包含网格中每个点的结果的 csv。我的代码是：

estimator = RandomForestRegressor()
evaluator = RegressionEvaluator()
paramGrid = ParamGridBuilder().addGrid(estimator.numTrees, [2,3])\
                              .addGrid(estimator.maxDepth, [2,3])\
                              .addGrid(estimator.impurity, ['variance'])\
                              .addGrid(estimator.featureSubsetStrategy, ['sqrt'])\
                              .build()
pipeline = Pipeline(stages=[estimator])

crossval = CrossValidator(estimator=pipeline,
                          estimatorParamMaps=paramGrid,
                          evaluator=evaluator,
                          numFolds=3)

cvModel = crossval.fit(result)

所以我想要一个 csv：

numTrees | maxDepth | impurityMeasure 

2            2          0.001 

2            3          0.00023

Etc

做这个的最好方式是什么？

您必须组合不同的数据位：

Estimator ParamMaps提取使用getEstimatorParamMaps method.
可以使用以下方式检索训练指标avgMetrics范围。

首先获取映射中声明的所有参数的名称和值：

params = [{p.name: v for p, v in m.items()} for m in cvModel.getEstimatorParamMaps()]

Thane zip带有指标并转换为数据框

import pandas as pd

pd.DataFrame.from_dict([
    {cvModel.getEvaluator().getMetricName(): metric, **ps} 
    for ps, metric in zip(params, cvModel.avgMetrics)
])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

apachesparkml

在 pySpark 中使用 paramGrid 从 CrossValidator 中提取结果的相关文章

上传时的 Google Drive API——这些额外的空行从何而来？

总结一下该程序我从我的 Google 云端硬盘下载一个文件然后在本地计算机中打开并读取一个文件 file a txt 然后在我的计算机中打开另一个文件 file b txt 处于附加模式并且在使用这个新的 file b 更新我的 Go
如何使用 colorchecker 在 opencv 中进行颜色校准？

我有数码相机获取的色彩检查器图像我如何使用它来使用 opencv 校准图像按照以下颜色检查器图像操作您是想问如何进行颜色校准或如何使用 OpenCV 进行校准为了进行颜色校准您可以使用校准板的最后一行灰色调以下是您应该逐步进行
从sklearn PCA获取特征值和向量

如何获取 PCA 应用程序的特征值和特征向量 from sklearn decomposition import PCA clf PCA 0 98 whiten True converse 98 variance X train clf f
Pandas dataframe：每批行的操作

我有一个熊猫数据框df我想计算每批行的一些统计信息例如假设我有一个batch size 200000 对于每批batch sizerows 我想要一列的唯一值的数量ID我的数据框我怎样才能做这样的事情呢这是我想要的一个例子 prin
字符串中的注释和注释中的字符串

我正在尝试使用 Python 和 Regex 计算 C 代码中包含的注释中的字符数但没有成功我可以先删除字符串以删除字符串中的注释但这也会删除注释中的字符串结果会很糟糕是否有机会通过使用正则表达式来询问不匹配注释中的字符串反之亦
“一旦获取切片就无法更新查询”。最佳实践？

由于我的项目的性质我发现自己不断地从查询集中取出切片如下所示 Thread objects filter board requested board id order by updatedate 10 但这给我带来了实际对我选择的元素进
ImportError：运行 jupyter Notebook 时没有名为 IPython.paths 的模块？

我通过以下方式安装了 jupyter usr local opt python bin python2 7 m pip install jupyter 这将安装 ipython 版本 4 1 2 但是当我运行 jupyter Notebo
使用 Python 计算 Spark 中成对 (K,V) RDD 中每个 KEY 的平均值

我想与 Python 共享这个特定的 Apache Spark 解决方案因为它的文档非常贫乏我想通过 KEY 计算 K V 对存储在 Pairwise RDD 中的平均值示例数据如下所示 gt gt gt rdd1 take 10
如何使用 javascript/jquery/AJAX 调用 Django REST API？

我想使用 Javascript jQuery AJAX 在前端调用 Django Rest API 请求方法是 POST 但当我看到 API 调用它的调用 OPTIONS 方法时所以我开始了解access control allow o
如何根据 HTTP 请求使用 Python 和 Flask 执行 shell 命令并流输出？

下列的这个帖子 https stackoverflow com questions 15092961 how to continuously display python output in a webpage 我能够tail f网页的日志
在相同任务上，Keras 比 TensorFlow 慢

我正在使用 Python 运行斩首 DCNN 本例中为 Inception V3 来获取图像特征我使用的是 Anaconda Py3 6 和 Windows7 使用 TensorFlow 时我将会话保存在变量中感谢 jdehesa 并
对使用 importlib.util 导入的对象进行酸洗

我在使用Python的pickle时遇到了一个问题我需要通过将文件路径提供给 importlib util 来加载一些 Python 模块如下所示 import importlib util spec importlib util sp
Python Django-如何从输入文件标签读取文件？

我不想将文件保存在我的服务器上我只想在下一页中读取并打印该文件现在我有这个 index html
Python、subprocess、call()、check_call 和 returncode 来查找命令是否存在

我已经弄清楚如何使用 call 让我的 python 脚本运行命令 import subprocess mycommandline lumberjack sleep all night work all day subprocess cal
使用 Conda 更新特定模块会删除大量软件包

我最近开始使用 Anaconda Python 发行版因为它提供了许多开箱即用的数据分析库使用 conda 创建环境和安装软件包也轻而易举但是当我想更新 Python 本身或任何其他模块时我遇到了一些严重的问题我事先被告知我的很多
在 Spyder 的变量资源管理器中查看局部变量

我是 python 新手正在使用 Spyder 的 IDE 我欣赏它的一项功能是它的变量资源管理器然而根据一些研究我发现它只显示全局变量我找到的解决方法是使用检查模块 import inspect local vars def m
Django - 提交具有同一字段多个输入的表单

预警我对 Django 以及一般的 Web 开发非常陌生我使用 Django 托管一个基于 Web 的 UI 该 UI 将从简短的调查中获取用户输入通过我用 Python 开发的一些分析来提供输入然后在 UI 中呈现这些分析的可视
PIL - 需要抖动，但限制调色板会导致问题

我是 Python 新手正在尝试使用 PIL 来执行 Arduino 项目所需的解析任务这个问题涉及到Image convert 方法以及调色板抖动等选项我有一些硬件能够一次仅显示 16 种颜色的图像但它们可以指定为 RGB 三元
Python问题：打开和关闭文件返回语法错误

大家好我发现了这个有用的 python 脚本它允许我从网站获取一些天气数据我将创建一个文件和其中的数据集有些东西不起作用它返回此错误 File
如何在不从 DataFrame 转换并访问它的情况下向数据集添加列？

我知道使用以下方法将新列添加到 Spark 数据集的方法 withColumn and a UDF 它返回一个 DataFrame 我还知道我们可以将生成的 DataFrame 转换为 DataSet 我的问题是如果我们仍然遵循传统的

随机推荐

单选按钮的 OnChange 事件处理程序 (INPUT type="radio") 不能作为一个值工作

我正在为此寻找通用的解决方案考虑 2 个同名的无线电类型输入提交后检查的值决定随表单发送的值
Drupal 8：如何自定义表单小部件以显示实体字段值而不是实体标题？

我正在通过开发自定义表单小部件模块来迈出了解 Drupal 8 在幕后如何工作的第一步我的目标是显示引用节点的图像字段值而不是单选按钮列表中的节点标题在核心中可用这将允许网站管理员在为节点选择背景图像时选择图片而不是文本以下是我的
你能让div中的浮动元素不换行吗？

目标浏览器为IE8 我有一个 div 其中包含向左浮动的元素列表元素宽度可以在运行时改变我想做的是如果它们不再适合 div 它就会被切断并且不会换行它似乎只有在该项目本身位于一行时才有效此页面演示了该问题文本输入的宽度需要在运行
VSCode“无法打开file.cs：找不到文件”

我通过重命名文件夹或其他内容破坏了我的 vscode 项目不完全确定发生了什么问题是虽然我仍然可以构建和运行没有问题但有些东西已经搞砸了因此当我收到编译错误时例如当我双击它说的消息时无法打开 XXXController cs
更新 edittext 时会发生什么事件？

我有一个 android 布局其中有两个编辑文本一个用于数量一个用于费率一个文本视图用于总量现在我想做的是每当用户更改费率或数量字段时更改更新总金额我正在寻找的 edittext 事件是什么我可以像设置 OnClick 一样
如何分割这个字符串？

我想分割这个字符串 String info 0 542008835 meters height from ground 由此我只想得到两位小数0 54 通过使用这个我得到了 String new rhs split lt G 但我在这里面临
如何通过仅更改域名而保留其他 URL 参数来重定向 URL

我现在正在将我的网站迁移到新的主机和域我想知道是否可以将输入旧网站的任何 URL 的任何人重定向到新网站同时保留所有 URL 参数例如当有人输入这个网址时http www domainA com blog p 667 我希望他被重定
如何在 ruby 中使用 AES 256 ECB PKCS5Padding 加密数据

我想使用 PKCS5padding 以 AES 256 位 ECB 模式加密数据我的ruby方法如下这里如何使用PKCS5Padding def encrypt raw data key cipher OpenSSL Cipher AE
更新行而不是创建新条目数据库android

我一直在研究 Android 食谱书中的食谱以利用数据库来存储事件当前代码允许我添加新条目但无法修改任何添加的条目我需要的是一个具有预定义行数 48 的数据库并且具有通过相应的编辑文本字段更新这些行的功能任何人都可以帮我修改以下
Karma 和 React，有导致错误的警告

我在用Karma http karma runner github io 0 8 index html with mocha http mochajs org 测试我的React https facebook github io react
.NET 日期时间到 SqlDateTime 转换

在将 NET DateTime 默认情况下 DateTime 转换为 SqlDateTime 时我应该始终检查 NET 日期是否在 SqlDateTime MinValue 和 SqlDateTime MaxValue 之间或者有没有
Ruby rspec 命令不起作用，可能是因为 Ubuntu 12 是 64 位吗？

我在这个问题上曾经很头疼过我目前正在做一项作业要求我在 ruby 上使用 rspec 每当我运行 rspec 命令时我都会收到类似错误 home rvm gems ruby 1 9 3 p286 gems rspec core 2 1
如何替换 MySQL 中的正则表达式模式

我有一张桌子叫myTable其中有一个名为col1 此列包含以下格式的数据 1 或 2 位数字连字符 8 位数字我想替换此列中的所有数据并将连字符之前的所有内容替换为 4 所以这是一个示例 old values New Values
在 64 位机器上很长[重复]

这个问题在这里已经有答案了 64位机器上是long 128位吗 Edit 重复问题看x64 上的 sizeof int https stackoverflow com questions 651956 sizeofint on x64 在
在 bash 脚本中插入包含“$”的变量

我正在编写一个创建用户帐户的 bash 脚本用户名和密码哈希值是根据特定标准从文件中提取的密码哈希自然包含分隔哈希字段的例如 1 SALT 问题是 p 选项useradd需要用单引号将密码哈希括起来以防止字段作为变量进行插值传递
如何更改 Flutter Web 中的 chrome 标题颜色？

顶部带有链接 URL 的标题的默认颜色是蓝色有人知道如何更改它的颜色吗将此元标记放在index html 文件中的 head 标记之间它将更改您的移动浏览器的顶部菜单颜色
LeafletJS 标记随缩放而移动

使用 LeafletJS 这是王牌到目前为止 P 我们没有 JSON 对象或任何东西所以我从 HTML 中取出值标题 latlng 并创建标记一般来说这可以正常工作但是它们的绘图存在问题当地图真正放大时它们似乎还不错但当您
jquery：我怎么知道我是否拥有它？

我需要 jquery 在本地浏览器上工作我如何知道它是否已安装以及如何安装我的问题是特定于能够运行此代码 onmouseover evt target setAttribute opacity 0 5 someDiv show onmo
具有多个 https 站点的 HAproxy

我们有几个在负载均衡器后面运行的 http 站点使用hearbeat 具有故障转移功能和一个 https 站点一切都运行良好但现在我想要添加另一个 https 站点我找不到任何托管多个 https 站点的参考资料有人使用 HA
在 pySpark 中使用 paramGrid 从 CrossValidator 中提取结果

我用 pySpark 训练随机森林我想要一个包含网格中每个点的结果的 csv 我的代码是 estimator RandomForestRegressor evaluator RegressionEvaluator paramGrid Pa

在 pySpark 中使用 paramGrid 从 CrossValidator 中提取结果

在 pySpark 中使用 paramGrid 从 CrossValidator 中提取结果 的相关文章

随机推荐

热门标签

在 pySpark 中使用 paramGrid 从 CrossValidator 中提取结果的相关文章