如何在 Spark Pipeline 中使用随机森林

2024-04-22

我想通过网格搜索和 Spark 交叉验证来调整我的模型。在 Spark 中，它必须将基础模型放入管道中，即管道办公室演示 http://spark.apache.org/docs/latest/ml-guide.html#example-model-selection-via-cross-validation使用LogistictRegression作为基础模型，它可以是新的对象。但是，那RandomForest模型不能是new通过客户端代码，所以似乎无法使用RandomForest在管道 API 中。我不想重新创建一个轮子，所以有人可以给一些建议吗？谢谢

但是，RandomForest模型无法通过客户端代码新建，因此似乎无法在管道api中使用RandomForest。

嗯，确实如此，但您只是想使用错误的类。代替mllib.tree.RandomForest你应该使用ml.classification.RandomForestClassifier。这是一个基于的示例MLlib 文档中的一个 https://spark.apache.org/docs/latest/mllib-ensembles.html#classification.

import org.apache.spark.ml.classification.RandomForestClassifier
import org.apache.spark.ml.Pipeline
import org.apache.spark.ml.feature.StringIndexer
import org.apache.spark.mllib.linalg.Vector
import org.apache.spark.mllib.util.MLUtils
import sqlContext.implicits._ 

case class Record(category: String, features: Vector)

val data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample_libsvm_data.txt")
val splits = data.randomSplit(Array(0.7, 0.3))
val (trainData, testData) = (splits(0), splits(1))

val trainDF = trainData.map(lp => Record(lp.label.toString, lp.features)).toDF
val testDF = testData.map(lp => Record(lp.label.toString, lp.features)).toDF

val indexer = new StringIndexer()
  .setInputCol("category")
  .setOutputCol("label")

val rf  = new RandomForestClassifier()
    .setNumTrees(3)
    .setFeatureSubsetStrategy("auto")
    .setImpurity("gini")
    .setMaxDepth(4)
    .setMaxBins(32)

val pipeline = new Pipeline()
    .setStages(Array(indexer, rf))

val model = pipeline.fit(trainDF)

model.transform(testDF)

这里有一件事我无法弄清楚。据我所知，应该可以使用从中提取的标签LabeledPoints直接，但由于某种原因它不起作用并且pipeline.fit raises IllegalArgumentExcetion:

RandomForestClassifier 的输入带有无效的标签列标签，但没有指定类的数量。

因此，丑陋的伎俩StringIndexer。应用后我们得到所需的属性（{"vals":["1.0","0.0"],"type":"nominal","name":"label"}）但有些课程ml没有它似乎工作得很好。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 Spark Pipeline 中使用随机森林的相关文章

在获得响应之前发出多个请求

当并行发送多个请求时在获得响应之前我无法理解 HTTP 的工作原理有两种情况 1 With Connection Keep Alive 根据HTTP规范 http www w3 org Protocols rfc2616 rfc261
获取 Spark 中组的最后一个值

我有一个 SparkR DataFrame 如下所示 Create R data frame custId lt c rep 1001 5 rep 1002 3 1003 date lt c 2013 08 01 2014 01 01 20
如何将我自己的函数添加为 ML pyspark Pipeline 中的自定义阶段？ [复制]

这个问题在这里已经有答案了 Florian 的示例代码 ball column keep the hall column 0 7 14 1 8 15 2 9 16 3 10 17 4 11 18
在Spark的客户端模式下，驱动程序需要网络访问远程执行程序？

使用火花时在客户端模式例如yarn client 运行驱动程序的本地计算机是否直接与运行远程执行程序的集群工作节点通信如果是是否意味着机器运行驱动程序需要具有对工作节点的网络访问权限那么master节点向集群请求资源并将wor
AWS EMR PySpark 连接到 mysql

我正在尝试使用 jdbc 通过 pyspark 连接到 mysql 我可以在 EMR 之外完成此操作但是当我尝试使用 EMR 时 pyspark 无法正确启动我在我的机器上使用的命令 pyspark conf spark executo
Spark：shuffle操作导致GC长时间暂停

我在跑Spark 2我正在尝试洗牌大约 5 TB 的 json 我在洗牌期间遇到了很长的垃圾收集暂停Dataset val operations spark read json inPath as MyClass operations re
Snakemake - 无法从输出文件中确定输入文件中的通配符

我对snakemake很陌生而且对python也不太熟悉所以抱歉这可能是一个非常基本的愚蠢问题我目前正在构建一个管道来分析一组 bamfilesatlas https bitbucket org phaentu atlas wiki
Spark：如何从spark shell运行spark文件

我正在使用CDH 5 2 我能够使用火花外壳运行命令如何运行包含 Spark 命令的文件 file spark 有没有办法在没有 sbt 的情况下在 CDH 5 2 中运行编译 scala 程序在命令行中您可以使用 spark sh
Twitter API 与 Scala 2.12 一起使用

我正在使用 Scala 2 12 使用 SBT 构建构建 Spark 3 0 0 流应用程序鉴于所有用于执行此操作的库均适用于 Scala EDIT 我尝试使用库构建时得到的示例输出 object twitter is not a me
Spark：Aggregator和UDAF有什么区别？

在Spark的文档中 Aggregator 抽象类聚合器 IN BUF OUT 扩展可序列化用户定义聚合的基类可以是在数据集操作中用于获取组中的所有元素并将它们减少到单个值用户定义的聚合函数是抽象类 UserDefinedAgg
Delta Lake 独立于 Apache Spark？

我一直在探索数据湖屋概念和 Delta Lake 它的一些功能看起来真的很有趣就在项目主页上https delta io https delta io 有一个图表显示 Delta Lake 运行在您现有的数据湖上但没有提及 Spar
Spark 中的广播 Annoy 对象（对于最近邻居）？

由于 Spark 的 mllib 没有最近邻居功能我正在尝试使用Annoy https github com spotify annoy为近似最近邻我尝试广播 Annoy 对象并将其传递给工人然而它并没有按预期运行下面是可重复性的
R randomForest - 如何使用“getTree”树进行预测

背景我可以在 R 中创建一个随机森林 set seed 1 library randomForest data iris model rf lt randomForest Species data iris importance TRUE
Spark 按列重新分区，每列动态分区数

如何根据列中的项目数对 DataFrame 进行分区假设我们有一个包含 100 人的 DataFrame 列是first name and country 我们希望为一个国家地区的每 10 个人创建一个分区如果我们的数据集包含 80
Python Spark DataFrame：用 SparseVector 替换 null

在 Spark 中我有以下名为 df 的数据框其中包含一些空条目 id features1 features2 185 5 0 1 4 0 1 0 null 220 5 0 2 3 0 1 0 10 1 2 6 0 1 225 null
属性错误：未找到下层；在 scikit-learn 中使用带有 CountVectorizer 的 Pipeline

我有一个这样的语料库 X train this is an dummy example in reality this line is very long here is a last text in the training set 和一
Spark Scala：按小时或分钟计算两列的 DateDiff

我在数据框中有两个时间戳列我想获取它们的分钟差异或者小时差异目前我可以通过四舍五入获得日差 val df2 df1 withColumn time datediff df1 ts1 df1 ts2 但是当我查看文档页面时https
Spark：替换嵌套列中的空值

我想更换所有n a以下数据框中的值unknown 它可以是scalar or complex nested column 如果它是一个StructField column我可以循环遍历列并替换n a using WithColumn 但我希
列对象不可调用 Spark

我尝试安装 Spark 并运行教程中给出的命令但出现以下错误 https spark apache org docs latest quick start html https spark apache org docs latest q
如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip

随机推荐

哪些数据会发送回 Paypal“返回”网址，以及如何将我自己的数据发送到此网址？

实施标准 Paypal 立即购买按钮文档不清楚什么数据被传递到返回 url 该文档也没有提及如何通过表单发送您自己的自定义数据任何人都可以为此提供适当的文档吗相关代码
C++ 中模板和 STL 的缺点 [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案使用 STL 或模板有什么缺点吗是否存在不适合的情况首先如果它们可以帮助您解决问题您应该使用它们模板是 C 非常重要的一部分并且多年
如何将 ISO7816 选择命令与 DESfire Ev1 卡一起使用？

我有一张 DESfire Ev1 版本 1 3 卡我正在尝试使用 ISO7816 apdu 样式选择一个文件我有一份文件需要帮助A0 A1 A2我可以使用本机或包装模式选择它 Native gt 5A A0 A1 A2 lt 00 W
CakePHP 2.0 中的错误处理。转义 viewVars [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我在 Cake 2 中遇到了一个奇怪
如何在 Swift 中从备份中排除文件？

我在 Swift 1 2 中工作得很好因为我使用 filePath 作为字符串现在 Swift 2 希望我们所有人都使用 URL 路径尽管我正在阅读他们的文档但我无法让它工作 I have var fileName myRespon
DEVISE 成功登录后，如何将用户重定向回之前需要登录的操作？

我有一个 ajax 投票按钮如果用户单击竖起大拇指图像但尚未登录那么他们应该看到一个对话框要求他们先登录为了实现这个对话框我使用 jQuery 和 Facebox 绑定到 ajax failure 事件如果用户未登录 De
如何将 create-react-app 转换为 Preact？

根据 Preact 文档要将 React 应用程序转换为 Preact 您必须为 webpack 指定别名 resolve alias react preact compat react dom preact compat 你怎么能做到这
我什么时候应该使用新的 ranged-for 以及我可以将它与新的 cbegin/cend 结合使用吗？

The new 范围为当然在 C 11 中会非常简洁和有用据我了解它是如何工作的它会查找容器 begin and end通过尝试 Argument Depending Lookup ADT 但另一个补充是所有容器现在有cbegin
使共享库可供多个应用程序使用的最佳方法是什么？

与大多数商店一样我们有一个团队负责各种项目他们都需要访问与我们业务相关的相同核心信息和功能通常使用 C 语言目前我们只是将公共类从一个项目复制到另一个项目但每个人都开始有自己的风格我们希望进行整合我们使用 Tortoise
如何在 f 字符串表达式中将数字格式化为两位小数？

我正在尝试制作这个程序询问用户他们的成绩并以两位小数显示他们的成绩前任如果他们的作业得分为 10 15 则会显示作业 1 66 66 在我的代码中我似乎无法将计算出的数字转换为两位小数 print Please enter your
Django：使用 post_delete 信号时确定正在删除的用户

我希望在删除某些对象时通知管理员但我也想确定哪个用户正在执行删除是否可以这是代码 models py signal to notify admins when nodes are deleted from django db mode
如何锁定 ASP.NET MVC 操作？

我已经编写了一个用作服务的控制器和操作这项服务的运行成本相当高如果当前已存在正在运行的操作我想限制对此操作的访问有没有内置的方法来锁定 ASP NET MVC 操作 Thanks 您在寻找这样的东西吗 public MyContro
如何使用准备好的 PDO 语句设置 ORDER BY 参数？

我在使用参数时遇到问题ORDER BY我的 SQL 部分它不发出任何警告但不打印任何内容 order columnName direction ASC stmt db gt prepare SELECT field from table
Pandas 在由列表组成的元素上删除重复项

假设我的数据框是 df pandas DataFrame 1 0 0 0 1 0 产生 0 0 1 0 1 0 0 2 1 0 我想删除重复项并且只获取元素 1 0 和 0 0 如果我写 df drop duplicates 我收到以下错
Python向数据框添加列会导致NaN

我有一个系列和 df s pd Series 1 2 3 5 df pd DataFrame 当我像这样向 df 添加列时 df loc 0 2 s iloc 0 3 df loc 1 3 s iloc 1 4 I get df 0 2 1
如果存在则更改表，如果不存在则创建

我需要运行一个安装程序它也可以是更新程序安装程序需要能够最终获得 mysql 数据库的特定方案结构无论某些表是否存在丢失了几列或者因为其结构是最新的而不需要更改我怎样才能优雅地组合ALTER and CREATE 我在想一定有
在数组中的两对之间添加键/值对

我一直在寻找和思考但无法想出一个可行的解决方案来解决这个问题我有一个带有连续数字键的数组 Example Array 0 gt value 0 1 gt value 1 2 gt value 2 3 gt value 3 我需要在数组中
查询列出数据库中每个表的记录数

如何列出数据库中每个表的行数一些相当于 select count from table1 select count from table2 select count from tableN 我将发布一个解决方案但欢迎其他方法如果您使用
将对象序列化为 XML 时如何添加 XML 命名空间 (xmlns)

我正在 XStream 的帮助下将对象序列化为 XML 如何告诉 XStream 将 xmlns 插入到对象的 XML 输出中例如我有一个想要序列化的简单对象 XStreamAlias value domain public class
如何在 Spark Pipeline 中使用随机森林

我想通过网格搜索和 Spark 交叉验证来调整我的模型在 Spark 中它必须将基础模型放入管道中即管道办公室演示 http spark apache org docs latest ml guide html example mod

如何在 Spark Pipeline 中使用随机森林

如何在 Spark Pipeline 中使用随机森林 的相关文章

随机推荐

热门标签

如何在 Spark Pipeline 中使用随机森林的相关文章