使用树输出预测 Spark 中梯度提升树情况下的类概率

2024-04-09

众所周知，Spark 中的 GBT 目前可以为您提供预测标签。

我正在考虑尝试计算一个类的预测概率（假设所有实例都落在某个叶子下）

构建 GBT 的代码

import org.apache.spark.SparkContext
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.tree.GradientBoostedTrees
import org.apache.spark.mllib.tree.configuration.BoostingStrategy
import org.apache.spark.mllib.tree.model.GradientBoostedTreesModel
import org.apache.spark.mllib.util.MLUtils

//Importing the data
val data = sc.textFile("data/mllib/credit_approval_2_attr.csv") //using the credit approval data set from UCI machine learning repository

//Parsing the data
val parsedData = data.map { line =>
    val parts = line.split(',').map(_.toDouble)
    LabeledPoint(parts(0), Vectors.dense(parts.tail))
}

//Splitting the data
val splits = parsedData.randomSplit(Array(0.7, 0.3), seed = 11L)
val training = splits(0).cache() 
val test = splits(1)

// Train a GradientBoostedTrees model.
// The defaultParams for Classification use LogLoss by default.
val boostingStrategy = BoostingStrategy.defaultParams("Classification")
boostingStrategy.numIterations = 2 // We can use more iterations in practice.
boostingStrategy.treeStrategy.numClasses = 2
boostingStrategy.treeStrategy.maxDepth = 2
boostingStrategy.treeStrategy.maxBins = 32
boostingStrategy.treeStrategy.subsamplingRate = 0.5
boostingStrategy.treeStrategy.maxMemoryInMB =1024
boostingStrategy.learningRate = 0.1

// Empty categoricalFeaturesInfo indicates all features are continuous.
boostingStrategy.treeStrategy.categoricalFeaturesInfo = Map[Int, Int]()

val model = GradientBoostedTrees.train(training, boostingStrategy)  

model.toDebugString

为了简单起见，这给了我两棵深度为 2 的树，如下所示：

 Tree 0:
    If (feature 3 <= 2.0)
     If (feature 2 <= 1.25)
      Predict: -0.5752212389380531
     Else (feature 2 > 1.25)
      Predict: 0.07462686567164178
    Else (feature 3 > 2.0)
     If (feature 0 <= 30.17)
      Predict: 0.7272727272727273
     Else (feature 0 > 30.17)
      Predict: 1.0
  Tree 1:
    If (feature 5 <= 67.0)
     If (feature 4 <= 100.0)
      Predict: 0.5739387416147804
     Else (feature 4 > 100.0)
      Predict: -0.550117566730937
    Else (feature 5 > 67.0)
     If (feature 2 <= 0.0)
      Predict: 3.0383669122382835
     Else (feature 2 > 0.0)
      Predict: 0.4332824083446489

我的问题是：我可以使用上面的树来计算预测概率，例如：

对于用于预测的特征集中的每个实例

exp(树 0 的叶子分数 + 树 1 的叶子分数)/(1+exp(树 0 的叶子分数 + 树 1 的叶子分数))

这给了我一种概率。但不确定这是否是正确的方法。另外，是否有任何文档解释如何计算叶子分数（预测）。如果有人可以分享，我将非常感激。

任何建议都会很棒。

这是我使用 Spark 内部依赖项的方法。稍后您需要导入线性代数库进行矩阵运算，即将树预测与学习率相乘。

import org.apache.spark.mllib.linalg.{Vectors, Matrices}
import org.apache.spark.mllib.linalg.distributed.{RowMatrix}

假设您使用 GBT 构建模型：

val model = GradientBoostedTrees.train(trainingData, boostingStrategy)

使用模型对象计算概率：

// Get the log odds predictions from each tree
val treePredictions = testData.map { point => model.trees.map(_.predict(point.features)) }

// Transform the arrays into matrices for multiplication
val treePredictionsVector = treePredictions.map(array => Vectors.dense(array))
val treePredictionsMatrix = new RowMatrix(treePredictionsVector)
val learningRate = model.treeWeights
val learningRateMatrix = Matrices.dense(learningRate.size, 1, learningRate)
val weightedTreePredictions = treePredictionsMatrix.multiply(learningRateMatrix)

// Calculate probability by ensembling the log odds
val classProb = weightedTreePredictions.rows.flatMap(_.toArray).map(x => 1 / (1 + Math.exp(-1 * x)))
classProb.collect

// You may tweak your decision boundary for different class labels
val classLabel = classProb.map(x => if (x > 0.5) 1.0 else 0.0)
classLabel.collect

以下是您可以直接复制并粘贴到 Spark-Shell 中的代码片段：

import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.linalg.{Vectors, Matrices}
import org.apache.spark.mllib.linalg.distributed.{RowMatrix}
import org.apache.spark.mllib.tree.GradientBoostedTrees
import org.apache.spark.mllib.tree.configuration.BoostingStrategy
import org.apache.spark.mllib.tree.model.GradientBoostedTreesModel

// Load and parse the data file.
val csvData = sc.textFile("data/mllib/sample_tree_data.csv")
val data = csvData.map { line =>
  val parts = line.split(',').map(_.toDouble)
  LabeledPoint(parts(0), Vectors.dense(parts.tail))
}
// Split the data into training and test sets (30% held out for testing)
val splits = data.randomSplit(Array(0.7, 0.3))
val (trainingData, testData) = (splits(0), splits(1))

// Train a GBT model.
val boostingStrategy = BoostingStrategy.defaultParams("Classification")
boostingStrategy.numIterations = 50
boostingStrategy.treeStrategy.numClasses = 2
boostingStrategy.treeStrategy.maxDepth = 6
boostingStrategy.treeStrategy.categoricalFeaturesInfo = Map[Int, Int]()

val model = GradientBoostedTrees.train(trainingData, boostingStrategy)

// Get class label from raw predict function
val predictedLabels = model.predict(testData.map(_.features))
predictedLabels.collect

// Get class probability
val treePredictions = testData.map { point => model.trees.map(_.predict(point.features)) }
val treePredictionsVector = treePredictions.map(array => Vectors.dense(array))
val treePredictionsMatrix = new RowMatrix(treePredictionsVector)
val learningRate = model.treeWeights
val learningRateMatrix = Matrices.dense(learningRate.size, 1, learningRate)
val weightedTreePredictions = treePredictionsMatrix.multiply(learningRateMatrix)
val classProb = weightedTreePredictions.rows.flatMap(_.toArray).map(x => 1 / (1 + Math.exp(-1 * x)))
val classLabel = classProb.map(x => if (x > 0.5) 1.0 else 0.0)
classLabel.collect

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Tree

Probability

Prediction

apachesparkmllib

boosting

使用树输出预测 Spark 中梯度提升树情况下的类概率的相关文章

这对蒙蒂·霍尔来说是好还是坏的“模拟”？怎么会？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案通过试图解释蒙蒂霍尔问题 http en wikipedia org wiki Monty Hall problem昨天在课堂上给一位朋友说我
单击节点时打开分支？

我被困住了jsTree http www jstree com 这里到目前为止它有效我可以使用图标浏览和展开节点并在单击节点时打开页面但我仍然希望它在有人单击节点时展开所有直接节点我环视了至少两个小时但什么也没找到官方网站
使用 tree-model-js 将树转换回 JSON

是否有一种方法可以将 TreeModel 转换为 JSON 字符串这样它就可以被存储然后使用tree parse 目前在尝试时JSON stringify root 它给出了关于循环引用的明显错误因为子级包含父级父级包含子级 Use
在 oracle 树查询中连接其他表

给定一个简单的 id description 表t1 比如 id description 1 Alice 2 Bob 3 Carol 4 David 5 Erica 6 Fred 以及一个父子关系表t2 比如 parent child 1
获取图表中走过的最长路线

我有一组相互连接的节点我有以下节点网络这里0是起点我想遍历尽可能多的节点并且一个节点只遍历一次另外在从 0 到目标节点的旅程中我只想有一个奇数编号的节点如 1 3 5 7 现在我需要找出从起始位置 0 开始可以行驶的最长路线
使用 rand(3) 生成随机数(9)

您有一个函数 rand 3 它生成从 1 到 3 的随机整数使用此函数构造另一个函数 rand 9 它生成从 1 到 9 的随机整数这是一个简单的解决方案 rand 3 3 rand 3 1 您想要这样做的原因是它提供了从 1 到 9
使用树输出预测 Spark 中梯度提升树情况下的类概率

众所周知 Spark 中的 GBT 目前可以为您提供预测标签我正在考虑尝试计算一个类的预测概率假设所有实例都落在某个叶子下构建 GBT 的代码 import org apache spark SparkContext import o
构建具有继承的通用树

我正在构建一个通用的Tree
Visual Studio代码侧边栏垂直引导线（自定义侧边栏）

有人知道 Visual Studio 代码的扩展可以像 netbeans 一样在侧边栏用于文件和文件夹上显示垂直指南吗或者vscode中有一些设置吗 Netbeans 快照 https i stack imgur com CFJsw
如何递归探索Python嵌套字典？ [复制]

这个问题在这里已经有答案了我很好奇是否有一种方法可以在 python 中递归地探索嵌套字典我的意思是假设我们有一个如下示例 d a b c 1 2 3 获取最里面字典的内容需要什么代码 c 1 2 3 遍历a and b 在这种情况下
QTableView 仅显示使用 QAbstractItemModel 实现的树模型的叶子

假设我有一个树结构树叶在bold 抱歉这些点 A A1 A2 B B1 B11 B2 C 存储在 QAbstractItemModel 中具有设置的父子关系如何在 QTableView 中仅显示树叶基本思想是实现一个 QSortF
寻找成熟的 M-Tree 实现 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个成熟的 java M Tree 实现甚至任何 M Tree 实现除了我找到的唯一实现 http en wikipedia
单场淘汰赛 - 可能的组合数量

单场淘汰赛中 8 人参加的组合有多少种比赛总数为 7 场但我还需要这组比赛的组合数量如果玩家在树中的哪个位置开始并不重要而只关心他她与哪些对手战斗以及他她能坚持多久我们可以说左边的玩家总是获胜然后只需计算创建的方法数量最下面
Beaglebone Black 上的 GPIO

我目前遇到了 Beaglebone black GPIO 引脚的问题我正在寻找一种正确的方法来读取 C 中的 GPIO 引脚 p8 4 的值如果我理解正确的话我尝试使用一个库该库使用了在引入设备树之前不支持的旧方法我尝试寻找其他解
将 rbf 与 scipy 一起使用时出现内存错误

I want to plot some points with the rbf function like here to get the density distribution of the points 如果我运行以下代码它工作正常
提取给定节点的所有父节点

我正在尝试使用以下命令提取每个给定 GO Id 节点的所有父级EBI RDF sparql 端点 https www ebi ac uk rdf services sparql 我是根据this https stackoverflow c
Tic-Tac-Toe AI：如何制作树？

在制作井字游戏机器人时我在尝试理解树时遇到了巨大的障碍我理解这个概念但我不知道如何实现它们有人可以向我展示一个如何为这种情况生成树的示例吗或者关于生成树的好教程我想最困难的部分是生成部分树我知道如何实现生成整棵树但不知道
';'预期但发现“导入” - Scala 和 Spark

我正在尝试使用 Spark 和 Scala 来编译一个独立的应用程序我不知道为什么会收到此错误 topicModel scala 2 expected but import found error import org apache sp
Webix 树节点的 Font Awesome 图标

Webix 与 Font Awesome 集成 http docs webix com desktop icon types html 但是如何使用 Font Awesome 图标代替树中的默认文件夹文件图标来设置各个节点的样式呢这是我
如何将模型结果保存到文本文件？

我正在尝试将从模型生成的频繁项集保存到文本文件中该代码是 Spark ML 库中 FPGrowth 示例的示例 Using saveAsTextFile直接在模型上写入 RDD 位置而不是实际值 import org apache spa

随机推荐

如何在JTable中动态添加图像[关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案 BufferedImage img null ImageIcon icon null try img ImageIO r
Microsoft SQL 中的 MySQL 长文本类似物？

我是 Microsoft SQL 新手我正在尝试从 MySQL 导入数据库我遇到的唯一问题是 MySQL 数据库使用longtext多个表列的数据类型 Microsoft SQL 的哪些数据类型与 MySQL 类似longtext 感谢
使用 Titanium Framework 开发针对 iPhone 和 Android 的应用程序的最佳实践是什么？

我计划使用 Titanium Framework 为 iPhone 和 Android 开发一个应用程序有人可以根据您使用该框架的经验列出开发的最佳实践该做和不该做的事情吗首先有关于 Titanium 最佳实践的 Appcelera
增加堆大小后无法启动 Glassfish

我想增加 Glassfish 的堆大小为此我知道我可以达到 4GB java Xmx4000M version java version 1 6 0 26 Java TM SE Runtime Environment build 1 6
是否有一个标志可以检查我的代码以查看 PyCharm 的调试器是否正在运行？

我想在我的代码中执行一些操作条件是 PyCharm 调试器是否已连接并正在运行例如我已使用 IDE 的调试命令启动了我的代码就像是 if pycharm debugger is running do something else
当源代码管理资源管理器显示变更集的分支和合并时，这意味着什么？

我试图了解驻留在 TFS 2005 中的代码库的历史记录并且遇到了一个变更集其中所有更改都被标记为分支和合并 Name Change Folder A cs merge branch Root Solution Project 我无法找
Gnuplot 5：曲线之间的颜色渐变阴影

这是用 Matplotlib 创建的是否可以在 Gnuplot 5 中制作相同类型的阴影我不知道 gnuplot 有渐变填充选项但我可能是错的以下是一个有点丑陋的解决方法您基本上创建了 3 个相互重叠的图您可能需要调整调色板
为什么无法读取收据数据以进行设备上验证

我正在使用以下代码来读取收据数据我可以使用 OpenSSL 静态库 1 1 1k 成功验证收据签名 private func readReceipt receiptPKCS7 UnsafeMutablePointer
git commit 命令无限期挂起

当我尝试使用进行提交时git commit Sublime Text 编辑器确实打开了我编写了提交消息并保存并关闭了编辑器但更改并未提交终端挂在git commit 我在网上搜索发现有人有同样的问题并且不假思索地应用了相同的修复程
如何在WPF中为数据触发提供多个条件？

如何在WPF中为数据触发提供多个条件 Use 多数据触发 http msdn microsoft com en us library system windows multidatatrigger aspx type
Wix如何隐藏功能选项

我正在使用 Wix 3 5 构建 MSI 安装程序我想知道是否有任何方法可以隐藏功能自定义安装对话框中的某些选项您可以在其中从功能树中选择要安装的内容我只想有将安装在本地硬盘上和整个功能将不可用的选项目前除了这两个选项
java DOM xml 文件创建 - 输出文件中没有制表符或空格

我已经浏览了 stackoverflow 上的帖子但似乎没有任何帮助这是有的 write the content into xml file TransformerFactory transformerFactory Transform
取消分配准备好的查询

编辑我感谢丹尼尔和丹尼斯问题现在已经解决了正如他们巧妙地指出的那样这种情况下的问题是程序员特别是没有彻底思考我希望我能接受这两个答案注意说我是 postgresql 新手是在侮辱新手我正在编写一个 Web 应用程序它将利
在iPhone编程中从服务器下载mp3文件[重复]

这个问题在这里已经有答案了可能的重复从服务器下载音乐文件并保存在我的应用程序中 https stackoverflow com questions 5620849 download music file from server and
如何在颤振中使用精度对整数进行舍入

我试图使折线图的 Y 轴间隔在颤动中动态化这里MaxVal将获取Y轴的最大值 int interval maxVal 6 toInt int length interval toString length toInt 所以在这里我将 ma
如何组合 List> 中的所有谓词

我有一个问题我相信你能帮助我解决我的皱纹 I have List
如何在 C# WinForms 中的 Label 上编写二次方程？

我们正在制作统计软件我们需要在任何地方放置公式例如ax2 bx c怎么做ax2表示x平方2 我想在x的上侧显示2 与 c 相同我想在后缀处显示 c 您是否有用户可以选择但无法编辑的固定公式列表然后为每个公式生成一个图像将它们存储在
将向量列表添加到 R 中的 data.frame

如何将向量列表添加到预先分配的 data frame 中以便向量形成 data frame 的行 eg ll lt list c 1 2 3 c 2 3 4 dd lt data frame matrix nrow 10 ncol 3 我
无法使用 NGINX Plus 替换 NGINX 作为使用 Kubernetes 的 Google Cloud 上微服务的反向代理

我正在关注this https cloudplatform googleblog com 2016 06 creating a scalable API with microservices html关于如何使用 Kubernetes 在
使用树输出预测 Spark 中梯度提升树情况下的类概率

众所周知 Spark 中的 GBT 目前可以为您提供预测标签我正在考虑尝试计算一个类的预测概率假设所有实例都落在某个叶子下构建 GBT 的代码 import org apache spark SparkContext import o

使用树输出预测 Spark 中梯度提升树情况下的类概率

使用树输出预测 Spark 中梯度提升树情况下的类概率 的相关文章

随机推荐

热门标签

使用树输出预测 Spark 中梯度提升树情况下的类概率的相关文章