如何从 PySpark MultilayerPerceptronClassifier 获取分类概率？

2023-11-23

我在 python 中使用 Spark 2.0.1，我的数据集位于 DataFrame 中，因此我使用 ML（不是 MLLib）库进行机器学习。我有一个多层感知器分类器，但只有两个标签。

我的问题是，是否不仅可以获得标签，还可以获得（或仅）该标签的概率？不仅仅是每个输入都为 0 或 1，而是 0 为 0.95，1 为 0.05。如果这对于 MLP 是不可能的，但对于其他分类器是可能的，我可以更改分类器。我只使用了 MLP，因为我知道它们应该能够返回概率，但我在 PySpark 中找不到它。

我发现了一个类似的主题，如何从 MultilayerPerceptronClassifier 获取分类概率？但他们使用 Java 并且他们建议的解决方案在 python 中不起作用。

Thx

事实上，从 2.0 版本开始，Spark ML 中的 MLP 似乎不提供分类概率；尽管如此，还有许多其他分类器这样做，即逻辑回归, 朴素贝叶斯, 决策树, and 随机森林。这是第一个和最后一个的简短示例：

from pyspark.ml.classification import LogisticRegression, RandomForestClassifier
from pyspark.ml.linalg import Vectors
from pyspark.sql import Row
df = sqlContext.createDataFrame([
     (0.0, Vectors.dense(0.0, 1.0)),
     (1.0, Vectors.dense(1.0, 0.0))], 
     ["label", "features"])
df.show()
# +-----+---------+ 
# |label| features| 
# +-----+---------+ 
# | 0.0 |[0.0,1.0]| 
# | 1.0 |[1.0,0.0]| 
# +-----+---------+

lr = LogisticRegression(maxIter=5, regParam=0.01, labelCol="label")
lr_model = lr.fit(df)

rf = RandomForestClassifier(numTrees=3, maxDepth=2, labelCol="label", seed=42)
rf_model = rf.fit(df)

# test data:
test = sc.parallelize([Row(features=Vectors.dense(0.2, 0.5)),
                       Row(features=Vectors.dense(0.5, 0.2))]).toDF()

lr_result = lr_model.transform(test)
lr_result.show()
# +---------+--------------------+--------------------+----------+
# | features|       rawPrediction|         probability|prediction|
# +---------+--------------------+--------------------+----------+
# |[0.2,0.5]|[0.98941878916476...|[0.72897310704261...|       0.0|
# |[0.5,0.2]|[-0.9894187891647...|[0.27102689295738...|       1.0|  
# +---------+--------------------+--------------------+----------+

rf_result = rf_model.transform(test)
rf_result.show()
# +---------+-------------+--------------------+----------+ 
# | features|rawPrediction|         probability|prediction| 
# +---------+-------------+--------------------+----------+ 
# |[0.2,0.5]|    [1.0,2.0]|[0.33333333333333...|       1.0| 
# |[0.5,0.2]|    [1.0,2.0]|[0.33333333333333...|       1.0| 
# +---------+-------------+--------------------+----------+

对于 MLlib，请参阅我的回答here;对于 PySpark 分类的几个未记录和反直觉的特征，请参阅我的相关博客文章.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何从 PySpark MultilayerPerceptronClassifier 获取分类概率？的相关文章

如何加速spark df.write jdbc到postgres数据库？

我是 Spark 新手正在尝试使用 df write 加速将数据帧的内容可以有 200k 到 2M 行附加到 postgres 数据库 df write format jdbc options url psql url spark d
如何使用 pybrain 黑盒优化训练神经网络来处理监督数据集？

我玩了一下 pybrain 了解如何生成具有自定义架构的神经网络并使用反向传播算法将它们训练为监督数据集然而我对优化算法以及任务学习代理和环境的概念感到困惑例如我将如何实现一个神经网络例如 1 以使用 pybrain 遗传算法
将嵌套字典键值转换为 pyspark 数据帧

我有一个 Pyspark 数据框如下所示我想提取 dic 列中的那些嵌套字典并将它们转换为 PySpark 数据帧像这样请让我知道如何实现这一目标 Thanks from pyspark sql import functions a
pyspark加入多个条件

我如何指定很多条件当我使用pyspark时 join 例子与蜂巢 query select a NUMCNT b NUMCNT as RNUMCNT a POLE b POLE as RPOLE a ACTIVITE b ACTIVIT
libsvm 收缩启发法

我在 C SVC 模式下使用 libsvm 和 2 次多项式内核并且需要训练多个 SVM 在训练期间我训练的一些 SVM 会收到以下一个或什至两个警告 WARNING using h 0 may be faster WARNING re
Keras model.predict 函数给出输入形状错误

我已经在 Tensorflow 中实现了通用句子编码器现在我正在尝试预测句子的类概率我也将字符串转换为数组 Code if model model type universal classifier basic class probs
在 Keras 中连接两个目录迭代器

假设我有类似以下内容 image data generator ImageDataGenerator rescale 1 255 train generator image data generator flow from director
Spark SQL sql("").first().getDouble(0) 给我不一致的结果

我有下面的查询它应该找到列值的平均值并返回一个数字的结果 val avgVal hiveContext sql select round avg amount 4 from users payment where dt between 2
Spark 请求最大计数

我是 Spark 的初学者我尝试请求允许我检索最常访问的网页我的要求如下 mostPopularWebPageDF logDF groupBy webPage agg functions count webPage alias cntW
Spark：导入UTF-8编码的文本文件

我正在尝试处理一个包含很多特殊字符的文件例如德语变音符号 o 等如下所示 sc hadoopConfiguration set textinputformat record delimiter r n r n sc textFile f
rpart 决策树中的 rel 误差和 x 误差有什么区别？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我有一个来自 UCI 机器学习数据库的纯分类数据框https archive ics uci edu ml datasets Diabet
在 Windows 7 64 位中删除 Spark 临时目录时出现异常

我正在尝试在 Windows 7 64 位中运行 Spark 作业的单元测试我有 HADOOP HOME D winutils winutils path D winutils bin winutils exe 我运行了以下命令 winu
使用 scikit-learn 进行二次采样 + 分类

我正在使用 Scikit learn 进行二元分类任务并且我有 0 级有 200 个观察值第 1 类有 50 个观察值而且因为我有不平衡的数据我想抽取多数类的随机子样本其中观察数量与少数类相同并且希望使用新获得的数据集作为分
从 scikit_learn 反转 MinMaxScaler

为了为我的生成神经网络提供数据我需要将一些数据标准化在 1 和 1 之间我用MinMaxScaler来自 Sklearn 效果很好现在我的生成器将输出 1 到 1 之间的数据如何恢复MinMaxScaler获得真实数据让我们首先
“为 Apache Hadoop 2.7 及更高版本预构建”是什么意思？

Apache Spark 下载页面上的 pre built for Apache Hadoop 2 7 and later 是什么意思这是否意味着spark中HDFS必须有库如果是这样其他存储系统例如 Cassandra s3 HB
缩放数据框的每一列

我正在尝试缩放数据框的每一列首先我将每一列转换为向量然后使用 ml MinMax Scaler 除了简单地重复它之外是否有更好更优雅的方法将相同的函数应用于每一列 import org apache spark ml linalg
MultiHeadAttention Attention_mask [Keras、Tensorflow] 示例

我正在努力掩盖 MultiHeadAttention 层的输入我正在使用 Keras 文档中的 Transformer Block 进行自我关注到目前为止我在网上找不到任何示例代码如果有人能给我一个代码片段我将不胜感激变压器块来
从apache Spark中的文本文件查找rdd中存储的数据大小

我是 Apache Spark 版本 1 4 1 的新手我编写了一段小代码来读取文本文件并将其数据存储在 Rdd 中有没有一种方法可以获取 rdd 中数据的大小这是我的代码 import org apache spark SparkC
在 Jupyter 笔记本中使用 PySpark 读取 XML

我正在尝试读取 XML 文件 df spark read format com databricks spark xml load path to my xml 并收到以下错误 java lang ClassNotFoundExceptio
pyspark.sql.utils.AnalysisException：u'Path不存在

我正在使用标准 hdfs 与 amazon emr 运行 Spark 作业而不是 S3 来存储我的文件我在 hdfs user hive warehouse 有一个配置单元表但当我的 Spark 作业运行时找不到它我配置了 Spar

随机推荐

如何用reactjs合并两个对象数组？

我有一个反应大日历我想从后端获取本周的事件从本地存储获取其他几周的事件我的代码是 componentDidMount fetch url then Response gt Response json then data gt let
将列名转换为第一行

我想将以下数据框转换为 json df A sector B sector C sector TTM Ratio 35 99 12 70 20 63 14 75 23 06 RRM Sales 114 57 1 51 5 02 1 00 4
使用 Java 8 lambda 表达式过滤列表

我有一个Project class class Project List
java中x++和++x有区别吗？

java中 x和x 有区别吗 x 称为前增量而 x 称为后增量 int x 5 y 5 System out println x outputs 6 System out println x outputs 6 System out pr
如何在ios应用程序中将自定义字体系列设置为系统字体[重复]

这个问题在这里已经有答案了我正在开发一个 ios 应用程序其中我必须为 UI 使用自定义字体我知道如何在应用程序中集成新的自定义字体为此我有下载扩展名为 ttf 的字体系列文件将它们添加到资源包中在 info plist 文件
Qemu Freescale i.MX6 DualLite SABRE：根文件系统未挂载

目标模拟 Qemu 特别支持的 sabrelite Freescale i MX6 Quad SABRE Lite Board Cortex A9 执行 qemu system arm M 它显示 Qemu 版本 2 10 1 主机 fe
Visual Studio 中（基于字符的）STL（流）容器的编译错误

这基本上是同一个问题 SO C2491 std numpunct id 不允许定义dllimport静态数据成员关闭但考虑以下事实在我看来这是一个完全有效的问题根据 SO 如何创建一个最小的完整的可验证的示例真不知道为什么有
在 Windows 上编写轻量级 GUI 程序的最快途径是什么？

我想要一个小型此可执行文件必须在 x86 64 架构以及 Itanium 芯片上的 32 位和 64 位 Windows XP Vista Server 2003 和 Server 2008 版本上运行如果我们只需要构建一次就可以在所有
将 IsAssignableFrom 与“开放”泛型类型一起使用

使用反射我试图找到从给定基类继承的类型集没花很长时间就搞清楚了简单类型但当涉及到泛型时我就被难住了对于这段代码第一个 IsAssignableFrom 返回 true 但第二个返回 false 然而最终的作业编译得很好 clas
ACTION_INSTALL_PACKAGE

我的应用程序正在尝试安装 APK Intent installIntent new Intent Intent ACTION INSTALL PACKAGE installIntent setData Uri fromFile new Fi
使用 Promises 的类型“{}”上不存在属性

我正在访问从已解决的承诺返回的对象的属性 return new Promise resolve gt Get result resolve result then r gt console log r id Typescript 编译代码并
解析请求URL时如何获取URL标签？

URL 可以有一个标签用符号分隔位于 URL 参数之后例如 http example com foo bar jsp p1 v1 test label 我希望标签成为 request getQueryString 的一部分和 req
使用 gcc 调用纯虚函数时出现链接器错误

我和一个朋友对对象的构造进行了一次非常有趣的讨论最终得到了这段代码 include
如何使用 Ctrl-D 终止程序？

I am trying to write a simple program that simulates a calculator I would like the program to exit or turn off when the
Android 按钮 - 如何将 focusable 设置为 true 并在第一次单击时仍然接受 onClick 侦听器？

UPDATE 我通过从按钮样式中删除两条可聚焦线并使用 onClick 事件处理程序来调用来解决了点击问题requestFocusFromTouch 不幸的是我遇到了 requestFocusFromTouch 聚焦错误按钮的问题它始终
SignedXml checksignature 返回 false

我查看了这里有关此问题的其他帖子但似乎没有一个帖子能解决我的情况上周我一直在尝试验证 SAML 断言我有 2 个客户向我发送了 SAML 但我无法验证它主要过程是我们获得一个 Base64 编码的断言并对其进行解码使用 Prese
在 Javascript 中访问私有成员的更好方法

阅读了一些关于 Javascript 的内容后原型继承模型我改变了构建类的风格 var Some Class function this public method function function constructor call t
HttpClient 4.0.1 - 如何释放连接？ [复制]

这个问题在这里已经有答案了我对一堆 URL 进行了循环对于每个 URL 我都执行以下操作 private String doQuery String url HttpGet httpGet new HttpGet url setDefa
Java 8 的字符串去重特性

Since String在 Java 中像其他语言一样会消耗大量内存因为每个字符消耗两个字节 Java 8 引入了一个新功能称为字符串去重它利用了这样一个事实字符数组是字符串和最终的内部数组因此 JVM 可以对它们进行处理我读
如何从 PySpark MultilayerPerceptronClassifier 获取分类概率？

我在 python 中使用 Spark 2 0 1 我的数据集位于 DataFrame 中因此我使用 ML 不是 MLLib 库进行机器学习我有一个多层感知器分类器但只有两个标签我的问题是是否不仅可以获得标签还可以获得或仅该

如何从 PySpark MultilayerPerceptronClassifier 获取分类概率？

如何从 PySpark MultilayerPerceptronClassifier 获取分类概率？ 的相关文章

随机推荐

热门标签

如何从 PySpark MultilayerPerceptronClassifier 获取分类概率？的相关文章