Spark：如何获得伯努利朴素贝叶斯的概率和 AUC？

2023-11-29

我正在运行一个Bernoulli Naive Bayes使用代码：

val splits = MyData.randomSplit(Array(0.75, 0.25), seed = 2L)
val training = splits(0).cache()
val test = splits(1)
val model = NaiveBayes.train(training, lambda = 3.0, modelType = "bernoulli")

我的问题是如何获得 0（或 1）类成员资格的概率并计算 AUC。我想得到类似的结果LogisticRegressionWithSGD or SVMWithSGD我在哪里使用这段代码：

val numIterations = 100

val model = SVMWithSGD.train(training, numIterations)
model.clearThreshold()

// Compute raw scores on the test set.
val labelAndPreds = test.map { point =>
      val prediction = model.predict(point.features)
      (prediction, point.label)
}

// Get evaluation metrics.
val metrics = new BinaryClassificationMetrics(labelAndPreds)
val auROC = metrics.areaUnderROC()

不幸的是这个代码不适用于NaiveBayes.

关于伯努利朴素贝叶斯的概率，这里有一个例子：

// Building dummy data
val data = sc.parallelize(List("0,1 0 0", "1,0 1 0", "1,0 0 1", "0,1 0 1","1,1 1 0"))

// Transforming dummy data into LabeledPoint
val parsedData = data.map { line =>
  val parts = line.split(',')
  LabeledPoint(parts(0).toDouble, Vectors.dense(parts(1).split(' ').map(_.toDouble)))
}

// Prepare data for training
val splits = parsedData.randomSplit(Array(0.75, 0.25), seed = 2L)
val training = splits(0).cache()
val test = splits(1)
val model = NaiveBayes.train(training, lambda = 3.0, modelType = "bernoulli")

// labels 
val labels = model.labels
// Probabilities for all feature vectors
val features = parsedData.map(lp => lp.features)
model.predictProbabilities(features).take(10) foreach println

// For one specific vector, I'm taking the first vector in the parsedData
val testVector = parsedData.first.features
println(s"For vector ${testVector} => probability : ${model.predictProbabilities(testVector)}")

至于AUC：

// Compute raw scores on the test set.
val labelAndPreds = test.map { point =>
  val prediction = model.predict(point.features)
  (prediction, point.label)
}

// Get evaluation metrics.
val metrics = new BinaryClassificationMetrics(labelAndPreds)
val auROC = metrics.areaUnderROC()

关于聊天中的询问：

val results = parsedData.map { lp =>
  val probs: Vector = model.predictProbabilities(lp.features)
  (for (i <- 0 to (probs.size - 1)) yield ((lp.label, labels(i), probs(i))))
}.flatMap(identity)

results.take(10).foreach(println)

// (0.0,0.0,0.59728640251696)
// (0.0,1.0,0.40271359748304003)
// (1.0,0.0,0.2546873180388961)
// (1.0,1.0,0.745312681961104)
// (1.0,0.0,0.47086939671877026)
// (1.0,1.0,0.5291306032812298)
// (0.0,0.0,0.6496075621805428)
// (0.0,1.0,0.3503924378194571)
// (1.0,0.0,0.4158585282373076)
// (1.0,1.0,0.5841414717626924)

如果您只对 argmax 类感兴趣：

val results = training.map { lp => val probs: Vector = model.predictProbabilities(lp.features)
  val bestClass = probs.argmax
  (labels(bestClass), probs(bestClass))
}
results.take(10) foreach println

// (0.0,0.59728640251696)
// (1.0,0.745312681961104)
// (1.0,0.5291306032812298)
// (0.0,0.6496075621805428)
// (1.0,0.5841414717626924)

Note:与火花1.5+

编辑：（对于 Pyspark 用户）

似乎有些人在使用概率获取时遇到了麻烦pyspark and mllib。嗯，这很正常，Spark-MLlib不为 pyspark 提供该功能。

因此你需要使用spark-ml DataFrame基于API：

from pyspark.sql import Row
from pyspark.ml.linalg import Vectors
from pyspark.ml.classification import NaiveBayes

df = spark.createDataFrame([
    Row(label=0.0, features=Vectors.dense([0.0, 0.0])),
    Row(label=0.0, features=Vectors.dense([0.0, 1.0])),
    Row(label=1.0, features=Vectors.dense([1.0, 0.0]))])

nb = NaiveBayes(smoothing=1.0, modelType="bernoulli")
model = nb.fit(df)

model.transform(df).show(truncate=False)
# +---------+-----+-----------------------------------------+----------------------------------------+----------+
# |features |label|rawPrediction                            |probability                             |prediction|
# +---------+-----+-----------------------------------------+----------------------------------------+----------+
# |[0.0,0.0]|0.0  |[-1.4916548767777167,-2.420368128650429] |[0.7168141592920354,0.28318584070796465]|0.0       |
# |[0.0,1.0]|0.0  |[-1.4916548767777167,-3.1135153092103742]|[0.8350515463917526,0.16494845360824742]|0.0       |
# |[1.0,0.0]|1.0  |[-2.5902671654458262,-1.7272209480904837]|[0.29670329670329676,0.7032967032967034]|1.0       |
# +---------+-----+-----------------------------------------+----------------------------------------+----------+

您只需要选择您的预言列并计算您的 AUC。

关于spark-ml中朴素贝叶斯的更多信息，请参考官方文档here.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

apachesparkmllib

naivebayes

apachesparkml

Spark：如何获得伯努利朴素贝叶斯的概率和 AUC？的相关文章

过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
如何将模型结果保存到文本文件？

我正在尝试将从模型生成的频繁项集保存到文本文件中该代码是 Spark ML 库中 FPGrowth 示例的示例 Using saveAsTextFile直接在模型上写入 RDD 位置而不是实际值 import org apache spa
如何在 Apache Spark 中通过 DStream 使用特征提取

我有通过 DStream 从 Kafka 到达的数据我想进行特征提取以获得一些关键词我不想等待所有数据的到达因为它是可能永远不会结束的连续流所以我希望以块的形式执行提取如果准确性会受到一点影响对我来说并不重要到目前为止我整理
Spark SQL 失败，因为“常量池已超过 JVM 限制 0xFFFF”

我在 EMR 4 6 0 Spark 1 6 1 上运行此代码 val sqlContext SQLContext getOrCreate sc val inputRDD sqlContext read json input try inp
如何使用 Spark 2 屏蔽列？

我有一些表我需要屏蔽其中的一些列要屏蔽的列因表而异我正在读取这些列application conf file 例如对于员工表如下所示 id name age address 1 abcd 21 India 2 qazx 42 Ger
Spark：如何使用crossJoin

我有两个数据框 df1有 100000 行并且df2有 10000 行我想创建一个df3这是两者的交叉连接 val df3 df1 crossJoin df2 这将产生 10 亿行尝试在本地运行它但似乎需要很长时间您认为本地可以实现
如何使用 AWS Glue 开始处理从 Web 服务终端节点提取的数据？

更多源数据来自我需要定期轮询的 Web 服务端点获得数据后我可以使用 pyspark 执行传统的 ETL 并最终将数据写入 S3 和 Redshift 我不确定如何进行初始提取甚至不确定我应该在 AWS Glue 文档中查找什么内容
IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
在 Spark 结构化流 2.3.0 中连接两个流时，左外连接不发出空值

两个流上的左外连接不发出空输出它只是等待记录添加到另一个流中使用套接字流来测试这一点在我们的例子中我们想要发出具有 null 值的记录这些记录与 id 不匹配或且不属于时间范围条件水印和间隔的详细信息如下 val ds1Map
将 Tuple2 的值部分（即映射）合并为按 Tuple2 的键分组的单个映射

我在 Scala 和 Spark 中这样做我有和Dataset of Tuple2 as Dataset String Map String String 下面是值的示例Dataset A 1 gt 100 2 gt 200 3 gt 1
Spark 2.2 无法将 df 写入 parquet

我正在构建一个聚类算法我需要存储模型以供将来加载我有一个具有以下架构的数据框 val schema new StructType add StructField uniqueId LongType add StructField tim
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
Spark 在 WholeTextFiles 上创建的分区少于 minPartitions 参数

我有一个文件夹里面有 14 个文件我在一个集群上使用 10 个执行器运行 Spark Submit 该集群的资源管理器为 YARN 我创建了我的第一个 RDD 如下所示 JavaPairRDD
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且我正在尝试在火花流中使用来自卡夫卡的消息以下是代码 val topics notes val kafkaParams Map String Object bootst
了解 Spark 中的 DAG

问题是我有以下 DAG 我认为当需要洗牌时火花将工作划分为不同的阶段考虑阶段 0 和阶段 1 有些操作不需要洗牌那么为什么 Spark 将它们分成不同的阶段呢我认为跨分区的实际数据移动应该发生在第 2 阶段因为这里我们需要cogr
Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
hive - 在值范围之间将一行拆分为多行

我在下面有一张表想按从开始列到结束列的范围拆分行即 id 和 value 应该对开始和结束之间的每个值重复包括两者 id value start end 1 5 1 4 2 8 5 9 所需输出 id value current
Spark：导入UTF-8编码的文本文件

我正在尝试处理一个包含很多特殊字符的文件例如德语变音符号 o 等如下所示 sc hadoopConfiguration set textinputformat record delimiter r n r n sc textFile f

随机推荐

AVURLAsset 无法加载远程文件

我在使用 AVURLAsset 时遇到问题 NSString const kContentURL http devimages apple com iphone samples bipbop bipbopall m3u8 NSURL con
如何从 Codename One 的构建服务器构建原生 Android 源代码

我正在使用新的gradle 构建开关发送 Codename One 的 Android 版本时使用 gradle 构建的突出好处之一是能够在 Android Studio 中打开运行并且该项目确实为我打开但我收到以下错误错误无法
迭代 !DumpHeap 输出以读取内存偏移处的值

我正在尝试想出一个 WinDbg 命令行表达式它接受以下命令的输出 DumpHeap命令对于每个地址从偏移量读取 64 位值0x08地址后我认为这是可能的不确定但到目前为止我所做的每一次尝试都因一些错误而失败我搜索了很多但大
Scikit-Learn 给出错误的 R 平方值

我正在 Python 上训练机器学习模型并使用 Scikit Learn 中的 R 平方度量来评估它们 Id 决定使用 Scikit 的 r2 score 函数为其提供一个与输入 y true 值相同的随机数组以及与 y predic
Android ContactsContract 类：如何忽略非主要 ACCOUNT_TYPES？

所以我现在知道我可以使用ContactsContract类列出 Android 设备上所有可用的联系人像这样的事情 private void getContacts ContentResolver resolver getContentR
iPhone调试启动远程程序时出错：无法获取进程907的任务

创建了一个用于临时分发的应用程序并安装在 iphone 上但它无法在已安装的 iphone 上运行尝试将 iphone 连接到 mac 并调试该应用程序但它抛出错误说明启动远程程序时出错无法获取进程的任务 907 有没有办法从 x
按住字母键后，Java KeyListener 不再触发按键事件

我在 Java 中的 KeyListener 上遇到问题当按住字母键例如 s 或 a 时我第一次正确获取按键事件 keyPressed keyTyped keyReleased 但是下次我去按键盘上的任意键字母或非字母我只得到一个
转换 XSLT 中的时间字符串

如何转换时间字符串 20101115083000 0200 to 2010 11 15 08 30 00 0200 使用 XSLT 我们使用模板
B 在 A 中的值的位置索引

我这里有一个有点棘手的问题给定两个数组 A 和 B A np array 8 5 3 7 B np array 5 5 7 8 3 3 3 我想将 B 中的值替换为该值的索引在 A 中在这个示例中它看起来像 1 1 3 0 2 2 2
如何使用正则表达式过滤特殊字符（不包括法语字母）

I use replace w s g replace s g 可以过滤所有特殊字符但我不想过滤法文字母你可以使用这个 w s g 您不需要特殊治疗因为它包含在 w 参考法语正字法
是什么导致 VS 2010 SP1 WPF Designer 崩溃？

在以下场景中我们在 VS2010 WPF 设计器中的各种计算机上遇到崩溃安装VS 2010 SP1 64 位 Windows 7 对 NHibernate dll 的引用版本 1 2 0 712 要重现错误请创建新的 WPF 解决方
在 ASP.NET 和 C# 中的服务器端使用 JSON

我有一个在客户端使用 JQuery 的 ASP NET Web 表单我有一个用户界面它正在构建对象集合并将它们存储在 JSON 中客户端实现完成后我现在需要在用户单击按钮时处理该信息单击此按钮后我需要循环遍历该 JSON 集合并
尝试用 c 为 win32 api 创建一个简单的 shell

我浏览了msdn文档中给出的演示代码http msdn microsoft com en us library windows desktop ms682512 v vs 85 aspx我想知道你是否知道如何获得argv 中执行的命令Cre
如何检查 PDF 页面嵌入图像的分辨率 (DPI)？

有没有免费的库可用于获取 PDF 文件中包含的 DPI 图像分辨率我已经使用 PDFSharp 尝试了以下代码但它返回的 DPI 不正确例如它显示 96dpi 而它应该是 150dpi using PdfDocument pdf
如何在 PyCharm 中返回调试控制台？

如果 PyCharm 中的调试控制台未显示如何恢复它我发现如果我重新启动调试它就会回来但除此之外还有其他方法吗我一直在阅读文档并搜索很多答案但到目前为止还没有找到方法下面的动画图像显示调试控制台在屏幕底部打开随后在同一个图像
AndroidHttpClient关闭后无法getEntity().getContent()

public InputStream getInputStream AndroidHttpClient client AndroidHttpClient newInstance USERAGENT HttpUriRequest reques
单击按钮时 EXC_BAD_ACCESS EXC_I386_GPFLT

我有一个UIViewController with UITableView 当 tableView 为空时我想显示另一个视图所以我使用这个 self tableView setHidden YES NoKidsViewController
在 WHERE 中使用“CASE WHEN”语句进行查询会导致 QuerySyntaxException：意外的 AST

我正在尝试使用 Spring Data 进行查询但无法使其工作 Query SELECT t FROM Thing t WHERE name LIKE name AND CASE WHEN minVal lt 0 THEN TRUE EL
标签栏，每次按下标签时都会重新加载

我正在创建一个应用程序其中有五个选项卡每次按下选项卡时我都需要重新加载每个控制器把你想要重新加载的代码在视图中将出现或者在视图中确实出现过的所有视图中一切顺利
Spark：如何获得伯努利朴素贝叶斯的概率和 AUC？

我正在运行一个Bernoulli Naive Bayes使用代码 val splits MyData randomSplit Array 0 75 0 25 seed 2L val training splits 0 cache val t

Spark：如何获得伯努利朴素贝叶斯的概率和 AUC？

Spark：如何获得伯努利朴素贝叶斯的概率和 AUC？ 的相关文章

随机推荐

热门标签

Spark：如何获得伯努利朴素贝叶斯的概率和 AUC？的相关文章