Pyspark机器学习:模型评估(ml.Evaluation包的使用)

2023-11-13

Pyspark:V3.2.1

  本篇博客主要介绍pyspark.ml.Evaluation包的使用。

1 概览

  pyspark.ml.Evaluation包中的评估类主要包括以下几种如下表。

作用
Evaluator 评估器的基类。但是这个类中的_evaluate方法并没有具体实现,其他所有的评估类都继承自该类的子类JavaEvaluator。
BinaryClassificationEvaluator 二分类模型评估器
RegressionEvaluator 回归模型的评估器
MulticlassClassificationEvaluator 多分类模型评估器
MultilabelClassificationEvaluator 多标签分类模型评估器
ClusteringEvaluator 聚类模型评估器
RankingEvaluator 排序学习评估器

2 使用案例

  这一部分主要是为了展示如何对不同类型的模型的性能进行评估,不会把精力放在模型的训练上。这里使用sklearn.datasets来生成模型训练需要的数据。

2.1 分类模型评估器
2.1.1 二分类

这里先介绍BinaryClassificationEvaluator类中的参数,主要参数如下:

参数 作用
rawPredictionCol 指定保存raw Prediction的列名。
labelCol 指定保存真实label值的列名。
metricName 指定评估指标。该模型可接受的评估指标值为:areaUnderROC(默认值)、areaUnderPR
weightCol 指定各个样例的权重的列名。不是必须的
numBins 分箱数。ROC曲线、PR曲线计算时会

举例如下:

import os
from pyspark.sql import SparkSession
from pyspark.ml.classification import *
from sklearn.datasets import *
from pyspark.ml.evaluation import *
from pyspark.ml.linalg import Vectors

os.environ['SPARK_HOME'] ='/Users/sherry/documents/spark/spark-3.2.1-bin-hadoop3.2'
spark=SparkSession.builder.appName('ml').getOrCreate()

#构建二分类数据集
X,y=make_classification(n_samples=500,n_features=5,n_redundant=1,
                        n_informative=4,n_classes=2)
data_2C=[[Vectors.dense(x_item),int(y_item)] for x_item,y_item in zip(X,y)]
#构建DataFrame
data_2C=spark.createDataFrame(data_2C,['features','label'])
#训练模型
LR=LogisticRegression(featuresCol='features',labelCol='label',
                      predictionCol='prediction')
LR_model_2C=LR.fit(data_2C)
data_2C=LR_model_2C.transform(data_2C)
#模型评估
#BinaryClassificationEvaluator各个参数都有默认值,所以这里都使用默认值
evaluator=BinaryClassificationEvaluator()
roc=evaluator.evaluate(data_2C)
print(roc) #0.87
2.1.2 多分类

MulticlassClassificationEvaluator类中的参数与BinaryClassificationEvaluator类中的大体相同,但没有numBins参数,另外其新增的参数主要包括以下几种:

参数 作用
metricLabel 指定参数如下指标计算中的类别:truePositiveRateByLabe、falsePositiveRateByLabel、precisionByLabel、recallByLabel、fMeasureByLabel。指定的类别值必须大于等于0。
beta 指定指标weightedFMeasure、fMeasureByLabel计算时的 β \beta β值。该值可以接收大于0的值作为参数,默认值为1。
probabilityCol 指定预测类的条件概率的列名
eps

另外,metricName参数可接受的评估指标主要有:f1、accuracy、weightedPrecision、weightedRecall、weightedTruePositiveRate、weightedFalsePositiveRate、weightedFMeasure、truePositiveRateByLabel、falsePositiveRateByLabel、precisionByLabel、recallByLabel、fMeasureByLabel、logLoss、hammingLoss

举例如下:

#构造三分类数据
X,y=make_classification(n_samples=500,n_features=4,n_classes=3,n_informative=4,n_redundant=0)
data_2C=[[Vectors.dense(x_item),int(y_item)] for x_item,y_item in zip(X,y)]
#构建DataFrame
data_2C=spark.createDataFrame(data_2C,['features','label'])
#训练模型
LR=LogisticRegression(featuresCol='features',labelCol='label',
                      predictionCol='prediction')
LR_model_2C=LR.fit(data_2C)
data_2C=LR_model_2C.transform(data_2C)
#模型评估
evaluator=MulticlassClassificationEvaluator(metricLabel=1,
                                            metricName='truePositiveRateByLabel')
tpr_label=evaluator.evaluate(data_2C)
print(tpr_label) #0.721
2.1.3 多标签分类

关于多标签分类可以参考博客:https://blog.csdn.net/yeshang_lady/article/details/128837245。MultilabelClassificationEvaluator类目前还处在实验阶段(ml.Classification中都还没有能够进行标签分类训练的类),现阶段只能对多标签分类的结果进行评估。
该类中metricName参数可接受的评估指标有:subsetAccuracy、accuracy、hammingLoss、precision、recall、f1Measure、precisionByLabel、recallByLabel、f1MeasureByLabe、microPrecision、microRecall、microF1Measure
其具体用法如下:

import os
from pyspark.sql import SparkSession
from pyspark.ml.classification import *
from sklearn.datasets import *
from pyspark.ml.evaluation import *
from pyspark.ml.linalg import Vectors
import pandas as pd
import numpy as np
from skmultilearn.problem_transform import BinaryRelevance #基于问题转化
from sklearn.tree import DecisionTreeClassifier

X,y=make_multilabel_classification(n_samples=1000,n_features=20,
                                   n_classes=5,n_labels=2,
                                   allow_unlabeled=False)
classifier=BinaryRelevance(DecisionTreeClassifier(max_depth=5))
classifier.fit(X,y)
y_pred=classifier.predict(X).toarray()

#为了满足MultilabelClassificationEvaluator,需要对y和y_pred的形式进行处理
y=np.where(y==1)
y_pred=np.where(y_pred==1)
data=[([],[]) for _ in range(X.shape[0])]
for idx,val in enumerate(y[0]):
    data[val][0].append(float(y[1][idx]))
for idx,val in enumerate(y_pred[0]):
    data[val][1].append(float(y_pred[1][idx]))

spark=SparkSession.builder.appName('ml').getOrCreate()
data=spark.createDataFrame(data,['label','prediction'])

evaluator=MultilabelClassificationEvaluator(metricName='accuracy')
evaluator.evaluate(data) #0.726
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Pyspark机器学习:模型评估(ml.Evaluation包的使用) 的相关文章

随机推荐

  • Pandas中 DataFrame中添加一行/一列

    概述 添加行df loc 以及df append 两种方法 添加列df 和df insert 两种方法 添加行例concat 和reindex 两种方法 一 添加行 1 采用loc 方法 loc方法和iloc方法一样 可以索引DataFra
  • 定义和初始化vector对象

    和任何一种类类型一样 vector模板控制着定义和初始化向量的方法 下面列出了定义vector对象的常用方法 默认初始化 vector对象从而创建一个指定类型的空vector vector
  • Android Studio SDK Manager license 失效问题

    Before building your project you need to accept the license agreements and complete the installation of the missing comp
  • 创客教育中常见的视觉识别摄像头介绍

    近年来 创客教育 人工智能教育在中小学日渐普及 从目前中小学教育的应用层面来说 主要包含了视觉和听觉等几个领域的人工智能教学 因此 摄像头模块或传感器 作为视觉领域必不可少的教具 也被应用的越来越多 市面上越来越多的厂家或机构 也开发了许多
  • java项目时间不够怎么办_时间总是不够用怎么办?

    我在最近两年逐渐体会到两件事 1 这个世界上最公平的事情 就是每人每天拥有24个小时 2 绝大数人都是普通人 一次只能做一件事 我打游戏有三个原则 第一不玩匹配 其二不开声音 最后基本不双排 简单的三条原则 可以大大缩减我每赛季登录王者的时
  • 【git】git命令和相关脚本

    目录 git clone git checkout git diff git diff 忽略文件权限被修改的文件 对比两个分支差异 git add git pull rebase git pull git fetch git reset g
  • 如何查看linux版本 如何查看LINUX是多少位

    一 如何得知自己正在使用的linux是什么版本呢 下面的几种方法将给你带来答案 1 查看内核版本命令 1 root q1test01 cat proc version Linux version 2 6 9 22 ELsmp bhcompi
  • 【数组指针】 仅此一篇 让你深刻理解数组指针

    作者 Mitu 本帖内容著作权归作者所有 转载请务必保留本文链接 数组指针 数组指针 顾名思义 就是指向数组的指针 我们是这样定义它的 int p n n为要定义的个数 按照优先级运算 与 优先级相同 根据结合律 就从左向右运算 里是 p
  • vue中input中v-model语法糖原理

    v model是双向数据绑定 其本质是一个语法糖 我们怎么理解v model在中的运行原理呢 我们将代码进行拆分分析一下 div div
  • mysql如何快速导入大sql文件

    phpmyadmin有内存等的限制 所以文件过大会导致数据导入不全问题 Navicat Premium工具运行sql数据是可以倒全但是效率低 无法快速实现数据恢复 博主亲测source导入12Gsql mysql命令行执行 use data
  • Animator is not playing an AnimatorController

    调用bodyAnimator SetTrigger时出现标题的警告 原因是Animator所在的GameObject是不可见的 可以打印出activeInHierarchy确认一下 把动画的播放方式改为bodyAnimator Play就会
  • ruoyi的springboot微信小程序登录实现方式

    文章目录 前言 一 微信小程序的登录接口 二 微信用户数据库设计 三 springboot登录接口实现 1 新建实体WxUser 2 修改LoginUser类 3 增加wxLogin接口 4 微信小程序登录接口 5 开放接口 总结 前言 主
  • vue考试系统后台管理项目-登录、记住密码功能

    考试系统后台管理项目介绍 技术选型 Vue2 0 Elemenu ui 项目功能介绍 账户信息模块 菜单权限 角色权限设置 角色权限分配 账号设置 公司分组 考试管理模块 新增 编辑 删除考试试题 成绩查看 阅卷评分 成绩记录 成绩导出 题
  • 毕业设计 STM32单片机智能WiFi天气助手 - 物联网 单片机

    文章目录 0 前言 1 设计内容 2 软件设计 3 关键代码 4 最后 0 前言 这两年开始毕业设计和毕业答辩的要求和难度不断提升 传统的毕设题目缺少创新和亮点 往往达不到毕业答辩的要求 这两年不断有学弟学妹告诉学长自己做的项目系统达不到老
  • 【数据结构】冒泡排序、快速排序(递归,非递归)、归并排序(递归,非递归),七大排序比较,

    文章目录 冒泡排序 快速排序 归并排序 七大排序之间的对比 冒泡排序 基本思想 所谓交换 就是根据序列中两个记录键值的比较结果来对换这两个记录在序列中的位置 交换排序的特点是 将键值较大的记录向序列的尾部移动 键值较小的记录向序列的前部移动
  • 一、Go基础知识入门

    1 go语言介绍 2 go开发环境搭建 2 1 go的安装 go下载地址 All releases The Go Programming Language windows选择下载go1 20 2 windows amd64 msi文件 双击
  • python join_join与python实现列合并

    在linux下powerpath对盘与更改盘符名 篇中提到了修改聚合后的多路径别名的问题 在数据库RAC增加存储盘的过程中 还会涉及一个常见的问题是多个RAC之间进行盘符名核对的问题 这里还是以三节点RAC 加 EMC存储盘为例 安装EMC
  • 【推理引擎】ONNXRuntime 的架构设计

    Python微信订餐小程序课程视频 https edu csdn net course detail 36074 Python实战量化交易理财系统 https edu csdn net course detail 35475 ONNXRun
  • 【毕业设计】基于单片机的无接触测温枪 - MLX90614 红外测温仪 嵌入式 物联网 stm32

    文章目录 0 前言 1 简介 2 主要器件 3 实现效果 4 相关模块 配置介绍 5 部分核心代码 5 最后 0 前言 这两年开始毕业设计和毕业答辩的要求和难度不断提升 传统的毕设题目缺少创新和亮点 往往达不到毕业答辩的要求 这两年不断有学
  • Pyspark机器学习:模型评估(ml.Evaluation包的使用)

    Pyspark V3 2 1 本篇博客主要介绍pyspark ml Evaluation包的使用 1 概览 pyspark ml Evaluation包中的评估类主要包括以下几种如下表 类 作用 Evaluator 评估器的基类 但是这个类