通过５折交叉验证，实现逻辑回归，决策树，SVM,随机森林，GBDT,Xgboost,lightGBM的评分

2023-11-17

通过５折交叉验证，实现逻辑回归，决策树，SVM,随机森林，GBDT,Xgboost,lightGBM的评分

导入的包

import pandas as pd
import warnings
from sklearn.preprocessing import scale
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from xgboost.sklearn import XGBClassifier
import lightgbm as lgb

读取数据集

data_all = pd.read_csv('/home/infisa/wjht/project/DataWhale/data_all.csv', encoding='gbk')

处理数据集

df_y=data_all['status']
df_X=data_all.drop(columns=['status'])
df_X=scale(df_X,axis=0)  #将数据转化为标准数据

构建模型

lr = LogisticRegression(random_state=2018,tol=1e-6)  # 逻辑回归模型

tree = DecisionTreeClassifier(random_state=2018) #决策树模型

svm = SVC(probability=True,random_state=2018,tol=1e-6)  # SVM模型

forest=RandomForestClassifier(n_estimators=100,random_state=2018) #　随机森林

Gbdt=GradientBoostingClassifier(random_state=2018) #CBDT

Xgbc=XGBClassifier(random_state=2018)  #Xgbc

gbm=lgb.LGBMClassifier(random_state=2018)  #lgb

构建评分函数，并采取５折交叉验证的方式评分

def muti_score(model):
    warnings.filterwarnings('ignore')
    accuracy = cross_val_score(model, df_X, df_y, scoring='accuracy', cv=5)
    precision = cross_val_score(model, df_X, df_y, scoring='precision', cv=5)
    recall = cross_val_score(model, df_X, df_y, scoring='recall', cv=5)
    f1_score = cross_val_score(model, df_X, df_y, scoring='f1', cv=5)
    auc = cross_val_score(model, df_X, df_y, scoring='roc_auc', cv=5)
    print("准确率:",accuracy.mean())
    print("精确率:",precision.mean())
    print("召回率:",recall.mean())
    print("F1_score:",f1_score.mean())
    print("AUC:",auc.mean())

其中mean()指的是求得的均值

模型	准确率	精确率	召回率	F1_score	AUC
逻辑回归	0.7890191148682617	0.6542724662896913	0.3377975457965613	0.44525012166067884	0.7840451024530857
决策树	0.6962524533638791	0.6962524533638791	0.6962524533638791	0.6962524533638791	0.6962524533638791
SVM	0.787758390223099	0.7351623295760905	0.24060335431243626	0.36179547264664874	0.7640376541388867
随机森林	0.7921756804332226	0.7135700690071172	0.2867128441334693	0.40835414886475174	0.7752164698827589
GBDT	0.7938590063951863	0.6604108594441386	0.36633732991104395	0.4708811551285791	0.7888240065764295
Xgboost	0.7982740847293591	0.6829783239831001	0.3663162336064133	0.47673826685376613	0.7914190511145234
LightGbm	0.79049080811139	0.6421783397519263	0.3730354066312717	0.47150438344663004	0.7776116341798183

分析
模型的评分思想，是通过采用５折交叉验证，得出其中的均值分数来评判。从上表中可以看出逻辑回归，随机森林，GBDT，Xgboost,LightGbm的各个指标都很相近而且分数也较高，说明这几个模型拟合数据效果都较好，都可以选做模型。综合来看Xgboost的分数更高一些，它的评分效果最好。
问题
01 还没有学会在代码中，可以直接输出表格的操作。
02 对各个模型的参数还不太了解
03 对数据集划分，怎样构造优质的数据还比较欠缺。
参考文章
cross_val_score的 scoring参数值解析
 python机器学习库sklearn——交叉验证（K折、留一、留p、随机）
12号同学写的博客
完整代码

import pandas as pd
import warnings
from sklearn.preprocessing import scale
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from xgboost.sklearn import XGBClassifier
import lightgbm as lgb


# 读取数据集
data_all = pd.read_csv('/home/infisa/wjht/project/DataWhale/data_all.csv', encoding='gbk')

# 划分为5折交叉验证数据集
df_y=data_all['status']
df_X=data_all.drop(columns=['status'])
df_X=scale(df_X,axis=0)  #将数据转化为标准数据
#构建模型

lr = LogisticRegression(random_state=2018,tol=1e-6)  # 逻辑回归模型

tree = DecisionTreeClassifier(random_state=2018) #决策树模型

svm = SVC(probability=True,random_state=2018,tol=1e-6)  # SVM模型

forest=RandomForestClassifier(n_estimators=100,random_state=2018) #　随机森林

Gbdt=GradientBoostingClassifier(random_state=2018) #CBDT

Xgbc=XGBClassifier(random_state=2018)  #Xgbc

gbm=lgb.LGBMClassifier(random_state=2018)  #lgb



def muti_score(model):
    warnings.filterwarnings('ignore')
    accuracy = cross_val_score(model, df_X, df_y, scoring='accuracy', cv=5)
    precision = cross_val_score(model, df_X, df_y, scoring='precision', cv=5)
    recall = cross_val_score(model, df_X, df_y, scoring='recall', cv=5)
    f1_score = cross_val_score(model, df_X, df_y, scoring='f1', cv=5)
    auc = cross_val_score(model, df_X, df_y, scoring='roc_auc', cv=5)
    print("准确率:",accuracy.mean())
    print("精确率:",precision.mean())
    print("召回率:",recall.mean())
    print("F1_score:",f1_score.mean())
    print("AUC:",auc.mean())



model_name=["lr","tree","svm","forest","Gbdt","Xgbc","gbm"]
for name in model_name:
    model=eval(name)
    print(name)
    muti_score(model)


'''
lr
准确率: 0.7890191148682617
精确率: 0.6542724662896913
召回率: 0.3377975457965613
F1_score: 0.44525012166067884
AUC: 0.7840451024530857
tree
准确率: 0.6962524533638791
精确率: 0.39920670173446693
召回率: 0.4157413593052284
F1_score: 0.40705496051057793
AUC: 0.6029856787858856
svm
准确率: 0.787758390223099
精确率: 0.7351623295760905
召回率: 0.24060335431243626
F1_score: 0.36179547264664874
AUC: 0.7640376541388867
forest
准确率: 0.7921756804332226
精确率: 0.7135700690071172
召回率: 0.2867128441334693
F1_score: 0.40835414886475174
AUC: 0.7752164698827589
Gbdt
准确率: 0.7938590063951863
精确率: 0.6604108594441386
召回率: 0.36633732991104395
F1_score: 0.4708811551285791
AUC: 0.7888240065764295
Xgbc
准确率: 0.7982740847293591
精确率: 0.6829783239831001
召回率: 0.3663162336064133
F1_score: 0.47673826685376613
AUC: 0.7914190511145234
gbm
准确率: 0.79049080811139
精确率: 0.6421783397519263
召回率: 0.3730354066312717
F1_score: 0.47150438344663004
AUC: 0.7776116341798183
'''

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

通过５折交叉验证，实现逻辑回归，决策树，SVM,随机森林，GBDT,Xgboost,lightGBM的评分的相关文章

eclipse导入后将普通项目变为java项目

eclipse用subclipse导入svn项目时没有选择项目类型这样就不能修改项目的buildpath no action aviliable 打开workspace下面的 projcet文件在标签
SparkSQL HiveSQL 常用正则表达式

SparkSQL HiveSQL 常用正则表达式目录 SparkSQL HiveSQL 常用正则表达式 1 匹配汉字 2 匹配手机号码 3 匹配身份证 4 SparkSQL HiveSQL 常用正则函数 5 SparkSQL 分组聚合
期待2021！

好久没写文章了甚至好久没有看文章了要说这些天怎么过去了呢恍恍惚惚竟一时语塞恍惚着这2020竟马上过去了好多好多人都写了分享了自己的年终总结看了一些大家好像都很有收获再想想自己也不能说没有任何收获但是说不出来最大的收
docker镜像服务器间复制

概述我们制作好镜像后有时需要将镜像复制到另一台服务器使用能达到以上目的有两种方式一种是上传镜像到仓库中本地或公共仓库但是另一台服务器很肯能只是与当前服务器局域网想通而没有公网的所以如果使用仓库的方式只能自己搭建私有仓库这会
SpringBoot+Dubbo分布式SOA项目骨架搭建（二）

SpringBoot Dubbo分布式SOA项目骨架搭建项目介绍本项目是来自于上一篇文章http blog csdn net songxinjianqwe article details 77478385 中的服务化拆分这个部分经过一
QSplitter(分离器或分隔符)

QSplitter 分离器或分隔符本文为原创文章转载请注明出处或注明转载自黄邦勇帅原名黄勇本文出自本人原创著作 Qt5 10 GUI完全参考手册网盘地址 https pan baidu com s 1iqagt4SEC8PU
顺序表的原理与初始化

顺序表是简单的一种线性结构逻辑上相邻的数据在计算机内的存储位置也是相邻的可以快速定位第几个元素中间不允许有空值插入删除时需要移动大量元素顺序表的三个要素用 elems 记录存储位置的基地址分配一段连续的存储空间 size
crontab的使用方法介绍

使用crontab你可以在指定的时间执行一个shell脚本或者一系列Linux命令例如系统管理员安排一个备份任务使其每天都运行安装 apt get install cron 服务器环境下默认都会安装使用 crontab e 进入编辑页
java常见面试题及答案 11-20（JVM）

11 JVM内存分哪几个区每个区的作用是什么 java虚拟机主要分为以下一个区方法区 1 有时候也成为永久代在该区内很少发生垃圾回收但是并不代表不发生GC 在这里进行的GC主要是对方法区里的常量池和对类型的卸载 2 方法区主要用来存
安全测试初体验-XSS

XSS XSS攻击成功后攻击者能够对用户当前浏览器的页面植入恶意脚本通过恶意脚本控制用户的浏览器这些用以完成各种具体功能的恶意脚本被称为 XSS Payload XSS Payload实际上就是JavaScript脚本所以任何J
JS逆向之某头条jsvmp逻辑层算法分析

今天我们来研究下某头条的jsvmp逻辑层加密算法其主要的目的是想在大家在接触此类算法时给出点实质性的建议和思路 0x01 分析加密进入到目标网站通过分析请求会发现一个动态的 signature 加密参数 0x02 定位加密不同于以
在matlab中编译C++和opencv

1 在matlab中运行 mex setup命令选择C 类型 2 运行mex build 此时matlab配置基本完成 3在VS中添加matlab中的库目录和头文件目录附加库目录 matlab安装目录下面的 extern lib win
【Docker】使用Docker-Compose 搭建基于 WordPress 的博客网站

引本文将使用流行的博客搭建工具 WordPress 搭建一个私人博客站点部署过程中使用到了 Docker MySQL 站点搭建完成后经行了发布文章的体验 WordPress WordPress 是一个广泛使用的开源内容管理系统 CMS
报告老师！AICA 学员交作业了！

关注飞桨PaddlePaddle 公众号获取更多技术内容
linux-ssh安全策略（sshd）

实际使用中为限制ssh高危端口我们一般做以下策略 1 修改端口 ssh默认用22 2 密码强口令 3 root限制 4 新增ssh登录白名单 5 开启端口防火墙 6 有条件的话整个密钥登录更安全不过avatar目前不支持密钥登录所以项
最安全的加密算法

在密码学里有一种理想的加密方案叫做一次一密乱码本 one time pad one time pad的算法有以下要求 1 密钥必须随机产生2 密钥不能重复使用3 密钥和密文的长度是一样的 one time pad是最安全的加密算法双方
“汉堡+奶昔”怎么就成了精致生活的热门标签？

图片来源视觉中国文章来源 DT财经左手汉堡右手奶昔这是新天地Coco的时髦新日常最近沪上刮起一阵打卡新风潮汉堡竟然成了标记城市美好生活的一大利器还在纠结晚餐去金拱门还是汉堡王的DT君发现自己在吃汉堡这件事上竟然也要被划出潮
一步一步教你怎样给Apache Spark贡献代码

本文将教大家怎样用10个步骤完成给Apache Spark贡献代码这个任务到 Apache Spark 的github 页面内点击 fork 按钮你的github帐户中会出现 spark 这个项目本地电脑上使用 git clone
用python开发了一个绘制股票k线图的工具，还可以预测股票涨跌！【文末附源码和教学视频】

文章目录聊一聊这个工具效果展示股票数据运行项目前端界面后端接口源码地址聊一聊这个工具起初我并不在意echarts 这不过是一个偶然一次选择一条简单的代码一个图表的诞生直到我完成了K线图的绘制股票一个神奇的发明
JS的内存泄露及处理方式

概念应用程序不再需要占用内存的时候由于某些原因内存没有被操作系统或可用内存池回收就叫做内存泄漏 memory leak 内存的生命周期内存分配当我们声明变量函数对象的时候系统会自动为他们分配内存内存使用即读写内存也就

随机推荐

利用CSS调整图片大小

通常我们可以给图片 img 设置一个CSS属性定义其高度和宽度但有时候我们只希望控制图片的最大可见大小这样的操作一般有两种办法 1 直接使用CSS属性值 2 使用JavaScript动态设置CSS值一固定大小一般为了限制
新手傻瓜式推荐教程：anaconda+Tensorflow+keras的安装详细教程

目录一 Anaconda的安装二 Anaconda下配置Tensorflow 三 keras下载四出现报错 You are using pip version 9 0 1 however version 21 1 3 is avai
Java-用for循环嵌套输出1~100的质数（素数）

package kjul public class jgtd public static void main String args int i j for i 2 i lt 100 i boolean flag true for j 2
pg数据库（七）之备份还原

一备份数据库 1 切换到postgres用户切换到postgres用户即可不用psql sudo su postgres 2 备份数据库 pg dump host 数据库IP port 端口 user 用户名 password 密码
MySQL——规范数据库设计

文章目录 1 为什么需要设计数据库 2 三大范式 2 1 第一范式 1NF 2 2 第二范式 2NF 2 3 第三范式 3NF 3 规范性和性能的问题 1 为什么需要设计数据库当数据库比较复杂的时候我们就需要设计糟糕的数据库设计数据
postgresql定位未使用的索引（unused index)

unused index会导致不必要的io开销如写操作 insert update 期间必须维护所有index 1 鉴于pg stat reset 函数能够reset统计信息到0 查找unused index时先参考pg stat d
echarts地图的tooltip自定义样式显示图表

echarts地图的tooltip自定义样式显示图表最近遇到一个需求需要在地图中实现鼠标点击或者停留在地图中某一片区域时该区域显示亮高和显示tooltip提示框信息但是难点在于需要在tooltip提示框中再绘制一层图表按以往我们做
elasticsearch的版本和支持的jdk版本情况

elasticsearch的版本和支持的jdk版本情况参加官网 https www elastic co cn support matrix matrix jvm
快速选择算法

快速选择算法我们可以将快速排序算法稍作修改将其应用在选择问题上该算法称为快速选择算法复杂度O NlogN 最坏情况为O N 2 令 A 为A中的元素个数查找A中第k个最小元算法步骤如下 1 如果 A 1 那么k 1 则将A中的元素
H5 及 web 页面微信授权登录流程

一事先准备工作配置参数测试公众平台信息测试号相关配置示例 1 打开公众平台的测试账号 2 配置js接口安全域名 3 扫码关注测试公众号 4 修改网页授权地址配置授权回调的域名至于什么是OAuth2 0 大家自行百度吧这里的域名也
传奇数据库字段说明

MagicDb 是你所修炼的法术和各种技能 1 magsid 物品代号 2 magname 物品名称 3 effect type 效果属性 4 effect 效果放此魔法所产生的动画效果 5 spell 每次耗用魔法值 6 defspel
无版权,全免费,请收藏这10个免费高清无权素材网站

无版权全免费请收藏这10个免费高清无权素材网站 2020 12 9 适用人群网页设计师平面设计人员视频制作动画设计人员 PS初学者产品运营人员配图公众号运营人员配图对于设计师来说图片视频素材的好坏决定了设计效果的满意度
C/C++犯二程度计算

文章目录步骤一步骤二步骤三下面为此题解析为了详细篇幅可能有点长如果不想看解析可翻到步骤三查看源程序此题可以清晰看出这是一道对数组操作的题目因为整型数据的范围为 32 768 32767可以看出该题目要求是位数不大于10
Android异常 SecurityException: Permission Denial: starting Intent

异常信息如下 SecurityException Permission Denial starting Intent act android intent action MAIN cat android intent category LA
【报错】解决读取json时，出现 NameError: name ‘false‘ is not defined

以文本格式读取json文件时出现如下类型错误 NameError name false is not defined NameError name null is not defined 原因是因为直接以为本流读取json 导致 fal
ETL数据库数据采集&订单数据采集

问题解决增加目标数据库配置信息结果写出MySQL的数据库相关配置 target host localhost target port 3306 target user root target password mysql target
c# .net mvc的IHttpHandler奇妙之旅--图片文件请求安全过滤,图片防盗链

源码下载 c net mvc图片文件请求安全过滤图片防盗链 https download csdn net download cplvfx 88206428 在阅读该文章前请先阅读该文章 c net mvc的IHttpHandler奇妙
Threejs进阶之五：使用CSS2DRenderer给模型添加HTML标签

这一节给场景中的模型添加标签想实现的效果是通过鼠标点击场景中摩托车的某个部位则在场景中出现一个标签并在标签上显示该部位的信息最终的效果图如下要实现上面的效果需要用到CSS 2D渲染器先来了解下CSS 2D渲染器 CSS2DR
openwrt The process did not produce any response

先记录问题解决了再来说明搜索了一圈没有人说到这个问题我个人经历是 luc选择的语言是简体中文换成英语就没错了还在摸索
通过５折交叉验证，实现逻辑回归，决策树，SVM,随机森林，GBDT,Xgboost,lightGBM的评分

通过折交叉验证实现逻辑回归决策树 SVM 随机森林 GBDT Xgboost lightGBM的评分导入的包 import pandas as pd import warnings from sklearn preprocessin

通过５折交叉验证，实现逻辑回归，决策树，SVM,随机森林，GBDT,Xgboost,lightGBM的评分

通过５折交叉验证，实现逻辑回归，决策树，SVM,随机森林，GBDT,Xgboost,lightGBM的评分

通过５折交叉验证，实现逻辑回归，决策树，SVM,随机森林，GBDT,Xgboost,lightGBM的评分 的相关文章

随机推荐

热门标签

通过５折交叉验证，实现逻辑回归，决策树，SVM,随机森林，GBDT,Xgboost,lightGBM的评分的相关文章