RandomForestClassifier、SVM、xgboost实现二分类算法

2023-05-16

RandomForestClassifier

# -*- coding: utf-8 -*-
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
import csv 
from sklearn.model_selection import train_test_split  # 数据分割
from sklearn.preprocessing import Imputer  # 数据缺省值处理
from sklearn.preprocessing import MinMaxScaler  # 数据归一化
from sklearn.preprocessing import label_binarize  # 数据二值化
from sklearn.decomposition import PCA  # 降维
from sklearn.ensemble import RandomForestClassifier  # 分类随机森林模型
from sklearn import metrics  # ROC/AUC
from sklearn.metrics import roc_auc_score
from sklearn import cross_validation,metrics

# 设置字符集，防止中文乱码
mpl.rcParams['font.sans-serif'] = [u'simHei']
mpl.rcParams['axes.unicode_minus'] = False


# 1.读取数据
path1 = 'path' 
path2 = 'path' 
dftrian = pd.read_csv(path1, header=None)
dftest = pd.read_csv(path2, header=None)
# print(df.columns) 获取特征名称
feature = u'****'


# 2.划分数据
X_train, Y_train = dftrian[list(range(8))], dftrian[8]
X_test = dftest[list(range(8))]


# 5.数据归一化
# 分类模型，经常使用的是minmaxscaler归一化，回归模型经常用standardscaler标准化
ss = MinMaxScaler()  # 构建归一化模型
X_train = ss.fit_transform(X_train, Y_train)  # 训练模型并转换数据
X_test = ss.transform(X_test) # 转换数据


# 6.降维(此数据集的维度比较高，我们可以做降维处理)
#pca = PCA(n_components=2)  # 创建PCA模型，指定维度为2
#X_train = pca.fit_transform(X_train)  # 训练模型并转换数据
#X_test = pca.transform(X_test)


# 7.随机森林模型构建及训练
# n_estimators=100决策树个数，max_depth=1每个决策树深度，random_state=0随机数种子
#forest = RandomForestClassifier(n_estimators=2000, criterion='gini', max_depth=25, random_state=5)
forest = RandomForestClassifier(n_estimators=1000,max_features=6,max_depth=25,
                             oob_score=True,random_state=10)

forest.fit(X_train, Y_train)  # 训练模型
# 8.模型评估
score1 = forest.score(X_train, Y_train)  # 准确率
print('train准确率：%.2f%%' % (score1 * 100))
#score = forest.score(X_test, Y_test)  # 准确率
#print('准确率：%.2f%%' % (score * 100))
#y_pred = forest.predict(dtest)
#auc_score = roc_auc_score(y_test,y_pred)

#print('auc：%.2f%%' % (test_auc * 100))
# 9.模型预测
forest_y_score = forest.predict_proba(X_test)  # prodict_proba输出概率
forest_y_score1 = forest.predict_proba(X_train) 
p = forest.predict(X_test)
returnMat = np.zeros((20000,2))
for i in range(20000):
    returnMat[i][0] = forest_y_score[i][0]
    returnMat[i][1] = forest_y_score[i][1]

with open('C:\\\\test.csv', 'w', newline='') as f:
    writer = csv.writer(f)
    writer.writerows(returnMat)

SVM

import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
import warnings

from sklearn import svm  # SVM模型
from sklearn.model_selection import train_test_split  # 数据分割
from sklearn.metrics import accuracy_score  # 计算正确率
from sklearn.exceptions import ChangedBehaviorWarning  # 警告处理



# 设置字符集，防止中文乱码
mpl.rcParams['font.sans-serif'] = [u'simHei']
mpl.rcParams['axes.unicode_minus'] = False
# 警告处理
warnings.filterwarnings('ignore', category=ChangedBehaviorWarning)


# 1.读取数据
path1 = 'path' 
path2 = 'path' 
dftrian = pd.read_csv(path1, header=None)
dftest = pd.read_csv(path2, header=None)
# print(df.columns) 获取特征名称
feature = u'***'

# 2.划分数据
X_train, Y_train = dftrian[list(range(8))], dftrian[8]
X_test,Y_test = dftest[list(range(8))], dftest[8]



# 4.模型构建
'''
sklearn.svm.SVC(C=1.0, kernel=’rbf’, degree=3, gamma=’auto_deprecated’, coef0=0.0, 
				shrinking=True, probability=False, tol=0.001, cache_size=200, class_weight=None, 
				verbose=False, max_iter=-1, decision_function_shape=’ovr’, random_state=None)
svm.SVC API说明：
# 功能：使用SVM分类器进行模型构建
# 参数说明：
# C: 误差项的惩罚系数，默认为1.0；一般为大于0的一个数字，C越大表示在训练过程中对于总误差的关注度越高，
	 也就是说当C越大的时候，对于训练集的表现会越好，但是有可能引发过度拟合的问题(overfiting)
# kernel：指定SVM内部函数的类型，可选值：linear、poly、rbf、sigmoid、precomputed(基本不用，有前提要求，要求特征属性数目和样本数目一样)；默认是rbf；
# degree：当使用多项式函数作为svm内部的函数的时候，给定多项式的项数，默认为3
# gamma：当SVM内部使用poly、rbf、sigmoid的时候，核函数的系数值，当默认值为auto的时候，实际系数为1/n_features
# coef0: 当核函数为poly或者sigmoid的时候，给定的独立系数，默认为0
# probability：是否启用概率估计，默认不启动，不太建议启动
# shrinking：是否开启收缩启发式计算，默认为True
# tol: 模型构建收敛参数，当模型的的误差变化率小于该值的时候，结束模型构建过程，默认值:1e-3
# cache_size：在模型构建过程中，缓存数据的最大内存大小，默认为空，单位MB
# class_weight：给定各个类别的权重，默认为空
# max_iter：最大迭代次数，默认-1表示不限制
# decision_function_shape: 决策函数，可选值：ovo和ovr，默认为None；推荐使用ovr；
'''
clf = svm.SVC(C=1, kernel='rbf', gamma=0.05)
# gamma值越大，训练集的拟合就越好，但是会造成过拟合，导致测试集拟合变差
# gamma值越小，模型的泛化能力越好，训练集和测试集的拟合相近，但是会导致训练集出现欠拟合问题，
# 从而，准确率变低，导致测试集准确率也变低。


# 5.模型训练
clf.fit(X_train, Y_train)


# 6.模型评估：计算模型的准确率/精度
print ('训练集准确率：', accuracy_score(Y_train, clf.predict(X_train)))
print ('训练集准确率X_test：', accuracy_score(Y_test, clf.predict(X_test)))
#print (clf.score(X_test, Y_test))
#print ('测试集准确率：', accuracy_score(Y_test, clf.predict(X_test)))
# 计算决策函数的结构值以及预测值(decision_function计算的是样本x到各个分割平面的距离<也就是决策函数的值>)
print ('decision_function:\n', clf.decision_function(X_train))
print ('\npredict:\n', clf.predict(X_train))

xgboost

# -*- coding: utf-8 -*-

import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
import warnings  #警告处理

from sklearn.linear_model.coordinate_descent import ConvergenceWarning
from sklearn.model_selection  import train_test_split  # 数据分割
from sklearn.metrics import accuracy_score  # 计算正确率
from sklearn.metrics import mean_squared_error  # 均方误差

import xgboost as xgb  # xgboost模型

# 设置字符集，防止中文乱码
mpl.rcParams['font.sans-serif'] = [u'simHei']
mpl.rcParams['axes.unicode_minus'] = False
# 警告处理
warnings.filterwarnings(action='ignore', category=ConvergenceWarning)


# 1.读取数据
iris_feature = u'***'
path = 'path'  # 数据路径
data = pd.read_csv(path, header=None)


# 2.划分数据
X, Y = data[list(range(8))], data[8]
# 把文本数据进行编码，比如a b c编码为 0 1 2; 可以通过pd.Categorical(y).categories获取index对应的原始值
#Y = pd.Categorical(Y).codes
#X = data[[0,1]]  # 获取第1列和第二列


# 3.数据分割
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, train_size=0.8, random_state=0)

# 5.XGBoost将数据转换为XGBoost可用的数据类型
dtrain = xgb.DMatrix(X_train, label=Y_train)
dtest = xgb.DMatrix(X_test)


# 6.XGBoost模型构建
# a.参数构建
params = {'max_depth':2, 'eta':1, 'silent':1, 'objective':'reg:linear'}  # reg:linear线性回归
num_round = 2
# b.模型训练
bst = xgb.train(params, dtrain, num_round)
# c.模型保存
bst.save_model('xgb.model')

# 7.XGBoost模型预测
y_pred = bst.predict(dtest)
print("均方误差为：",mean_squared_error(Y_test, y_pred))

# 8.加载模型
bst2 = xgb.Booster()
bst2.load_model('xgb.model')
# 9.使用加载模型预测
#bst = bst2.predict(dtest)
#print("均方误差为：",mean_squared_error(Y_test, y_pred2))

# 6.模型评估：计算模型的准确率/精度
print ('测试集准确率：', accuracy_score(Y_test, bst))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

RandomForestClassifier、SVM、xgboost实现二分类算法的相关文章

Navicat Premium16远程连接MySQL8.0服务器数据库

Navicat Premium16远程连接MySQL8 0服务器数据库 1 服务器端下载并正确安装mysql2 服务器端查看连接权限3 服务器端更改权限并刷新4 服务器端授权远程登录5 客户端Navicat连接服务器备注 xff1a 此处
Windows10 Ubuntu18.04 双系统下修复GRUB引导（亲测当boot-repair工具无效时，该方法完美解决）

Windows10 Ubuntu18 04 双系统下修复GRUB引导 xff08 亲测当boot repair工具无效时 xff0c 该方法完美解决 xff09 0 准备条件1 问题描述 xff1a 2 修复Ubuntu18 04的引导 0
LOAM系列——FLOAM配置、安装、问题解决及VLP16测试效果（完结版）

LOAM系列 FLOAM配置安装问题解决及VLP16测试效果安装依赖安装KITTI sequence 07VLP16 bag测试问题解决问题1 安装依赖 Ubuntu and ROSCeres SolverPCLTrajectory
error while loading shared libraries错误解决

出错如下 xff1a 主要错误 xff1a error while loading shared libraries libboost regex so 1 51 0 cannot open shared object file No su
LOAM系列——ISCLOAM配置、编译、问题解决及VLP16测试效果（完结版）

ISCLOAM配置编译问题解决及VLP16测试效果 1 xff09 安装依赖2 xff09 安装3 xff09 KITTI sequence 07测试4 xff09 VLP16bag包5 xff09 直接使用VLP166 xff09 问
LOAM系列——LeGO-LOAM配置、安装、问题解决及VLP16测试效果（完结版）

LOAM系列 LeGO LOAM配置安装问题解决及VLP16测试效果安装依赖安装VLP16 bag测试问题解决问题1解决1 安装依赖 rosgtsam wget O Downloads gtsam zip https github c
ROS系列——Ubuntu18.04下ros Melodic安装mavros过程中遇到问题及解决-定期更新版

ROS系列 Ubuntu18 04下ros Melodic安装mavros过程中遇到问题及解决定期更新版问题问题一 xff1a 运行 wstool update t src j8 时 xff0c 出错如下 xff1a 问题二 xff1a
Win10系统下禁止ie浏览器自动跳转到Microsoft Edge浏览器

Win10系统下禁止ie浏览器自动跳转到Microsoft Edge浏览器说明步骤1 xff09 打开Microsoft Edge浏览器2 xff09 点击设置 xff0c 如下图3 xff09 点击默认浏览器 xff0c 如下图4
完成Prometheus其他功能模块与mavros节点进行数据交互的uav_control_node介绍

完成Prometheus其他功能模块与mavros节点进行数据交互的uav control node介绍简单介绍发布话题订阅话题参数简单介绍 uav control node介绍 uav control模块相关源代码放置在Prometh
ROS系列——Ubuntu下获取USB串口相关命令介绍

ROS系列 Ubuntu下获取USB串口相关命令介绍 1 说明2 查看当前连接的USB设备3 查看USB转串口以及串口的安装状态4 查看串口名称5 查看串口是否可用6 查看设备7 利用 proc查看串口 xff08 或串口终端 xff09
ROS系列——如何省略每次运行launch文件前需要source ./devel/setup.bash的问题

ROS系列如何省略每次运行launch文件前需要source devel setup bash的问题说明1 使用echo语句将命令添加到bash会话中或者2 直接打开 bashrc文件 xff0c 在末尾添加如下语句 xff1a 说明
关于DELL Precision 7550设置U盘启动的方法

关于DELL Precision 7550设置U盘启动的方法说明步骤说明本文测试的电脑为DELL Precision 7550 xff0c 设置U盘启动的方法是Windows10 Ubuntu18 04 双系统下修复GRUB引导博文
windows系统官网下载

windows系统官网下载说明步骤说明主要记录如何在微软官方网站下载windows系统 xff0c 本文主要讲解下载 iso的方式步骤 1 进入微软官方网站 https www microsoft com zh cn softwar
Everything官网下载

基于名称快速定位文件和文件夹Everything官方下载简单说明地址简单说明 Everything是voidtools开发的一款文件搜索工具 xff0c 官网描述为基于名称实时定位文件和目录 xff08 Locate files an
Android SDK Installed Packages

1 1 解压Android SKD 1 2 执行如上目录下的文件 xff1a SDK Setup exe xff0c xff08 机器人图标的哪个 xff09 注意 xff1a 一般的话会出现 Failed to fetch URL htt
linux下启动tomcat报错APR/native library which is not available的解决方案

在linux上使用tomcat8配置支持http2 0的时候 xff0c server xml的配置文件里面有这么一段配置 xff1a lt Connector port 61 34 45501 34 protocol 61 34 org
美国出台最严技术出口管制！14项前沿科技面临封锁

关注ITValue xff0c 查看企业级市场最新鲜最具价值的报道 xff01 xff08 本文转载自量子位公众号 xff0c ID xff1a QbitAI xff0c 作者 xff1a 乾明夏乙问耕 xff09 美国又打出一套七伤
Ubuntu 18.04.5 LTS (GNU/Linux 4.15.0-135-generic x86_64) 裸机配置静态IP

1 xff0c os装好后默认有以下文件 xff1a etc netplan 00 installer config yaml 2 xff0c 配置该文件 xff1a sudo vi etc netplan 00 installer con
linux nvidia-smi 执行速度很慢问题解决

老办法 sudo nvidia smi pm 1 比较科学的方法 sudo nvidia persistenced persistence mode 一般四卡会出现上面问题 xff0c 双路主板差多个显卡的时候容易出现
【机器学习】信用卡欺诈检测（下采样、SMOTE过采样、集成学习、Pytorch）

2022 4 17 补充视频 xff1a 参考 xff1a 6 01 信用卡交易欺诈数据检测哔哩哔哩 bilibili 参考 xff1a 机器学习 Kaggle 信用卡欺诈检测 Tommy 数据不平衡 ipynb myaijarvis

随机推荐

ubuntu下makeinfo/texinfo 安装的解决办法

环境 ubuntu 16 04 sudo apt get install makeinfo 提示找不到包搜了一圈资料 xff0c 发现makeinfo其实就是texinfo sudo apt get install texinfo 还是找
自平衡机器人DIY（一）

看到一篇DIY自平衡机器人的文章 xff0c 感觉特别有意思 xff01 正好趁着寒假的工夫 xff0c 也来做一做参考过程 xff1a 自平衡机器人蛋黄物语原理原理就是应用负反馈控制 xff0c 由测量到的角度和自身平衡时的自然
Go 与 Java 生成grpc代码

1 背景 xff1a 由于公司的日志系统使用的是plumelog xff0c 最近生产环境老是报 jedis连接池不够 xff0c 导致丢失日志 xff0c 而且服务老是重启 xff0c 怀疑跟日志系统有关 xff0c 于是自己改造plum
Ubuntu开机自动挂载Windows分区（NTFS FAT32）教程

这是我总结网上相关教程 xff0c 结合我的实际操作总结的在开始实际的操作之前 xff0c 我们必须要了解linux系统下的挂载概念在linux操作系统中 xff0c 挂载是一个非常重要的功能 xff0c 使用非常频繁它指将一个设备
第六章 Java FutureTask 示例

在本教程中 xff0c 我们将看到有关 Java FutureTask 的示例 FutureTask 类已在 JDK 5 中与 Executor Framework 一起引入 FutureTask类是Future对象的具体实现 xff0c
ORB-SLAM2系统的实时点云地图构建

ORB SLAM2系统的实时点云地图构建这篇博客点云地图构建的流程代码介绍点云地图构建类对象小调整获取关键帧点云地图构建与叠加在地图中设置当前相机位置点云地图到Octomap的转换地图效果结尾这篇博客 xff08 PS 修改于2020
查理·芒格：让自己配得上想要的东西

巴菲特说他一生遇人无数 xff0c 从来没有遇到过像查理这样的人 94岁的查理芒格毕业于哈佛大学法学院 xff0c 是沃伦巴菲特的黄金搭档 xff0c 伯克夏哈撒韦公司的副主席 xff0c 芒格的头脑是原创性的 xff0c 从来不受任
react路由传参的几种方式

params传参支持多个动态参数 state 61 id 88 name Jack 路由页面 xff1a 路由跳转并传递参数 xff1a 链接方式 xff1a lt Link to 61 pathname code demo this s
对极几何、三角测量、PnP、ICP问题描述

对极几何三角测量 PnP ICP问题描述文章目录对极几何三角测量 PnP ICP问题描述前言2D 2D xff1a 对极几何三角测量1 求解空间点深度2 求解空间点坐标 3D 2D xff1a PnP1 直接线性变换 xff08 D
springsecurity 登录后依然无法访问页面

springsecurity 登录后依然无法访问页面登录成功点击左侧功能列表报错 org springframework security access AccessDeniedException Access is denied at
前端---vscode插件推荐及GIT一些问题操作说明（持续更新）

以前都是用sublime xff0c 最近开始使用vscode xff08 v1 50 0 xff09 xff0c 写一些心得记录一下先安利一些自己使用的插件 TabNine这个插件 xff0c 如果电脑配置ok xff0c 可以装一下
http协议之digest(摘要)认证

参考网址 xff1a RFC 2617 HTTP Authentication Basic and Digest Access Authenti RFC2617 RFC 1321 The MD5 Message Digest Algorit
FreeRTOS heap 4 机制解析

FreeRTOS提供了几个内存管理的方案 xff0c 其中一个实现较好的方式是heap4 本篇就来形象讲述heap4的工作原理本文暂时只用作自己对heap4的工作机制的总结和记录 xff0c 有空了再修改成教程吧 xff0c 所以 xff
使用Qt写Xml文档，追加节点。

追加Xml文档就是 xff0c 要增一段内容 xff0c 要实现的效果如下 xff1a 因为想临时存储一些东西 xff0c 所以利用xml做个简易的数据库 xff0c 要应用的ARM设备上 xff0c 存放入SD卡网上找了半天 xff
sudo apt-get update 报错 ubuntu xenial InRelease 明文签署文件不可用，结果为‘NOSPLIT’（您的网络需要认证吗？）解决

一句话总结 xff1a 换可用的国内源问题的产生 xff1a 今天刚装了个ubuntu 16 04 xff08 还没装新的 xff09 结果想装个vim一直不成功 xff0c sudo apt update多次总是出现下面的 xff1a
docker 常用命令

systemctl start docker 启动docker服务 systemctl stop docker 停止docker服务 systemctl restart docker 重启docker服务 systemctl status
大疆Manifold 制作和恢复镜像及恢复出厂设置卡主不动处理方法

进入恢复模式首先你要准备一台运行Ubuntu 14 04或者Ubuntu16 04的电脑 xff0c 将电脑与Manifold 的RECOVERY USB 接口 xff0c 用Manifold自带的USB线连接连接电源 xff0c 上电
Gazebo构建小车模型并通过ROS控制

Gazebo构建小车模型并通过ROS控制介绍编写车子的URDF文件编写控制小车移动的插件与ROS交互结尾介绍突然想试试Gazebo这款仿真软件 xff0c 因为它可以让你在任何时候都有机器人玩但Gazebo的机制也比较复杂 xf
OPENCV面试题

1 opencv中RGB2GRAY是怎么实现的答 xff1a 以R G B为轴建立空间直角坐标系 xff0c 则RGB图的每个象素的颜色可以用该三维空间的一个点来表示 xff0c 而Gray图的每个象素的颜色可以用直线R 61 G 61
RandomForestClassifier、SVM、xgboost实现二分类算法

RandomForestClassifier span class token comment coding utf 8 span span class token keyword import span numpy span class

RandomForestClassifier、SVM、xgboost实现二分类算法

RandomForestClassifier、SVM、xgboost实现二分类算法 的相关文章

随机推荐

热门标签

RandomForestClassifier、SVM、xgboost实现二分类算法的相关文章