决策树实战鸢尾花

2023-10-27

# -- encoding:utf-8 --
"""
只要是机器学习中，代码的编写流程一般和下面这个一样！！！！
Create on 19/3/2
"""
import warnings
import sys
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt

from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor
from sklearn.metrics import auc, roc_curve, classification_report

warnings.filterwarnings('ignore')
mpl.rcParams['font.sans-serif'] = [u'simHei']

# 一、数据加载
path = "iris.data"
names = ['A', 'B', 'C', 'D', 'cla']
df = pd.read_csv(filepath_or_buffer=path, sep=",", header=None, names=names)
# df.info()

# 二、数据的清洗
class_name_2_label = {'Iris-setosa': 0, 'Iris-versicolor': 1, 'Iris-virginica': 2}
df['cla'] = list(map(lambda cla: class_name_2_label[cla], df['cla'].values))
print(df['cla'].values)
df.info()

# 三、根据需求和原始模型从最原始的特征属性中获取具体的特征属性矩阵X和目标属性矩阵Y
X = df.drop('cla', axis=1)
X = np.asarray(X).astype(np.float64)
Y = df['cla']
# 对目标属性做一个类别的转换，将字符串的数据转换为从0开始的int值
label_encoder = LabelEncoder()
Y = label_encoder.fit_transform(Y)
# print(label_encoder.classes_)
# print(label_encoder.transform(['Iris-setosa', 'Iris-versicolor', 'Iris-virginica']))
# print(label_encoder.inverse_transform([0, 1, 2, 0, 2, 1]))
# X.info()

# 四、数据分割(将数据分割为训练数据和测试数据)
x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.1, random_state=28)
print("训练数据X的格式:{}, 以及数据类型:{}".format(x_train.shape, type(x_train)))
print("测试数据X的格式:{}".format(x_test.shape))
print("训练数据Y的数据类型:{}".format(type(y_train)))
print("Y的取值范围:{}".format(np.unique(Y)))

# 五、特征工程的操作
# a. 创建对象(标准化操作)
scaler = StandardScaler()
# b. 模型训练+训练数据转换
x_train = scaler.fit_transform(x_train, y_train)
# c. 基于训练好的对象对数据做一个转换
x_test = scaler.transform(x_test)

# 六、模型对象的构建
"""
def __init__(self,
             criterion="gini",
             splitter="best",
             max_depth=None,
             min_samples_split=2,
             min_samples_leaf=1,
             min_weight_fraction_leaf=0.,
             max_features=None,
             random_state=None,
             max_leaf_nodes=None,
             min_impurity_decrease=0.,
             min_impurity_split=None,
             class_weight=None,
             presort=False)
    criterion: 给定决策树构建过程中的纯度的衡量指标，可选值: gini、entropy， 默认gini
    splitter：给定选择特征属性的方式，best指最优选择，random指随机选择(局部最优)
    max_features：当splitter参数设置为random的有效，是给定随机选择的局部区域有多大。
    max_depth：剪枝参数，用于限制最终的决策树的深度，默认为None，表示不限制
    min_samples_split=2：剪枝参数，给定当数据集中的样本数目大于等于该值的时候，允许对当前数据集进行分裂；如果低于该值，那么不允许继续分裂。
    min_samples_leaf=1, 剪枝参数，要求叶子节点中的样本数目至少为该值。
    class_weight：给定目标属性中各个类别的权重系数。
"""
algo = DecisionTreeClassifier(max_depth=2)

# 七. 模型的训练
algo.fit(x_train, y_train)

# 八、模型效果的评估
print("各个特征属性的重要性权重系数(值越大，对应的特征属性就越重要):{}".format(algo.feature_importances_))
print("训练数据上的分类报告:")
print(classification_report(y_train, algo.predict(x_train)))
print("测试数据上的分类报告:")
print(classification_report(y_test, algo.predict(x_test)))
print("训练数据上的准确率:{}".format(algo.score(x_train, y_train)))
print("测试数据上的准确率:{}".format(algo.score(x_test, y_test)))
# sys.exit()
# 查看相关属性
test1 = [x_test[6]]
print("预测函数:")
print(algo.predict(test1))
print("预测概率函数:")
print(algo.predict_proba(test1))
# sys.exit()
# ROC和AUC的计算
# 对于三个类别分开计算auc和roc的值
y_predict_proba = algo.predict_proba(x_train)
# print(y_predict_proba)
# 针对于类别1
y1_true = (y_train == 0).astype(np.int)
y1_score = y_predict_proba[:, 0]
fpr1, tpr1, _ = roc_curve(y1_true, y1_score)
auc1 = auc(fpr1, tpr1)
# 针对于类别2
y2_true = (y_train == 1).astype(np.int)
y2_score = y_predict_proba[:, 1]
fpr2, tpr2, _ = roc_curve(y2_true, y2_score)
auc2 = auc(fpr2, tpr2)
# 针对于类别3
y3_true = (y_train == 2).astype(np.int)
y3_score = y_predict_proba[:, 2]
fpr3, tpr3, _ = roc_curve(y3_true, y3_score)
auc3 = auc(fpr3, tpr3)
print((auc1, auc2, auc3))

plt.plot(fpr1, tpr1, 'r-o')
plt.plot(fpr2, tpr2, 'g-o')
plt.plot(fpr3, tpr3, 'b-o')
plt.show()

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       150 non-null    float64
 1   B       150 non-null    float64
 2   C       150 non-null    float64
 3   D       150 non-null    float64
 4   cla     150 non-null    int64  
dtypes: float64(4), int64(1)
memory usage: 6.0 KB
训练数据X的格式:(135, 4), 以及数据类型:<class 'numpy.ndarray'>
测试数据X的格式:(15, 4)
训练数据Y的数据类型:<class 'numpy.ndarray'>
Y的取值范围:[0 1 2]
各个特征属性的重要性权重系数(值越大，对应的特征属性就越重要):[0.         0.         0.56360727 0.43639273]
训练数据上的分类报告:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        46
           1       0.91      0.98      0.95        44
           2       0.98      0.91      0.94        45

    accuracy                           0.96       135
   macro avg       0.96      0.96      0.96       135
weighted avg       0.96      0.96      0.96       135

测试数据上的分类报告:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00         4
           1       0.86      1.00      0.92         6
           2       1.00      0.80      0.89         5

    accuracy                           0.93        15
   macro avg       0.95      0.93      0.94        15
weighted avg       0.94      0.93      0.93        15

训练数据上的准确率:0.9629629629629629
测试数据上的准确率:0.9333333333333333
预测函数:
[2]
预测概率函数:
[[0.         0.02380952 0.97619048]]
(1.0, 0.9724025974025974, 0.9727160493827159)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习

Pytorch

决策树实战鸢尾花的相关文章

RuntimeError：维度指定为 0 但张量没有维度

我试图使用 MNIST 数据集实现简单的 NN 但我不断收到此错误将 matplotlib pyplot 导入为 plt import torch from torchvision import models from torchvisi
我可以使用逻辑索引或索引列表对张量进行切片吗？

我正在尝试使用列上的逻辑索引对 PyTorch 张量进行切片我想要与索引向量中的 1 值相对应的列切片和逻辑索引都是可能的但是它们可以一起吗如果是这样怎么办我的尝试不断抛出无用的错误类型错误使用 ByteTensor 类型的
删除 Torch 张量中的行

我有一个火炬张量如下 a tensor 0 2215 0 5859 0 4782 0 7411 0 3078 0 3854 0 3981 0 5200 0 1363 0 4060 0 2030 0 4940 0 1640 0 6025 0
pytorch grad 在 .backward() 之后为 None

我刚刚安装火炬 1 0 0 on Python 3 7 2 macOS 并尝试tutorial https pytorch org tutorials beginner blitz autograd tutorial html sphx g
如何平衡 GAN 中生成器和判别器的性能？

这是我第一次使用 GAN 我面临着判别器多次优于生成器的问题我正在尝试重现PA模型来自本文 http openaccess thecvf com content ICCV 2017 papers Sajjadi EnhanceNet Si
在 PyTorch 中原生测量多类分类的 F1 分数

我正在尝试在 PyTorch 中本地实现宏 F1 分数 F measure 而不是使用已经广泛使用的sklearn metrics f1 score https scikit learn org stable modules generat
使用 KL 散度时，变分自动编码器为每个输入 mnist 图像提供相同的输出图像

当不使用 KL 散度项时 VAE 几乎完美地重建 mnist 图像但在提供随机噪声时无法正确生成新图像当使用 KL 散度项时 VAE 在重建和生成图像时都会给出相同的奇怪输出这是损失函数的 pytorch 代码 def loss fu
torch.mm、torch.matmul 和 torch.mul 有什么区别？

阅读完 pytorch 文档后我仍然需要帮助来理解之间的区别torch mm torch matmul and torch mul 由于我不完全理解它们所以我无法简明地解释这一点 B torch tensor 1 1207 0 3137
PyTorch 中复数矩阵的行列式

有没有办法在 PyTorch 中计算复矩阵的行列式 torch det未针对 ComplexFloat 实现不幸的是目前尚未实施一种方法是实现您自己的版本或简单地使用np linalg det 这是一个简短的函数它计算我使用 LU
为什么 pytorch matmul 在 cpu 和 gpu 上执行时得到不同的结果？

我试图找出 numpy pytorch gpu cpu float16 float32 数字之间的舍入差异而我发现的内容让我感到困惑基本版本是 a torch rand 3 4 dtype torch float32 b torch r
Pytorch CUDA 错误：没有内核映像可用于在带有 cuda 11.1 的 RTX 3090 设备上执行

如果我运行以下命令 import torch import sys print A sys version print B torch version print C torch cuda is available print D torc
如何使用 pytorch 同时迭代两个数据加载器？

我正在尝试实现一个接收两张图像的暹罗网络我加载这些图像并创建两个单独的数据加载器在我的循环中我想同时遍历两个数据加载器以便我可以在两个图像上训练网络 for i data in enumerate zip dataloaders1
ValueError：使用火炬张量时需要解压的值太多

对于神经网络项目我使用 Pytorch 并使用 EMNIST 数据集已经给出的代码加载到数据集中 train dataset dsets MNIST root data train True transform transforms T
PyTorch：如何批量进行推理（并行推理）

如何在PyTorch中批量进行推理如何并行进行推理以加快这部分代码的速度我从进行推理的标准方法开始 with torch no grad for inputs labels in dataloader predict inputs in
Pytorch RuntimeError：“host_softmax”未针对“torch.cuda.LongTensor”实现

我正在使用 pytorch 来训练模型但是在计算交叉熵损失时我遇到了运行时错误 Traceback most recent call last File deparser py line 402 in
PyTorch LSTM 中的“隐藏”和“输出”有什么区别？

我无法理解 PyTorch 的 LSTM 模块以及类似的 RNN 和 GRU 的文档关于输出它说输出输出 h n c n 输出 seq len batch hidden size num directions 包含RNN最后一层的
Pytorch .to('cuda') 或 .cuda() 不起作用并且卡住了

我正在尝试做 pytorch 教程当我尝试将他们的设备设置为 cuda 时它不起作用并且我的代码运行被卡住有关具体信息我正在使用 conda 环境蟒蛇3 7 3 火炬1 3 0 cuda 10 2 NVIDIA RTX2080TI
PyTorch DataLoader 对并行运行的批次使用相同的随机种子

有一个bug https tanelp github io posts a bug that plagues thousands of open source ml projects 在 PyTorch Numpy 中当并行加载批次时Da
Pytorch - 推断线性层 in_features

我正在构建一个玩具模型来获取一些图像并进行分类我的模型看起来像 conv2d gt pool gt conv2d gt linear gt linear 我的问题是当我们创建模型时我们必须计算第一个线性层的大小in features基
尝试将 cuda 与 pytorch 一起使用时出现运行时错误 999

我为我的 Geforce 2080 ti 安装了 Cuda 10 1 和最新的 Nvidia 驱动程序我尝试运行一个基本脚本来测试 pytorch 是否正常工作但出现以下错误 RuntimeError cuda runtime erro

随机推荐

【跑实验03】如何可视化GT边界框，如何选择边界框内部的边界框，如何可视化GT框和预测框，如何定义IoU阈值下的不同边界框？

文章目录一如何可视化GT边界框二 GT框和预测框的可视化三根据IoU阈值来选择一如何可视化GT边界框 from PIL import Image ImageDraw def draw bboxes image bboxes c
Spring实现控制反转（IOC）的三种方式（零）——理解IOC

学过Spring的应该都知道Spring的IOC和AOP 然而我刚接触Spring不久学习了IOC 发现掌握的不是很好停留在概念上今天就以例子来总结一下Spring的IOC 也希望各位大大能够指点迷津 IOC 也就是控制反转创建对象
函数重载与函数模板

键盘输入10个数可能为整形浮点型双精度型及其字符类型分别利用函数重载和函数模板求出其中的最大值和最小值函数重载 include
连接数据库报错 -- Access denied for user ‘‘@‘192.168.121.1‘ (using password: NO)

问题用idea配置好数据库配置文件application yml 在连接虚拟机数据库时控制台报错 Access denied for user 192 168 121 1 using password NO 解决方法 1 密码配置出错
Win10及Win11安装及使用Wsl2 Linux子系统

一安装Wsl2 环境要求必须运行 Windows 10 版本 2004 及更高版本内部版本 19041 及更高版本或 Windows 11 WSL2 是 WSL 1 的升级版带来的主要优势提高文件系统性能支持完全的系统调用兼容
你不知道的javascript之this的全面解析之绑定规则(一)

1 1 默认绑定首先介绍的是函数调用类型独立函数调用在没有其他应用下的默认规则首先看以下代码 function foo console log this a var a 2 foo 2 我们可以看到调用foo 时 this a被解析
java对数据库中Date类型的处理

java对数据库中Date类型的处理想必在日常的敲代码生活总用java操作数据库中的Date类型是不同于其他的因为Date在导包的时候就分为 import java sql Date import java util Date 这两种
nginx 配置 ssl

1 1 Nginx如果未开启SSL模块配置Https时提示错误原因也很简单 nginx缺少http ssl module模块编译安装的时候带上 with http ssl module配置就行了但是现在的情况是我的nginx已经安装
Seq2Seq 模型知识总结

Seq2Seq 模型知识总结目录 Seq2Seq 模型知识总结 1 模型的提出 2 RNN 结构及使用 2 1 N vs N 2 2 1 vs N 2 3 N vs 1 3 Seq2Seq 模型 3 1 Seq2Seq 结构 3 2 编码
你应该掌握的七种回归技术

摘要本文解释了回归分析及其优势重点总结了应该掌握的线性回归逻辑回归多项式回归逐步回归岭回归套索回归 ElasticNet回归等七种最常用的回归技术及其关键要素最后介绍了选择正确的回归模型的关键因素编者按回归分析是建模和分
Java大数字运算（BigInteger类和BigDecimal类）

Java中的超大数BIgInteger和BigDecimal 在我们处理大位数运算的时候我们经常用的int和long类型的数已经不能够满足我们的运算了那么这个时候就需要用到一个超大数来运算这个时候我们会用到java math BigI
javaweb项目中完成数据的增删改查操作((maven，mybaits，tomcat，servlet，jsp包含 MVC模式和三层架构 ))

目录需求完成品牌数据的增删改查操作 1 环境准备 1 1 创建工程模块引入坐标 1 2创建三层架构的包结构 1 3创建数据库表 tb brand 1 4 创建实体类Brand 1 5 准备mybatis环境 2 查询所有 2 1编写B
JS将数组相同的元素进行分类

js实现将数组中相同元素进行分类思路是先将数组去重这里采用对象的方式进行去重然后将相同的元素重新放入一个数组内实例如下
struts1 logic:iterate bean:write标签使用

只是截取项目中部分代码供参考及日后查阅用struts1标签html select 展现select下拉列表刚开始为如下代码 html view plain copy
搭建RP-pppoe服务器

1 安装rp pppoe 测试环境 PPPoe Server Ubuntu 20 04 PPPoe Client Windows 11 首先我们先安装PPPoe服务器我们需要下载rp pppoe的源码然后自行编译安装在安装之前需要安
OS银行家算法-Java

OS作业记录防丢 package Bank public class Banker public static void main String args OS os new OS 3 3 2 MyThread p0 new MyThre
合宙AIR001开发板开箱测试

简介 2023年7月合宙上架了一款新的MCU 支持Arduino Keil 主频高资源大接口全合宙Air001 它是一款TSSOP20封装国产MCU 高集成化通讯外设开发简单使用便捷具备超高性价比 1 采用ARM 32位的M0 内
效率利器之事件委托

前言公司产品部推出了一款新产品经理指派小A负责推广工作小A通过多方打听了解到推广流程需要使用公司证件在几个平台注册账号并经过多轮审批小A经历了一番操作后感到身心俱疲最终成功将产品发布到公众平台上与此同时公司的竞争部门也计划
开题报告中拟解决的主要问题怎么写？

在研究生求学阶段学位论文质量的高低是衡量研究生培养质量的重要标志而论文质量的高低很大程度上取决于论文开题报告的内容的细致程度从论文的选题到研究内容与措施的探讨及最后开题报告的撰写三者环环相扣缺一不可那么我们如何才能写好开题论
决策树实战鸢尾花

encoding utf 8 只要是机器学习中代码的编写流程一般和下面这个一样 Create on 19 3 2 import warnings import sys import numpy as np import pandas as

决策树实战鸢尾花

决策树实战鸢尾花 的相关文章

随机推荐

热门标签

决策树实战鸢尾花的相关文章