决策树和随机森林的实现,可视化和优化方法

2023-11-18

决策树原理

决策树原理这篇文章讲的很详细。
本文仅写代码实现。

构造决策树

%matplotlib inline
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.datasets.california_housing import fetch_california_housing
housing = fetch_california_housing()
housed = pd.DataFrame(housing.data)
housed.head()
housed.shape

先导入数据集(我这里用的是sklearn库自带的房价数据集),如果网络超时的话也可以从网站 https://ndownloader.figshare.com/files/5976036下载下来解压之后,用pd.read_csv读入data那个文件,记得把head=None。输出如下
在这里插入图片描述
切分数据集为训练集和验证集

from sklearn.model_selection import train_test_split
#导入数据切分函数
data_train, data_test, target_train, target_test = \
    train_test_split(housing.data, housing.target, test_size = 0.2, random_state = 42)
dtr = tree.DecisionTreeRegressor(random_state = 42)

先建立一个回归树dtr1

from sklearn import tree
dtr1 = tree.DecisionTreeRegressor(max_depth = 3)
#实例化树模型,max_depth指定最大深度
dtr1.fit(data_train,target_train)
#传入样本和label
dtr1.score(data_test,target_test)

输出如下,说明你的树dr1训练成功并且参数也标记出来了,同时也可以看出准确率很低仅有0.521
在这里插入图片描述

dtr2=tree.DecisionTreeClassifier(max_depth=3,criterion='gini',min_samples_split=200)
#再建立一个分类树
dtr2.fit(data_train,target_train.astype("int"))
dtr2.score(data_test,target_test.astype('int'))

成功建立并且训练分类树dr2,准确率也不高只有0.523
在这里插入图片描述
不论回归树还是分类树,都有以下常用参数
在这里插入图片描述

决策树可视化

要可视化显示 首先需要安装 graphviz 安装过程参照这篇文章,还需要安装pydotplus库,直接pip install pydotplus就好,装好之后

dot_data1= tree.export_graphviz(
        dtr2,#改成你要画的树,这里我们画dtr2
        out_file = None,
        feature_names = housing.feature_names,#改成需要的特征名
        filled = True,
        impurity = True,#是否显示gini系数或者熵值
        rounded = True,
        special_characters=True,
        class_names=str(housing.target)#分类树的类别名,回归树不用指定
    )
import pydotplus
graph = pydotplus.graph_from_dot_data(dot_data1)
graph.get_nodes()[1].set_fillcolor("#2DF3DF")
from IPython.display import Image
Image(graph.create_png())
graph.write_png("dtr2_.png")#保存图片

得到如下的树
在这里插入图片描述

随机森林

无论是回归树还是分类树,问题都很明显:准确率太低,为了解决这一问题,我们使用随机森林来建立模型。

from sklearn.ensemble import RandomForestRegressor
rfr = RandomForestRegressor(random_state = 42)
rfr.fit(data_train, target_train)
rfr.score(data_test, target_test)

可以看出,准确率有明显提升达到了0.806
在这里插入图片描述
我们如何使模型更加精准?有两种思路:
一是调整模型的参数,随机森林本质即为多个决策树,所以随机森林的参数和决策树是相通的。
二是对数据下手,去掉对模型影响甚小的数据,使得数据的特征更加集中。

找合适参数的做法

GridSearchCV相当于一个巨大的for循环,遍历所给候选参数的结果进行交叉验证后得到最合适的参数,用法如下

from sklearn.model_selection import GridSearchCV
#GridSearchCV网络搜索交叉验证,用来遍历找出最合适的参数
tree_param_grid = { 'min_samples_split': list(range(3,8)),'n_estimators':list((80,100,120))}
grid = GridSearchCV(RandomForestRegressor(),param_grid=tree_param_grid, cv=3)
#先指定算法,然后把想找的参数写成字典传给param_grid,cv是交叉验证次数
grid.fit(data_train, target_train)

然后可以用以下代码查看结果

grid.cv_results_#查看训练详细结果,比较长就不截图了
grid.best_params_#看最终得到的参数

在这里插入图片描述

grid.best_score_#查看遍历过程中最高的score

接着我们用找到的参数,再次建立新模型,查看是否有变化

rfr = RandomForestRegressor( min_samples_split=7,n_estimators = 120,random_state = 42)
rfr.fit(data_train, target_train)
rfr.score(data_test, target_test)

在这里插入图片描述
虽然差距很小从0.8062变成了0.8068,但是确实变好了。我这里寻找参数范围很小,如果机器性能可以并且追求结果可以尝试扩大范围。但是树的个数不用太大,树的个数超过一两百课之后和模型的效果就不是正相关了。也就是超过一定的阈值,树的个数再大模型效果也不会变好

从数据提高准确度的做法

更加详细的做法在这里,我这里只用方差简单筛选

import numpy as np
from sklearn.feature_selection import SelectKBest, f_classif
selector = SelectKBest(f_classif, k=5)#选前5重要的
selector.fit(housed,housing.target)
scores = -np.log10(selector.pvalues_)
plt.bar(range(len(scores)),scores)
plt.xticks(range(len(housing.feature_names)),housing.feature_names,rotation=45)

在这里插入图片描述
可以看出这些特征对结果重要性的影响排名

topk=selector.get_support(True)#返回前K个特征
dataed_train=data_train[:,topk]
dataed_test=data_test[:,topk]
rfr = RandomForestRegressor(random_state = 42)
rfr.fit(dataed_train, target_train)
rfr.score(dataed_test, target_test)

在这里插入图片描述
可以看到准确率有0.816,之前辛辛苦苦遍历找参数都没有对数据做处理提升的多,可见数据预处理的重要性。

随机森林可视化

思路很简单用循环可视化森林里的每棵树就好了,代码如下

import pydotplus
from IPython.display import Image
for idx, estimator in enumerate(rfr.estimators_):
    dot_data= tree.export_graphviz(
        estimator,#改成自己的树
        out_file = None,
        feature_names = np.array(housing.feature_names)[topk],#改成需要的特征名
        filled = True,
        impurity = True,#是否显示gini系数或熵值
        rounded = True,
        special_characters=True,
        class_names=str(housing.target)
    )
    graph = pydotplus.graph_from_dot_data(dot_data)
    graph.get_nodes()[1].set_fillcolor("#2DF3DF")
    #Image(graph.create_png())
    graph.write_png("D:\dtr{}_.png".format(idx))#保存图片

可以看到最终在我指定的位置生成了三棵树的图片
在这里插入图片描述

这是其中的一颗在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

决策树和随机森林的实现,可视化和优化方法 的相关文章

  • 【桥接模式】VMware虚拟机配置桥接模式

    在虚拟机配置中 桥接模式和NAT模式是两种常见的网络连接方式 区别 1 桥接模式使虚拟机直接连接到物理网络 可以与外部设备直接通信 并获取唯一IP地址 2 NAT模式使用网络地址转换器将虚拟机的网络流量转发到物理网络上 虚拟机可以与外部网络

随机推荐

  • 强化学习读书笔记

    强化学习读书笔记 09 on policy预测的近似方法 参照 Reinforcement Learning An Introduction Richard S Sutton and Andrew G Barto c 2014 2015 2
  • 理解区块链

    本文基本上是收集的内容汇总 略微全面一点 1 区块链的诞生 互联网上的贸易 几乎都需要借助可资信赖的第三方信用机构来处理电子支付信息 这类系统仍然内生性地受制于 基于信用的模式 区块链技术是构建比特币区块链网络与交易信息加密传输的基础技术
  • mysql InnoDB 数据存储和查找

    InnoDB 引擎数据存储 要想了解数据库 InnoDB 引擎是怎么样存储数据的 必须先了解 B Tree 了解之后才容易理解其存储原理 在 InnoDB 存储引擎中 也有页的概念 默认每个页的大小为 16K 也就是每次读取数据时都是读取
  • Element-UI中Select选择器详解

    前言 最近开发的后台管理系统项目采用Vue Element UI技术架构 在使用Elment UI中Select组件的时候遇到了比较多的操作难题 官网上关于这个组件的使用文档介绍的不是很详细 仅仅提供了一些基本用法 很多拓展场景都没有涉及到
  • win10服务器文件夹在哪里找,recent文件夹在哪里找_recent文件夹怎么清理

    recent文件夹在哪里找 recent文件夹怎么清理 Windows7系统在运行的时候会在系统内产生一定的垃圾 一般会保存在系统C盘中的WINDOWSCookies RECYCLED WINDOWSHistory WindowsRecen
  • 我的居转户之路

    1月6日提交材料 需要补充税单 重开离职证明 1月12日提交成功 3月10日受理通过 3月18日补充总公司组织机构代码 原来过期 房产证与居住证地址不一致证明 3月24日区里审核通过 3月17日去人才中心查询 市里还没有开始审核 4月29日
  • zookeeper3.4.6集群部署

    在安装Zookeeper之前 首先需要确保的就是主机名称 可选 hosts都已经更改 并且JDK成功安装 1 安装Zookeeper 使用命令 tar zxvf 命令将gz压缩文件解压 笔者Zookeeper的安装目录为 home Hado
  • odoo提交后不允许修改

    odoo工作流中 初始状态为 draft 提交后state状态改变 希望提交后数据不允许再修改 代码如下 reason fields Text string 请假事由 default required True states draft r
  • 若依框架放在服务器后台验证码出不来原因分析

    经发现是 env production 文件里的VUE APP BASE API没有修改成服务器上的域名地址 还是 prod api 所以加载不出来 vue config js里的某项配置后端端口不对 要修改成对应的后端端口即可
  • http爬虫简易版

    懂得都懂 en 不做过多的介绍 const http require http const https require https const cheerio require cheerio function filterData data
  • JS语法基础-核心语句

    1 表达式 表达式 expression JavaScript中的 短语 是JavaScript中用于计算并产生一个结果值的 短语 如 下面是一些最简单的字面量值和变量表达式 10 数字字面值 JavaScript 字符串字面值 i 变量表
  • (4)C中初始化字符串的几种方式和比较

    字符串几种定义方式的对比 一 字符串的定义方式 1 利用字符指针创建字符串 1 1 利用字符指针创建字符串 只能用字符串常量的方式进行初始化 2 利用字符数组创建字符串 2 1 情况1 定义了字符数组的长度 2 2 情况2 省略了定义数组长
  • 小记-面试时对MVC的理解

    MVC分别表示模型 视图 控制 1 模型层也叫业务逻辑层 是整个应用程序的核心 模型层接收视图层请求的数据并处理 返回最终的结果 2 视图层就是用户看到的并与之交互的界面 3 控制层就是接收用户的请求 并根据请求来决定调用哪个模型和视图去完
  • 中台战略-第四章、企业中台5大成功要素

    文章目录 第四章 企业中台5大成功要素 4 1 中台文化 7个行动准则和行动纲领 4 1 1 战略有思想 4 1 2 融合跨部门 4 1 3 创新快支持 4 1 4 试错多包容 4 1 5 共享创条件 4 1 6 赋能是基础 4 1 7 行
  • 性能使用指令

    vmstat 1 总的CPU利用率 mpstat P ALL 1 每个CPU核的利用率 top pidstat 每个进程的CPU利用率 信息来源 proc stat proc pid stat 查看网络流量 sar n DEV 1 100
  • jmeter调试错误大全

    一 前言 在使用jmeter做接口测试的过程中大家是不是经常会遇到很多问题 但是无从下手 不知道从哪里开始找起 对于初学者而言这是一个非常头痛的事情 这里结合笔者的经验 总结出以下方法 二 通过查看运行日志调试问题 写好脚本后 可以先试着运
  • HTML5 FormData 方法介绍

    XMLHttpRequest 是一个浏览器接口 通过它 我们可以使得 Javascript 进行 HTTP S 通信 XMLHttpRequest 在现在浏览器中是一种常用的前后台交互数据的方式 2008年 2 月 XMLHttpReque
  • Node.js中的回调解析

    Node js 异步编程的直接体现就是回调 异步编程依托于回调来实现 但不能说使用了回调后程序就异步化了 回调函数在完成任务后就会被调用 Node 使用了大量的回调函数 Node 所有 API 都支持回调函数 例如 我们可以一边读取文件 一
  • TCP打洞和UDP打洞的区别

    为什么网上讲到的P2P打洞基本上都是基于UDP协议的打洞 难道TCP不可能打洞 还是TCP打洞难于实现 假设现在有内网客户端A和内网客户端B 有公网服务端S 如果A和B想要进行UDP通信 则必须穿透双方的NAT路由 假设为NAT A和NAT
  • 决策树和随机森林的实现,可视化和优化方法

    决策树原理 决策树原理这篇文章讲的很详细 本文仅写代码实现 构造决策树 matplotlib inline import matplotlib pyplot as plt import pandas as pd from sklearn d