决策树、随机森林简单原理和实现

2023-11-07

本文申明：此文为学习记录过程，中间多处引用大师讲义和内容

一：概念

决策树（Decision Tree）是一种简单但是广泛使用的分类器。通过训练数据构建决策树，可以高效的对未知的数据进行分类。决策数有两大优点：1）决策树模型可以读性好，具有描述性，有助于人工分析；2）效率高，决策树只需要一次构建，反复使用，每一次预测的最大计算次数不超过决策树的深度。

看了一遍概念后，我们先从一个简单的案例开始，如下图我们样本：

对于上面的样本数据，根据不同特征值我们最后是选择是否约会，我们先自定义的一个决策树，决策树如下图所示：

对于上图中的决策树，有个疑问，就是为什么第一个选择是“长相”这个特征，我选择“收入”特征作为第一分类的标准可以嘛？下面我们就对构建决策树选择特征的问题进行讨论；在考虑之前我们要先了解一下相关的数学知识：

信息熵：熵代表信息的不确定性，信息的不确定性越大，熵越大；比如“明天太阳从东方升起”这一句话代表的信息我们可以认为为0；因为太阳从东方升起是个特定的规律，我们可以把这个事件的信息熵约等于0；说白了，信息熵和事件发生的概率成反比：数学上把信息熵定义如下：H(X)＝H(P1，P2，…，Pn)＝-∑P(xi)logP(xi)

互信息：指的是两个随机变量之间的关联程度，即给定一个随机变量后，另一个随机变量不确定性的削弱程度，因而互信息取值最小为0，意味着给定一个随机变量对确定一另一个随机变量没有关系，最大取值为随机变量的熵，意味着给定一个随机变量，能完全消除另一个随机变量的不确定性

现在我们就把信息熵运用到决策树特征选择上，对于选择哪个特征我们按照这个规则进行“哪个特征能使信息的确定性最大我们就选择哪个特征”；比如上图的案例中；

第一步：假设约会去或不去的的事件为Y,其信息熵为H(Y）；

第二步：假设给定特征的条件下，其条件信息熵分别为H(Y|长相)，H(Y|收入)，H(Y|身高)

第三步：分别计算信息增益（互信息）：G(Y,长相) = I(Y,长相) = H(Y)-H(Y|长相) 、G(Y,) = I(Y,长相) = H(Y)-H(Y|长相)等

第四部：选择信息增益最大的特征作为分类特征；因为增益信息大的特征意味着给定这个特征，能很大的消除去约会还是不约会的不确定性；

第五步：迭代选择特征即可；

按以上就解决了决策树的分类特征选择问题，上面的这种方法就是ID3方法，当然还是别的方法如 C4.5;等；

二：决策树的过拟合解决办法

若决策树的度过深的话会出现过拟合现象，对于决策树的过拟合有二个方案：

1：剪枝-先剪枝和后剪纸（可以在构建决策树的时候通过指定深度，每个叶子的样本数来达到剪枝的作用）

2：随机森林 --构建大量的决策树组成森林来防止过拟合；虽然单个树可能存在过拟合，但通过广度的增加就会消除过拟合现象

三：随机森林

随机森林是一个最近比较火的算法，它有很多的优点：

在数据集上表现良好
在当前的很多数据集上，相对其他算法有着很大的优势
它能够处理很高维度（feature很多）的数据，并且不用做特征选择
在训练完后，它能够给出哪些feature比较重要
训练速度快
在训练过程中，能够检测到feature间的互相影响
容易做成并行化方法
实现比较简单

随机森林顾名思义，是用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林的每一棵决策树之间是没有关联的。在得到森林之后，当有一个新的输入样本进入的时候，就让森林中的每一棵决策树分别进行一下判断，看看这个样本应该属于哪一类（对于分类算法），然后看看哪一类被选择最多，就预测这个样本为那一类。

上一段决策树代码：

# 花萼长度、花萼宽度，花瓣长度，花瓣宽度
iris_feature_E = 'sepal length', 'sepal width', 'petal length', 'petal width'
iris_feature = u'花萼长度', u'花萼宽度', u'花瓣长度', u'花瓣宽度'
iris_class = 'Iris-setosa', 'Iris-versicolor', 'Iris-virginica'


if __name__ == "__main__":
    mpl.rcParams['font.sans-serif'] = [u'SimHei']
    mpl.rcParams['axes.unicode_minus'] = False

    path = '..\\8.Regression\\iris.data'  # 数据文件路径
    data = pd.read_csv(path, header=None)
    x = data[range(4)]
    y = pd.Categorical(data[4]).codes
    # 为了可视化，仅使用前两列特征
    x = x.iloc[:, :2]
    x_train, x_test, y_train, y_test = train_test_split(x, y, train_size=0.7, random_state=1)
    print y_test.shape

    # 决策树参数估计
    # min_samples_split = 10：如果该结点包含的样本数目大于10，则(有可能)对其分支
    # min_samples_leaf = 10：若将某结点分支后，得到的每个子结点样本数目都大于10，则完成分支；否则，不进行分支
    model = DecisionTreeClassifier(criterion='entropy')
    model.fit(x_train, y_train)
    y_test_hat = model.predict(x_test)      # 测试数据

    # 保存
    # dot -Tpng my.dot -o my.png
    # 1、输出
    with open('iris.dot', 'w') as f:
        tree.export_graphviz(model, out_file=f)
    # 2、给定文件名
    # tree.export_graphviz(model, out_file='iris1.dot')
    # 3、输出为pdf格式
    dot_data = tree.export_graphviz(model, out_file=None, feature_names=iris_feature_E, class_names=iris_class,
                                    filled=True, rounded=True, special_characters=True)
    graph = pydotplus.graph_from_dot_data(dot_data)
    graph.write_pdf('iris.pdf')
    f = open('iris.png', 'wb')
    f.write(graph.create_png())
    f.close()

    # 画图
    N, M = 50, 50  # 横纵各采样多少个值
    x1_min, x2_min = x.min()
    x1_max, x2_max = x.max()
    t1 = np.linspace(x1_min, x1_max, N)
    t2 = np.linspace(x2_min, x2_max, M)
    x1, x2 = np.meshgrid(t1, t2)  # 生成网格采样点
    x_show = np.stack((x1.flat, x2.flat), axis=1)  # 测试点
    print x_show.shape

    # # 无意义，只是为了凑另外两个维度
    # # 打开该注释前，确保注释掉x = x[:, :2]
    # x3 = np.ones(x1.size) * np.average(x[:, 2])
    # x4 = np.ones(x1.size) * np.average(x[:, 3])
    # x_test = np.stack((x1.flat, x2.flat, x3, x4), axis=1)  # 测试点

    cm_light = mpl.colors.ListedColormap(['#A0FFA0', '#FFA0A0', '#A0A0FF'])
    cm_dark = mpl.colors.ListedColormap(['g', 'r', 'b'])
    y_show_hat = model.predict(x_show)  # 预测值
    print y_show_hat.shape
    print y_show_hat
    y_show_hat = y_show_hat.reshape(x1.shape)  # 使之与输入的形状相同
    print y_show_hat
    plt.figure(facecolor='w')
    plt.pcolormesh(x1, x2, y_show_hat, cmap=cm_light)  # 预测值的显示
    plt.scatter(x_test[0], x_test[1], c=y_test.ravel(), edgecolors='k', s=150, zorder=10, cmap=cm_dark, marker='*')  # 测试数据
    plt.scatter(x[0], x[1], c=y.ravel(), edgecolors='k', s=40, cmap=cm_dark)  # 全部数据
    plt.xlabel(iris_feature[0], fontsize=15)
    plt.ylabel(iris_feature[1], fontsize=15)
    plt.xlim(x1_min, x1_max)
    plt.ylim(x2_min, x2_max)
    plt.grid(True)
    plt.title(u'鸢尾花数据的决策树分类', fontsize=17)
    plt.show()

以上就是决策树做分类，但决策树也可以用来做回归，不说直接上代码：

if __name__ == "__main__":
    N =100
    x = np.random.rand(N) *6 -3
    x.sort()
    y = np.sin(x) + np.random.randn(N) *0.05
    x = x.reshape(-1,1)
    print x
    dt = DecisionTreeRegressor(criterion='mse',max_depth=9)
    dt.fit(x,y)
    x_test = np.linspace(-3,3,50).reshape(-1,1)
    y_hat = dt.predict(x_test)

    plt.plot(x,y,'r*',ms =5,label='Actual')
    plt.plot(x_test,y_hat,'g-',linewidth=2,label='predict')
    plt.legend(loc ='upper left')
    plt.grid()
    plt.show()

    #比较决策树的深度影响
    depth =[2,4,6,8,10]
    clr = 'rgbmy'
    dtr = DecisionTreeRegressor(criterion='mse')
    plt.plot(x,y,'ko',ms=6,label='Actual')
    x_test = np.linspace(-3,3,50).reshape(-1,1)
    for d,c in zip(depth,clr):
        dtr.set_params(max_depth=d)
        dtr.fit(x,y)
        y_hat = dtr.predict(x_test)
        plt.plot(x_test,y_hat,'-',color=c,linewidth =2,label='Depth=%d' % d)
    plt.legend(loc='upper left')
    plt.grid(b =True)
    plt.show()

不同深度对回归的影响如下图：

下面上个随机森林代码

    mpl.rcParams['font.sans-serif'] = [u'SimHei']  # 黑体 FangSong/KaiTi
    mpl.rcParams['axes.unicode_minus'] = False

    path = 'iris.data'  # 数据文件路径
    data = pd.read_csv(path, header=None)
    x_prime = data[range(4)]
    y = pd.Categorical(data[4]).codes
    feature_pairs = [[0, 1]]
    plt.figure(figsize=(10,9),facecolor='#FFFFFF')
    for i,pair in enumerate(feature_pairs):
        x = x_prime[pair]
        clf = RandomForestClassifier(n_estimators=200,criterion='entropy',max_depth=3)
        clf.fit(x,y.ravel())
        N, M =50,50
        x1_min,x2_min = x.min()
        x1_max,x2_max = x.max()
        t1 = np.linspace(x1_min,x1_max, N)
        t2 = np.linspace(x2_min,x2_max, M)
        x1,x2 = np.meshgrid(t1,t2)
        x_test = np.stack((x1.flat,x2.flat),axis =1)
        y_hat = clf.predict(x)
        y = y.reshape(-1)
        c = np.count_nonzero(y_hat == y)
        print '特征：',iris_feature[pair[0]],'+',iris_feature[pair[1]]
        print '\t 预测正确数目：',c
        cm_light = mpl.colors.ListedColormap(['#A0FFA0', '#FFA0A0', '#A0A0FF'])
        cm_dark = mpl.colors.ListedColormap(['g', 'r', 'b'])
        y_hat = clf.predict(x_test)
        y_hat = y_hat.reshape(x1.shape)
        plt.pcolormesh(x1,x2,y_hat,cmap =cm_light)
        plt.scatter(x[pair[0]],x[pair[1]],c=y,edgecolors='k',cmap=cm_dark)
        plt.xlabel(iris_feature[pair[0]],fontsize=12)
        plt.ylabel(iris_feature[pair[1]], fontsize=14)
        plt.xlim(x1_min, x1_max)
        plt.ylim(x2_min, x2_max)
        plt.grid()
    plt.tight_layout(2.5)
    plt.subplots_adjust(top=0.92)
    plt.suptitle(u'随机森林对鸢尾花数据的两特征组合的分类结果', fontsize=18)
    plt.show()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

决策树、随机森林简单原理和实现的相关文章

将jar包安装到本地仓库

首先要安装maven 配置环境变量百度 so easy 然后打开终端执行以下命令注意红色对用红色黄色对应黄色绿色对应绿色 mvn install install file DgroupId cn vicky reddwarf D
B站数据分析岗实习生面试记录

step1 自我介绍一下还是需要准备以下的不然一下子介绍自己的话没话说而且介绍自己不完全 step2 一道sql的笔试题目建议刷一下题目呀一定要刷题掌握那些最基本的语法 step3 面试题目1 比如对B站近30天的弹幕发送量进
Office project 2021安装

哈喽大家好今天一起学习的是project 2021的安装 Microsoft Office project项目管理工具软件凝集了许多成熟的项目管理现代理论和方法可以帮助项目管理者实现时间资源成本计划控制有兴趣的小伙伴也可以来
VALSE 文档图像智能报告整理

目录引言端到端检测识别探索检测和识别的协同作用减少对标注的依赖去除一些不必要的组件文字擦除和编辑文字辅助场景理解视频文字擦除和文档矫正文字识别自监督预训练对比学习更高效的语言模型手写数学公式识别文档图像理解视频
java创建数据库连接和对数据库操作的主要步骤

Java创建数据库连接和对数据库操作的主要五个步骤如下 1 加载数据库驱动使用 Class forName 方法加载指定的数据库驱动类例如加载MySQL的驱动类 Class forName com mysql jdbc Driver 2
基于LINUX策略路由的实现

一网络结构eth0 10 43 128 10 gw 10 43 0 254 gt interneleth1 61 144 64 106 gw 61 144 64 1 gt interneleth2 192 168 0 2 gw 192 1
python判断网络是否通

提供两种方法 netstats py coding gbk import myarp import os class netStatus def internet on self ip 192 168 150 1 os system arp
软件架构设计(四) 基于服务的架构（SOA）

前面我们了解到了层次架构中表示层的架构分层分为了MVC MVP MVVM等架构风格下面我们了解一下SOA架构与微服务架构什么是服务服务是一种为了满足某项业务需求的操作规则等的逻辑组合它包含了一系列有序活动的交互为实现用户目标提
Xshell 提示 “找不到匹配的host key算法”

记录 Xshell 6 使用中遇到的找不到匹配的host key算法问题问题现象 ssh远程服务器直接弹窗提示找不到匹配的host key算法检查点首先查看下 sshd 的配置文件 etc ssh sshd config 确认下
剑指 Offer 53 - I. 在排序数组中查找数字 I

题目链接 53 I 在排序数组中查找数字 I 思路分析利用二分查找即可 class Solution public int search vector
QT5.15.2在线安装教程（详细图文）

一在线安装的原因 QT对5 15以及以上版本已经停止提供离线安装包但是 5 15以及以上版本都支持在线安装 Qt5 15以下版本可直接在Index of archive qt中下载离线安装包二 QT账号的注册 1 打开百度搜索QT
小学科技创新项目的查新报告

我们也经常看到这些别人家的孩子 11岁杨荷馨南京市六合区玉带镇中心小学伸缩式车厢卡车第六届国际发明博览会的银牌已经申请国家专利 11岁小学生发明节能燃气灶 11岁女发明家造智能温控电风扇获金奖那么现在当你家小朋友也要参加小学科技
四个收敛的关系：一致收敛，点态收敛，绝对收敛，条件收敛

一致收敛和点态收敛先看两者定义一致收敛任意正数 epsilon 存在 N gt 0 N gt 0 N gt 0 当
VUE-CLI测试环境和打包正式环境的配置切换

config文件夹pro d env js文件 use strict module exports NODE ENV production API ROOT http 120 79 94 143 配置开发端口 config文件夹dev en
化繁为简，使用Hibernate Validator实现参数校验（一）

目录前言环境配置导入依赖基础校验校验注解参数绑定 PathVariable RequestParam RequestBody Validated Valid 单参校验对象校验分组校验顺序校验前言在之前的悦享校园的开发中
docker 离线安装

目录服务介绍软件下载服务配置二进制安装docker与docker compose 服务管理命令服务介绍 docker 是一个供开发和运维人员开发测试部署和运行应用的容器平台 docker compose 是一个用于运行和管理多
缓存案例-架构真题（二十二）

试题一某大型电商平台建立一个B2B商店系统并在全国建设了仓储中心但是在运营过程中发现很多跨仓储中心调货延误运送为此建立全国仓储系统通过对订单的分析和挖掘并通过大数据分析预测各类配置降低成本当用户通过B2B商店下单会通过
Notepad++ - 缓存目录

C Users 你的用户名 AppData Roaming Notepad backup 被360清理了或者程序崩溃了死机了都可以在这里找到

随机推荐

华为OD机试经验（A 卷 2022Q4）

文章目录 1 汇率 2 箱子之字形摆放 3 Excel单元格数值统计先打个小广告在我的Hr的指导帮助下顺利通过了机试两轮技术面由于今年顺利研究生上岸所以没有进行主管面试了向各位想去华为OD的小伙伴们推荐我的对接Hr微信蒋虎
【亲测有用】腾讯会议共享PPT，并开启演讲者模式

出发点腾讯会议共享PPT 开启演讲者模型并且观看屏幕的人根本看不到你的演讲者模型我这边Win10亲测有用我单笔记本屏幕测试原理解释通过播放PPT 产生了一个全屏可以把它理解为是扩展屏然后切回演讲者模式的那个屏幕可以理解为电
Redis7--基础篇1（概述，安装、卸载及配置）

1 Redis概述 1 1 什么是Redis Redis REmote Dictionary Server 远程字典服务器 Remote Dictionary Server 远程字典服务是完全开源的使用ANSIC语言编写遵守BSD协议
Elasticsearch实战（十三）---聚合搜索Aggs聚合及Count，Avg操作

Elasticsearch实战聚合搜索Aggs聚合及Count Avg操作文章目录 Elasticsearch实战聚合搜索Aggs聚合及Count Avg操作 1 聚合搜索 bucket 桶及metric分析计算 1 1 准备数据 2
vue3+element plus input输入框限制输入数字和小数点

不能以小数点开头且只能有一个小数点
如何入门学习python爬虫技术?

作为一门历史悠久的语言 Python比R更具有通用性比C 更灵活可以说Python是一个很全面的语言尤其是在数据科学机器学习和AI方面表现很出色如果想自学怎么学习python爬虫技术一基础知识的掌握什么是爬虫数据是从哪
Linux查看内存，线程，CPU等情况

有的时候需要看服务器的状态比如内存使用状态线程 CPU使用情况等要掌握一些linux的命令是很必要的所以我们大致总结一下这些命令 1 内存使用情况方法一 top命令 top命令会显示内存 CPU还有swap硬盘等状况我们可以通过
小知识·CMake使用

目录 1 cmake 变量引用的方式 2 cmake 自定义变量的方式 3 cmake 常用变量 4 cmake 调用环境变量的方式 5 系统信息 6 主要的开关选项 7 小结 1 cmake 变量引用的方式使用进行变量的引用在 IF
Mac修改hosts文件

hosts可使任意字符串变成一个对应的ip hosts文件位于 private etc hosts 可以通过下面两种方法进行修改第1种方法 1 终端命令 sudo vi etc hosts 回车后输入密码再回车就可以打开我们的hosts
RTMP开发记录测试服务器搭建篇

感谢作者 http www cnblogs com valu p 6287562 html nginx rtmp module 安装最近在做直播功能为了方便调试在本地搭建一个rtmp server吧我的配置环境是Ubuntu12 0
QT 串口通信详解

1 前言在进行串口通信时驱动器或者单片机往往只能发送或接收16进制数据而对于用户而言 16进制数据显然晦涩难懂需要将其转换为通俗易懂的10进制或者可读字符串 QT中因为有相关的函数进行转换特此总结以加深印象说明系统 Wind
【互联网安全】移动APP漏洞风险与解决方案

移动App是大家使用手机每天接触最多的东西然而在移动APP开发中由于一些开发工程师对安全的不重视导致APP中出现漏洞风险比如App被逆向重打包数据在存储或传输过程中泄露系统漏洞被利用逻辑漏洞被绕过等等本课程阿里安全专家阿
解决虚拟机挂起重连后无法连接docker容器的问题

问题描述最近在docker中部署各种容器时遇到一个问题每次挂起虚拟机恢复后就无法连接docker中的容器了必须要重新启动容器才能正常连接非常麻烦查阅各种资料后解决方法如下 1 关闭防火墙由于我是学习环境所以直接关闭防火墙
JavaWeb04(登录&绑值&模糊查询&功能实现&连接数据库)

目录一实现登录功能 2 2 制作简易验证码 2 3 完成登录验证 2 4 登录实现连接字符串 private static final String URL jdbc oracle thin localhost 1521 orcl 加
shell中的eval学习与应用

http blog csdn net hshl1214 article details 7534589 一 bash命令处理的12个步骤 1 将命令行分成由固定元字符集分隔的记号 SPACE TAB NEWLINE lt gt 记号类型包括
hive-sql截取汉字、字母和数字等

在查询字段中截取汉字字母和数字等代码如下 1 截取数字 select regexp extract 123hello你好 0 9 1 输出 123 select regexp replace 123hello你好 0 9 输出 123 2
python教程77--agrid-Streamit表格功能组件介绍详解

接上篇 python教程76 1 安装 pip install streamlit aggrid 2 基础功能基础功能包括表格数据的显示表格高度设置简单筛选与数据排序功能 3 基础功能代码介绍 import streamlit as
linux tcp绑定固定ip地址,linux – 在进行出站TCP连接时,无法绑定到特定的IPv4地址,也不能绑定到同时解析为IPv4和IPv6地址的主机名...

我花了大约6个小时试图解决这个问题现在我相信当连接到具有IPv6地址的主机名时 CentOS Linux无法绑定到特定的虚拟IPv4地址这是具有多个IP地址的服务器上的问题我正在使用Centos 6 Linux内核2 6 32 573
C++执行程序计时函数详解

通常计时函数主要有两个分别是getTickCount 和getTickFrequency getTickCount 函数返回的是CPU自某个时间如启动电脑以来走过的时钟周期数 getTickFrequency 函数返回的是CPU一
决策树、随机森林简单原理和实现

本文申明此文为学习记录过程中间多处引用大师讲义和内容一概念决策树 Decision Tree 是一种简单但是广泛使用的分类器通过训练数据构建决策树可以高效的对未知的数据进行分类决策数有两大优点 1 决策树模型可以读性好具有

决策树、随机森林简单原理和实现

决策树、随机森林简单原理和实现 的相关文章

随机推荐

热门标签

决策树、随机森林简单原理和实现的相关文章