4.决策树

2023-10-29

决策树

一、决策树概述

训练阶段，根据训练数据构造决策树模型；在测试阶段，对数据进行分类。

决策树重要的三个阶段：1.特征的选择 2.决策树的生成 3.决策树剪枝

决策树内部节点表示特征或者属性，叶节点表示类别。

特征的选择：根据信息增益（ID3）和信息增益比（C4.5）

二、基本的概念

（1）经验熵的计算（由数据极大似然估计得到，所以在熵基础上称为经验熵）。熵值越大表示不确定性就越大。熵的公式：

其中n表示类别数，Pi表示第i类别的数量与总数量的比。

（2）经验条件熵：

其中H(Y|X)为经验条件熵，表示在X条件下对数据集Y进行分类的不确定性

（3）信息增益：表示不确定变化的程度

其中H(D|A)为经验条件熵，表示在A条件下对数据集D进行分类的不确定性，H(D)表示D数据集原本的不确定性，因此g(D,A)表示数据集D不确定性减少的程度。
计算经验条件熵可如下：

其中n表示根据特征A维度的类别数。

（4）信息增益比：因为信息增益存在会偏向于取值较多的特征的问题，因此在C4.5中用到了信息增益比去选择特征。

三、决策树的生成

3.1 ID3

3.2 C4.5

四、决策树剪枝

4.1 原因

（1）剪枝是为了防止过拟合，出现过于复杂的决策树，以至于对训练数据分类准确率很高，而对测试数据的泛化能力很差的情况。

（2）简化分类模型。

4.2 具体的做法

裁掉一些叶子结点。通过计算其损失函数来实现。

损失函数（目标函数）：

其中：

其中C(T)为所有叶子节点的不确定性，|T|表示叶子结点的数量，α|T|起到了平衡决策树复杂度的作用。

具体算法如下：

五、参考

李航的《统计学习方法》

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

传统的机器学习算法

决策树

机器学习

4.决策树的相关文章

什么是概率匹配

概率匹配是一种在信息论和统计学中常用的方法用于将一个随机事件的概率分布与另一个概率分布进行匹配或逼近它在数据处理编码压缩和模型选择等领域具有重要的应用为我们理解和处理复杂的概率分布提供了一种有效的工具首先让我们来了解概率匹配的
自信息量和一阶熵

信息论中自信息量和一阶熵是用来度量信息的重要概念它们提供了一种方式来理解和量化信息的不确定性和平均量对于解决信息传输编码和存储等问题非常有用首先让我们来了解一下自信息量自信息量是用来度量一个事件的信息量或不确定性的大小假设有
其他：机器学习算法速查表

概述机器学习可以被认为是计算机科学中最有前途和最受期待的领域之一借助先前的数据机器学习试图使计算机能够独立学习新事物机器学习模型接收数据执行各种计算并最大限度地提高模型的精度和准确度机器学习的主要任务包括图像分割语音识别和推
项目：IRIS数据集项目

概述机器学习是人工智能的一个子部分涉及教导算法做出基于数据的决策并尝试像人类一样行事有许多数据集可用于针对不同任务训练这些算法例如 IRIS 数据集涵盖三类花 Versicolor Setosa 和 Virginica 每种花有四
人工智能知识表示与推理：构建智能系统的认知引擎

导言人工智能知识表示与推理是构建智能系统认知引擎的关键组成部分本文将深入研究知识表示的方法和推理技术以及它们在解决现实问题和提升智能系统智能水平中的作用 1 知识表示方法符号表示法使用符号和逻辑关系来表示知识例如谓词逻辑连接主
Python-一键爬取图片、音频、视频资源

前言使用Python爬取任意网页的资源文件比如图片音频视频一般常用的做法就是把网页的HTML请求下来通过XPath或者正则来获取自己想要的资源这里我做了一个爬虫工具软件可以一键爬取资源媒体文件但是需要说明的是这里爬取资源
机器学习---决策树

介绍决策树和随机森林都是非线性有监督的分类模型决策树是一种树形结构树内部每个节点表示一个属性上的测试每个分支代表一个测试输出每个叶子节点代表一个分类类别通过训练数据构建决策树可以对未知数据进行分类随机森林是由多个决策树组成
机器学习项目结构数据预测实验报告

需求我经过处理得到了测试值然后进一步得到预测和真实值的比较然后再把之前的所有相关的参数评估指标预测值比较结果都存入excel 另外我还打算做测试报告模板包括敏感性分析等您建议我这些功能如何封装这些功能哪些功能放到一个文件中
互操作性(Interoperability)如何影响着机器学习的发展？

互操作性 Interoperability 也称为互用性即两个系统之间有效沟通的能力是机器学习未来发展中的关键因素对于银行业医疗和其他生活服务行业我们期望那些用于信息交换的平台可以在我们需要时无缝沟通我们每个人都有成千上万个数据
什么是“人机协同”机器学习？

人机协同 HITL 是人工智能的一个分支它同时利用人类智能和机器智能来创建机器学习模型在传统的人机协同方法中人们会参与一个良性循环在其中训练调整和测试特定算法通常它的工作方式如下首先对数据进行人工标注这就为模型提供了
lr推荐模型特征重要性分析

在分析lr模型特征重要性之前需要先明白lr模型是怎么回事儿 lr模型公式是sigmoid w1 x1 w2 x2 wn xn 其中w1 w2 wn就是模型参数 x1 x2 xn是输入的特征值对于lr模型来说特征可以分为两个粒度一个是
MIT_线性代数笔记：第 23 讲微分方程和 exp(At)

目录微分方程 Differential equations 矩阵指数函数 Matrix exponential e A t e At
MIT_线性代数笔记：第 23 讲微分方程和 exp(At)

目录微分方程 Differential equations 矩阵指数函数 Matrix exponential e A t e At
Python机器学习实战：用Python构建10个有趣的应用

机器学习是一门强大的工具可以用于解决各种各样的问题通过学习机器学习您可以开发出能够自动化任务做出预测甚至创造艺术的应用程序如果您是一名 Python 开发人员那么您将很高兴知道有许多可以用 Python 构建的有趣机器学习应用
山西电力市场日前价格预测【2024-01-05】

日前价格预测预测说明如上图所示预测明日 2024 01 05 山西电力市场全天平均日前电价为259 10元 MWh 其中最高日前电价为363 99元 MWh 预计出现在18 00 最低日前电价为0 00元 MWh 预计出现在11 1
自动驾驶轨迹预测

目录神经网络轨迹预测综述比较新的轨迹预测网络 Uber LaneRCNN 5 Google VectorNet 6 Huawei HOME 7 Waymo TNT 8 Aptive Covernet 9 NEC R2P2 10 商汤 T
MIT_线性代数笔记：复习二

目录第二单元主要内容例题第二单元主要内容正交矩阵 Q 用矩阵形式描述正交性质投影矩阵 P 最小二乘法在方程无解时求最优解 Gram Schmidt 正交化从任意一组基得到标准正交基策略是从向量中减去投影到其它向量方向的分
基于GPT4+Python近红外光谱数据分析及机器学习与深度学习建模

详情点击链接基于ChatGPT4 Python近红外光谱数据分析及机器学习与深度学习建模教程第一 GPT4 基础 1 ChatGPT概述 GPT 1 GPT 2 GPT 3 GPT 3 5 GPT 4模型的演变 2 ChatGPT对话初
GPT4+Python近红外光谱数据分析及机器学习与深度学习建模

详情点击链接 GPT4 Python近红外光谱数据分析及机器学习与深度学习建模第一 GPT4 入门基础 1 ChatGPT概述 GPT 1 GPT 2 GPT 3 GPT 3 5 GPT 4模型的演变 2 ChatGPT对话初体验注册与
自动驾驶离不开的仿真！Carla-Autoware联合仿真全栈教程

随着自动驾驶技术的不断发展研发技术人员开始面对一系列复杂挑战特别是在确保系统安全性处理复杂交通场景以及优化算法性能等方面这些挑战中尤其突出的是所谓的长尾问题即那些在实际道路测试中难以遇到的罕见或异常驾驶情况这些问题暴露了实车

随机推荐

mysql，oracle，sqlserver之表备份

mysql表备份 1 只复制表结构到新表只有结构无数据 create table 新表 select from 旧表 where1 2 或create table 新表 like 旧表此两种方法的区别使用第一条语句备份的新表并没有旧
C++之共享智能指针shared_ptr的实现

目录概念使用标准库共享智能指针共享智能指针底层实现概念共享指针是可以由多个栈上智能指针对象同时托管同一堆上资源的因为shared ptr的内部实现引用计数来管理有多少智能指针指向了这块堆上资源当一个共享智能指针出栈时引用
人脸建模1

宝宝把眼睛球体控制器和簇点的translate属性关联之后选中眼睛一圈隔一个选一个面给上nhair毛囊删除结算器等只留图中鼠标所在位置毛囊分别对对应位置控制器父子约束所有控制器做好之后一定要冻结舌头控制器前面的组p给后面的盒
二、C++语言进阶：动态库与静态库之函数篇

2 动态库与静态库之函数篇作用分离编译代码重用分类分类作用后缀静态库一个或多个 o目标文件归档在一个文件中 a 共享库没有main函数的可执行文件 so 动态加载库没有main函数的可执行文件接口复合API so 2
让树叶摇动起来

Shader XW Tree TreeLeaf Simple Properties Color Main Color Color 1 1 1 1 clipAlpha clip Alpha Range 0 1 0 5 MainTex Base
Nginx 服务器

简介 Nginx 是一款HTTP和反向代理服务器它的内存占用少能够支持高达五万个并发连接响应其主要有三个功能反向代理负载均衡反向代理正向代理就相当于 VPN 当你想要访问一个服务器但是由于某种原因不能直接访问时可以去访问一
如何使用 Vagrant 命令行工具创建和管理虚拟机

创建和管理虚拟机曾经是一个乏味且耗时的过程在不同的服务器上复制虚拟机也可能具有挑战性如果必须复制多个虚拟机情况会变得更加困难但后来 Vagrant 出现了它是一种通常与2 类虚拟机管理程序配合使用的命令行或 shell 工具你可
QT从入门到实战x篇_06_信号和槽2：自定义信号和槽函数的创建及使用

接上文 QT从入门到实战x篇 xx 信号和槽1 Qt中自带的信号和槽函数的使用方法本文主要介绍如何根据自身的功能需要创建和使用自定义信号及槽函数先写出一个功能需求下课后老师触发信号饿了学生响应信号请客吃饭 1 建立老师类和学生
jquery ztree实现下拉树形框，json数据

公司最近的项目需要用到树形下拉框在网上找了挺多源码最后还是采用了zTree来实现因为代码的移植性比较高而且数据的获取比较容易废话不多说直接上代码 index jsp
轻量应用服务器腾讯云和阿里云哪家更好？

轻量应用服务器阿里云和腾讯云哪个好云服务器吧认为腾讯云轻量应用服务器还不错腾讯云轻量服务器30元起配置可选2核2G3M 2核2G4M 2核4G5M 4核8G12M 8核16G18M和16核32G28M 阿里云轻量应用服务器配置仅可以选
C语言函数大全-- w 开头的函数（1）

w 开头的函数 1 1 wcscat 1 1 函数说明 1 2 演示示例 1 3 运行结果 2 wcschr 2 1 函数说明 2 2 演示示例 2 3 运行结果 3 wcscmp 3 1 函数说明 3 2 演示示例 3 3 运行结果 4
AHB接口总线仲裁1主多从细节。关于hready in和hready out信号的理解

所有slaver 只要有1个hready out等于0 表示slaver没有准备好执行此拍操作这时所有slaver都不能执行此拍操作以防止1主多从的AHB接口协议问题所有slaver的hreadyout 需要与之后提供给所有sla
linux下c++操作MySQL

第一步先在Linux中安装MySQL 第二步在安装连接器中端命令 sudo apt get install libmysqlclient dev 第三步写一个操作MySQL的c 代码保存退出 include
allegro如何对差分对单根网络进行等长调节

选中要调整的差分线再点击左栏的快捷按钮此时options会弹出相关的调整s参数设置好差分线参数鼠标放在刚才选中的线上拉出一个方框方框内就会显示线的形状变化再次点击鼠标后就会把线绘制成曲线形状蛇形走线在这里注意如果调整走线
Redis缓存穿透, 击穿, 雪崩

缓存穿透缓存穿透是指用户想要查询一个数据发现redis内存中没有也就是没有缓存命中于是向持久层数据库查询发现也没有于是本次查询失败当用户很多的时候缓存中都没有于是都去请求持久层数据库这会给持久层数据库造成很大压力这就是
kafka 不支持读写分离的原因

前段时间在看 kafka 相关内容发现 kafka 所有的读写流量都在主 partition 上从 partition 只负责备份数据那么为什么 kafka 从 partition 不跟其他中间件一样承接读流量读写分离的初衷读写
LoadRunner11 脚本关联操作-（学习中）

一首先了解关联的定义服务器返回给客户端的是一些动态变化的值客户端使用动态变化的值去访问服务器的时候不能把这些值写死在脚本里面而应该存放在一个变量里面实时去获取服务器返回的动态值简而言之就是将录制脚本的静态值再转换成动态值
2021-1-30Linux学习纪要

压缩和解压类 gzip gunzip gzip 用与压缩文件 gunzip 用于解压缩文件特点把文件压缩之后原来的文件就没有了同样的解压之后压缩文件也没有了 zip 选项 xxx zip 将要压缩的内容功能描述压缩文件和目录的命令
百川智能发布开源中英文大模型；GitHub调查显示92%的程序员使用AI编码工具；第一季度中国云服务支出增长6%丨每日大事件...

数据智能产业创新服务媒体聚焦数智改变商业企业动态百川智能发布开源中英文大模型 6月15日百川智能公司推出了70亿参数量的中英文预训练大模型 baichuan 7B baichuan 7B在C Eval AGIEval和Gaokao
4.决策树

决策树一决策树概述训练阶段根据训练数据构造决策树模型在测试阶段对数据进行分类决策树重要的三个阶段 1 特征的选择 2 决策树的生成 3 决策树剪枝决策树内部节点表示特征或者属性叶节点表示类别特征的选择根据信息增益 ID

4.决策树

决策树

4.决策树 的相关文章

随机推荐

热门标签

4.决策树的相关文章