为什么“值”之和不等于 scikit-learn RandomForestClassifier 中“样本”的数量？

2023-12-13

我通过 RandomForestClassifier 构建了一个随机森林并绘制了决策树。参数“值”（红色箭头所指）是什么意思？为什么[]中两个数字的总和不等于“样本”的数量？我看到了一些其他的例子，[]中的两个数字之和等于“样本”的数量。为什么我的情况没有？

df = pd.read_csv("Dataset.csv")
df.drop(['Flow ID', 'Inbound'], axis=1, inplace=True)
df.replace([np.inf, -np.inf], np.nan, inplace=True)
df.dropna(inplace = True)
df.Label[df.Label == 'BENIGN'] = 0
df.Label[df.Label == 'DrDoS_LDAP'] = 1
Y = df["Label"].values
Y = Y.astype('int')
X = df.drop(labels = ["Label"], axis=1)
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.5)
model = RandomForestClassifier(n_estimators = 20)
model.fit(X_train, Y_train)
Accuracy = model.score(X_test, Y_test)
        
for i in range(len(model.estimators_)):
    fig = plt.figure(figsize=(15,15))
    tree.plot_tree(model.estimators_[i], feature_names = df.columns, class_names = ['Benign', 'DDoS'])
    plt.savefig('.\\TheForest\\T'+str(i))

不错的收获。

尽管没有记录，但这是由于引导抽样默认情况下发生在随机森林模型中（请参阅我的答案为什么单棵树的随机森林比决策树分类器好得多？有关 RF 算法详细信息及其与单纯“一堆”决策树的区别的更多信息）。

让我们看一个例子iris data:

from sklearn.datasets import load_iris
from sklearn import tree
from sklearn.ensemble import RandomForestClassifier

iris = load_iris()

rf = RandomForestClassifier(max_depth = 3)
rf.fit(iris.data, iris.target)

tree.plot_tree(rf.estimators_[0]) # take the first tree

这里的结果与您报告的类似：对于除右下节点之外的所有其他节点，sum(value)不相等samples，因为它应该是这样的“简单”决策树.

谨慎的观察者可能会注意到这里看起来很奇怪的其他事情：虽然 iris 数据集有 150 个样本：

print(iris.DESCR)

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class

树的基节点应包括所有这些节点，即samples第一个节点只有 89。

为什么会这样？到底发生了什么？为了看看，让我们安装第二个 RF 模型，这次无引导采样（即与bootstrap=False):

rf2 = RandomForestClassifier(max_depth = 3, bootstrap=False) # no bootstrap sampling
rf2.fit(iris.data, iris.target)

tree.plot_tree(rf2.estimators_[0]) # take again the first tree

好吧，既然我们已经禁用了引导采样，一切看起来都“很好”：value每个节点都等于samples，并且基节点确实包含整个数据集（150 个样本）。

因此，您描述的行为似乎确实是由于引导采样造成的，在创建样本时有更换（即最终以复制集合中每个单独决策树的样本），这些重复样本不会反映在sample树节点的值，显示树节点的数量unique样品；尽管如此，它is反映在节点上value.

这种情况与 RF 回归模型以及 Bagging 分类器完全类似 - 分别参见：

sklearn RandomForestRegressor 显示的树值存在差异
为什么该决策树每一步的值之和不等于样本数？

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么“值”之和不等于 scikit-learn RandomForestClassifier 中“样本”的数量？的相关文章

django_openid_auth TypeError openid.yadis.manager.YadisServiceManager 对象不是 JSON 可序列化

I used django openid auth在我的项目上一段时间以来它运行得很好但今天我测试了该应用程序并遇到了这个异常 Environment Request Method GET Request URL http local
使用 python 进行串行数据记录

Intro 我需要编写一个小程序来实时读取串行数据并将其写入文本文件我在读取数据方面取得了一些进展但尚未成功地将这些信息存储在新文件中这是我的代码 from future import print function import se
如何在序列化器创建方法中获取 URL Id？

我有以下网址 url r member P
python 模拟第三方模块

我正在尝试测试一些处理推文的类我使用 Sixohsix twitter 来处理 Twitter API 我有一个类充当 Twitter 类的外观我的想法是模拟实际的 Sixohsix 类通过随机生成新推文或从数据库检索它们来模拟推文的
如何使用 Plotly 中的直方图将所有离群值分入一个分箱？

所以问题是我可以在 Plotly 中绘制直方图其中所有大于某个阈值的值都将被分组到一个箱中吗所需的输出但使用标准情节Histogram类我只能得到这个输出 import pandas as pd from plotly import
从 ffmpeg 获取实时输出以在进度条中使用（PyQt4，stdout）

我已经查看了很多问题但仍然无法完全弄清楚我正在使用 PyQt 并且希望能够运行ffmpeg i file mp4 file avi并获取流式输出以便我可以创建进度条我看过这些问题 ffmpeg可以显示进度条吗 https stack
如何在 pytest 中将单元测试和集成测试分开

根据维基百科 https en wikipedia org wiki Unit testing Description和各种articles https techbeacon com devops 6 best practices inte
如何创建一个语句来打印以特定单词开头的单词？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案如何在 python 中打印从特定字母开始的单词而不使用函数而是使用方法或循环 1 我有一个字符串想要打印以 m 开头的单词 S
为什么Python的curses中escape键有延迟？

In the Python curses module I have observed that there is a roughly 1 second delay between pressing the esc key and getc
使用 OLS 回归预测未来值（Python、StatsModels、Pandas）

我目前正在尝试在 Python 中实现 MLR 但不确定如何将我找到的系数应用于未来值 import pandas as pd import statsmodels formula api as sm import statsmodels
对图像块进行多重处理

我有一个函数必须循环遍历图像的各个像素并计算一些几何形状此函数需要很长时间才能运行在 24 兆像素图像上大约需要 5 小时但似乎应该很容易在多个内核上并行运行然而我一生都找不到一个有据可查解释充分的例子来使用 Multiproc
TensorFlow的./configure在哪里以及如何启用GPU支持？

在我的 Ubuntu 上安装 TensorFlow 时我想将 GPU 与 CUDA 结合使用但我却停在了这一步官方教程 http www tensorflow org get started os setup md 这到底是哪里 con
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
Numpy 过滤器平滑零区域

我有一个 0 及更大整数的 2D numpy 数组其中值代表区域标签例如 array 9 9 9 0 0 0 0 1 1 1 9 9 9 9 0 7 1 1 1 1 9 9 9 9 0 2 2 1 1 1 9 9 9 8 0 2 2 1
如何设置 Celery 来调用自定义工作器初始化？

我对 Celery 很陌生我一直在尝试设置一个具有 2 个独立队列的项目一个用于计算另一个用于执行到目前为止一切都很好我的问题是执行队列中的工作人员需要实例化一个具有唯一 object id 的类每个工作人员一个 id 我想知
Seaborn Pairplot 图例不显示颜色

我一直在学习如何在Python中使用seaborn和pairplot 这里的一切似乎都工作正常但由于某种原因图例不会显示相关的颜色我无法找到解决方案因此如果有人有任何建议请告诉我 x sns pairplot stats2 hue
Python 将日志滚动到变量

我有一个使用多线程并在服务器后台运行的应用程序为了无需登录服务器即可监控应用程序我决定包括Bottle http bottlepy org为了响应一些HTTP端点并报告状态执行远程关闭等我还想添加一种查阅日志文件的方法我可以使用以
python Soap zeep模块获取结果

我从 SOAP API 得到如下结果 client zeep Client wsdl self wsdl transport transport auth header lb E authenticate self login res cl
无法在前端使用 JavaScript Fetch API 将文件上传到 FastAPI 后端

我正在尝试弄清楚如何将图像发送到我的 API 并验证生成的token那是在header的请求到目前为止这就是我所处的位置 app post endreProfilbilde async def endreProfilbilde requ
具有自定义值的 Django 管理外键下拉列表

我有 3 个 Django 模型 class Test models Model pass class Page models Model test models ForeignKey Test class Question model M

随机推荐

ODOO：在特定时间运行 cron

我想添加一个在特定时间运行的 cron 作业我已经在 xml 中添加了 cron 但它有interval number and interval type 如何让它在一天中的特定时间运行
带渐变层的 iOS UISLider

我正在构建一个 iOS 应用程序我必须在其中实现自定义 UISlider 问题是内置的UISlider不支持渐变轨迹另一个问题是我的 UI 风格指南显示当前跟踪值矩形应该是两种颜色的渐变如图所示如何构建 UISlider 的自定义版
Git：如何将 rebase 与他们的策略结合使用

基本上我只想重新设置父级假设提交A 特定提交 commitB 这是某个分支的根提交x 建议here在其中一个答案中我可以通过移植来做到这一点稍后我会尝试一下也许这是更好的方法然而在阅读本文之前我认为这应该可以通过reba
C# 中的日期格式

我有一个用于显示日期时间的字符串例如 Mon dd Dec YYYY hh mm ss 我想这样显示它 dd Dec YYYY 有什么简单的方法可以做到吗您可以调用 DateTime 类上的格式化方法 DateTime time Dat
在 C# 中隐藏/显示 Windows 窗体面板 [关闭]

Closed 这个问题需要调试细节目前不接受答案我尝试在 C 中显示隐藏面板但是当我单击 button1 时我想看到 panel1 但出现了 panel2 当我点击按钮 2 时面板 2 就消失了但是当我第一次点击按钮2时面板
M 以下 Android 版本的 Android 运行时权限？

最近我的ola 出租车应用程序最新更新后运行时请求位置权限它没有打开位置设置屏幕但只需单击是设备的我的位置 GPS 就会打开并且应用程序会继续进行而无需进入位置设置或任何设置屏幕此功能即将在 Android M 中推出并
将数据帧列表中的变量聚合到单个数据帧中

我正在 R 中执行每个保单的人寿保险估值每月现金流量预测是按每个保单执行的并返回以下格式的数据框例如 Policy1 data frame ProjM 1 200 Cashflow1 rep 5 200 Cashflow2 rep 1
如何在 Selenium 中测试“记住我”复选框功能

我正在尝试测试登录表单的记住我功能我可以输入用户名和密码单击复选框单击提交然后quit or close 浏览器但是当我重新打开浏览器时new ChromeDriver 或任何其他WebDriver实现测试站点不记得任何东西
是否可以强制存在量化类型变量仅具有单一类型？

考虑下面的代码 trait Foo T def one Foo gt T def two T def three x T def test T f Foo T val b f one b three b two 方法测试无法进行类型检查它
Excel：从工作表调用 vba 函数时将当前单元格作为参数传递

我正在尝试创建一个 VBA 函数该函数接受一个单元格作为参数并使用各种 Range Offset 从那里开始工作该函数将在工作表单元格中调用为了进行测试我使用这个简单的脚本 Public Function testPublic t
使用 chrome 和 safari 查看时，html 页面中的“tt”、“ti”、“ff”等字符消失

在特定的 html 文件中查看时所有 ti fi tt 字符都丢失当我们在inspect element 例如解决方案拼写错误为解决方案示例截图相同的 html 在 FireFox 上运行良好上述问题在 Chrome 和 S
Ajax.BeginForm 不调用 onSuccess

在 ASP NET MVC 3 应用程序中我使用 Ajax BeginForm 将书面文本发布到控制器 using Ajax BeginForm Post Forum new threadId Model Thread Id new Aj
在 Fabric.js 中使用 setAngle() 后，旋转和缩放控件关闭

我想让用户旋转对象Fabric js动力画布但将其旋转限制为 90 度增量想法是当它们旋转然后停止时物体会以最接近的角度卡入到位通过监听 object rotating 设置最近的角度然后调用 object setAngle
为什么我的 Breeze.js 实体没有创建 ko.observables？

我使用的 Breeze js 没有服务器端组件并使用以下代码在客户端创建实体根据沃德的要求我简化了一切并添加了更多信息我的 MetaDataStore 配置功能 function configureMetadataStore me
F2PY找不到模块

我在 Python 中使用 f2py 编译模块时遇到困难我有一个用 Fortran 编写的软件可以在 Linux 64 位机器上编译良好此外 F2Py 还编译了一个使用 Fortran 位的 Python 模块 Python 模块的编
如何使用 C++ 检查进程是否正在运行

如果一个进程没有运行我不应该显示某些上下文菜单选项我正在使用进程名称检查进程是否正在运行但问题是进程名称在不同的 Windows 平台上显示方式不同即 Windows 任务栏上的 Windows 64 位进程名称是应用程序名 e
解密 TripleDES“坏数据”

我是加密解密新手我正在尝试解密已加密且长度为 44 个字符的输入字符串这是我到目前为止所拥有的但当它尝试执行 TransformFinalBlock 函数时我不断收到坏数据 public static String Decryp
如何将 getElementById 切换为 getElementsByClassName [重复]

这个问题在这里已经有答案了我试图将 getElementById 切换为 getElementsByClassName 对于这样的项目 http jsfiddle net 2waZ2 21 我的简单努力不起作用 http jsfiddle
删除 Chrome 的“翻译”DOM 属性

我正在处理一些遗留代码其中原始开发人员大量使用生成具有名为的非标准属性的 HTML DOM 节点translate span My Account span 然后使用 JavaScript 代码遍历搜索这些节点如下所示 if tar
为什么“值”之和不等于 scikit-learn RandomForestClassifier 中“样本”的数量？

我通过 RandomForestClassifier 构建了一个随机森林并绘制了决策树参数值红色箭头所指是什么意思为什么中两个数字的总和不等于样本的数量我看到了一些其他的例子中的两个数字之和等于样本的数量为什么我的

为什么“值”之和不等于 scikit-learn RandomForestClassifier 中“样本”的数量？

为什么“值”之和不等于 scikit-learn RandomForestClassifier 中“样本”的数量？ 的相关文章

随机推荐

热门标签

为什么“值”之和不等于 scikit-learn RandomForestClassifier 中“样本”的数量？的相关文章