随机森林中什么是袋外错误？ [关闭]

2024-02-08

随机森林中什么是袋外错误？它是在随机森林中找到正确数量的树的最佳参数吗？

我将尝试解释一下：

假设我们的训练数据集由 T 表示，并且假设数据集有 M 个特征（或属性或变量）。

T = {(X1,y1), (X2,y2), ... (Xn, yn)}

and

Xi is input vector {xi1, xi2, ... xiM}

yi is the label (or output or class).

射频总结：

随机森林算法是主要基于两种方法的分类器 -

Bagging
随机子空间方法。

假设我们决定有S我们森林中的树木数量，然后我们首先创建S的数据集"same size as original"通过对 T 中的数据进行随机重采样并进行替换而创建（每个数据集 n 次）。这将导致{T1, T2, ... TS}数据集。其中每一个都称为引导数据集。由于每个数据集都有“替换”TiTi 可能有重复的数据记录，并且 Ti 可能会丢失原始数据集中的多个数据记录。这就是所谓的Bootstrapping。 (en.wikipedia.org/wiki/Bootstrapping_(统计))

Bagging 是采用引导程序然后聚合在每个引导程序上学习到的模型的过程。

现在，RF创造了S树木和用途m (=sqrt(M) or =floor(lnM+1))随机子特征M创建任何树的可能功能。这称为随机子空间方法。

所以对于每个Ti引导数据集创建一棵树Ki。如果你想对一些输入数据进行分类D = {x1, x2, ..., xM}你让它穿过每棵树并产生S输出（每棵树一个）可以表示为Y = {y1, y2, ..., ys}。最终预测是对该组的多数投票。

袋外错误：

创建分类器后（S树），对于每个(Xi,yi)在原始训练集中，即T，全选Tk其中不包括(Xi,yi)。请注意，该子集是一组引导数据集，其中不包含原始数据集中的特定记录。该集合称为袋外示例。有n这样的子集（原始数据集 T 中的每个数据记录一个）。 OOB 分类器仅是投票的聚合Tk使得它不包含(xi,yi).

泛化误差的袋外估计是袋外分类器在训练集上的错误率（与已知的比较）yi's).

它为什么如此重要？

The study of error estimates for bagged classifiers in Breiman [1996b] https://www.stat.berkeley.edu/~breiman/OOBestimation.pdf, gives empirical evidence to show that the out-of-bag estimate is as accurate as using a test set of the same size as the training set. Therefore, using the out-of-bag error estimate removes the need for a set aside test set.^{1 https://doi.org/10.1023/A:1010933404324.}

（感谢@Rudolf 的更正。他的评论如下。）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

随机森林中什么是袋外错误？ [关闭] 的相关文章

是否有可能在每个训练步骤中获得目标函数值？

在通常的 TensorFlow 训练循环中例如 train op tf train AdamOptimizer minimize cross entropy with tf Session as sess for i in range n
Java机器学习库可以商用吗？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有谁知道我可以将其用于商业产品的优秀 Java 机器学习库吗不幸的是 Weka 和 Rapidmin
Caffe，在层中设置自定义权重

I have a network In one place I want to use concat As on this picture 不幸的是该网络无法训练为了理解为什么我想连续改变权重这意味着 FC4096 中的所有值一开始都
tf.keras.utils.image_dataset_from_directory，但标签来自 csv？

请告诉我哪里出错了我正在研究 Kaggle 狗品种分类挑战我想尝试 one hot 编码与标签编码图像未在图像目录中拆分因此我无法将推断与 tf keras utils image dataset from directory
如何检查一个盒子是否适合另一个盒子（允许任何旋转）

假设我有两个盒子每个盒子都是一个长方体 http en wikipedia org wiki Rectangular cuboid aka长方体我需要编写一个函数来决定盒子是否具有尺寸一二三可以装入具有尺寸的盒子中甲乙丙
数据库、表和列命名约定？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案每当我设计数据库时我总是想知道是否有命名数据库中项目的最佳方法我经常问自己以下问题表名应该是复数吗列名应该是单数吗我应该为表或列添加前
使用sklearn进行多标签特征选择

我希望使用 sklearn 对多标签数据集执行特征选择我想要获得最终的功能集across标签然后我将在另一个机器学习包中使用它我打算使用我看到的方法here https stackoverflow com questions 1640
scikit-learn RandomForestClassifier 中的子样本大小

如何控制用于训练森林中每棵树的子样本的大小根据 scikit learn 的文档随机森林是一种适合许多决策的元估计器数据集的各个子样本上的树分类器并使用平均以提高预测准确性并控制过度拟合子样本大小始终与原始输入样本相同大小但如
Keras 中的损失函数和度量有什么区别？ [复制]

这个问题在这里已经有答案了我不清楚 Keras 中损失函数和指标之间的区别该文档对我没有帮助损失函数用于优化您的模型这是优化器将最小化的函数指标用于判断模型的性能这仅供您查看与优化过程无关
为什么 cross_val_predict 比 KNeighborsClassifier 的拟合慢得多？

在 Jupyter 笔记本上本地运行并使用 MNIST 数据集 28k 条目每个图像 28x28 像素以下内容为27秒 from sklearn neighbors import KNeighborsClassifier knn clf
需要帮助解决 Project Euler 问题 200 [已关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我正在尝试制定一个算法来解决 We
Encog - 如何加载神经网络的训练数据

The NeuralDataSet我在实际中看到的对象除了 XOR 之外什么都没有它只是两个小数据数组我无法从文档中找出任何内容MLDataSet 似乎所有内容都必须立即加载但是我想循环遍历训练数据直到到达 EOF 然后将其算作
如何反转 dropout 来补偿 dropout 的影响并保持期望值不变？

我正在学习神经网络中的正则化deeplearning ai课程在dropout正则化中教授说如果应用dropout 计算出的激活值将比不应用dropout时测试时更小因此我们需要扩展激活以使测试阶段更简单我理解这个事实但我
选择 c 和 gamma 值

您好我正在使用 SMO 执行 SVM 分类其中我的内核是 RBF 现在我想选择c and sigma值使用网格搜索和交叉验证我是内核函数的新手请帮助一步一步的过程选择一些您认为有趣的 C 和 sigma 值例如 C 1 10
梯度下降有哪些替代方案？

梯度下降存在局部极小值问题我们需要运行梯度下降指数次来找到全局最小值谁能告诉我梯度下降的任何替代方案及其优缺点 Thanks See 我的硕士论文 https arxiv org pdf 1707 09725 pdf page 96对于
如何确定 Keras Conv2D 函数中的“filter”参数

我刚刚开始我的 ML 之旅并且已经完成了一些教程对我而言不清楚的一件事是如何为 Keras Conv2D 确定过滤器参数我读过的大多数资料只是将参数设置为 32 没有任何解释这只是经验法则还是输入图像的尺寸起作用例如 CIF
在监督分类中，使用partial_fit() 的MLP 比使用fit() 的表现更差

我正在使用的学习数据集是灰度图像flatten让每个像素代表一个单独的样本第二张图像在训练后将被逐像素分类Multilayer perceptron MLP 前一个分类器我遇到的问题是MLP当它一次接收到所有训练数据集时表现更好 fit
scikit-learn 和tensorflow 有什么区别？可以一起使用它们吗？

对于这个问题我无法得到满意的答案据我了解 TensorFlow是一个数值计算库经常用于深度学习应用而Scikit learn是一个通用机器学习框架但它们之间的确切区别是什么 TensorFlow 的目的和功能是什么我可以一起使用它
使用 NLTK 在 Python 中获取大量名词（或形容词）；或 Python Mad Libs

Like 这个问题 https stackoverflow com questions 7439555 noun adjective etc word lists or dictionaries common words 我有兴趣按词性获取
Keras：多类 NLP 任务中 model.evaluate 与 model.predict 的准确性差异

我正在使用以下代码在 keras 中为 NLP 任务训练一个简单模型训练集测试集和验证集的变量名称是不言自明的该数据集有 19 个类因此网络的最后一层有 19 个输出标签也是 one hot 编码的 nb classes 19 m

随机推荐

go helm 图表模板中的循环[关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我正在尝试在 kubernetes helm 图表中循环计数如下所示 reaction mongo url big mongodb for m
TypeScript 将camelCase 键转换为snake_case

想象一下我们有一些具有驼峰命名法属性的对象类型 type Foo propertyBob string propertyJane number 有没有办法创建一个将camelCase转换为snake case的泛型例如 type foo
发布操作：“提交助手应用程序时出错”，没有显示错误

我正在尝试发布我的第一个 Google Assistant 操作但在尝试提交应用程序时控制台告诉我提交助理应用程序时出错但没有任何详细信息是否有任何日志或其他内容可以为我提供有关在提交之前需要修复的更多详细信息我迷路了谢谢许
Pytorch RuntimeError：CUDA 内存不足且有大量可用内存

在训练模型时我遇到了以下问题 RuntimeError CUDA out of memory Tried to allocate 304 00 MiB GPU 0 8 00 GiB total capacity 142 76 MiB al
使用 NetBeans 6.8 进行 XSLT 自动完成

我记得当时NetBeans 6中支持XSLT 现在我使用NetBeans 6 8 但仍然找不到这样的插件你能帮助我吗工具 gt 插件 gt 设置添加http updates netbeans org netbeans updates 6
优化TreeView方法

我有一个非常大的方法可以插入子元素TreeView 基本上我做了两个不同的查询并在 I N 上设置了很小的更改第一个 foreach 插入父级的第一个子级第二个 foreach 插入之前创建的子级的子级 Foreach查询只是改变条件
Android 兼容包不包含 Activity.getFragmentManager()

我开始尝试使用 3 月 3 日刚刚发布的 Android 兼容包向我的 Android 应用程序添加片段该应用程序基于 2 1 我将该库包含到我的项目中并开始将代码从基于 Activity 的类移动到基于 Fragment 的类但我注
如何在复杂的单元格中找到元素？

我有一个复杂的元胞数组例如 A 1 2 3 4 5 6 7 8 9 10 如何找到A中的元素例如我想检查 9 是否在 A 中如果您的元胞数组可以有任意数量的嵌套级别则只需递归所有级别即可检查值这是一个可以执行此操作的函数 fun
iPhone：如何使用 Xcode 向 Web 服务发送 HTTP 请求

如何使用 Objective C 向 Web 服务发送 HTTP 请求我需要从 MySQL 数据库中获取一些数据因此我需要发送请求以便获取数据编辑因为这是一个热门问题而且时间在不断流逝与此同时 Apple 引入了 NSJSONS
使用第三方库和 Carthage 进行单元测试

使用 Carthage 进行依赖管理的正确方法是什么而且还能够用它为其引入的类型编写测试例如这是假设的如果我引入 AlamoFire 并假设它有一个响应协议和不同的协议具体类型符合响应协议在我自己的图书馆里如果我要做的话 tes
沿给定轴打乱 NumPy 数组

给定以下 NumPy 数组 gt a array 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 洗牌单行很简单 gt shuffle a 0 gt a array 4 2 1 3 5 1 2 3 4 5 1 2 3 4 5 是
如何从 Angular 中的 NgFor 循环中删除重复记录

我正在尝试从 ngfor 循环中删除重复记录并仅保留该记录点击次数最多的记录目标是显示用户的点击 URL 但目前当为同一 URL 创建新记录时它会显示在列表中见下图点击操作按预期进行但一段时间后列表将变得难以辨认我正在尝试展
R：从 Quanteda DFM、稀疏文档特征矩阵、对象中删除正则表达式？

Quanteda 包提供了稀疏文档特征矩阵 DFM 其方法包含删除功能 https rdrr io cran quanteda man removeFeatures html 我努力了dfm x removeFeatures b a z 1
从内核空间到用户空间的事件通知

当内核空间发生事件时如何通知用户空间应用程序当数据到达某个 GPIO 时硬件会生成中断该数据被复制到内核缓冲区此时我希望驱动程序通知应用程序它可以调用read函数将数据从内核缓冲区复制到用户空间缓冲区我想用epoll方法但是e
Pygame 没有在窗口中显示任何内容[重复]

这个问题在这里已经有答案了刚刚开始使用 python 和 pygames 编程每当我尝试使用 pygames 运行 py 文件时都会出现 pygames 窗口但其中绝对没有任何内容日志中没有错误但没有任何显示只是灰屏我尝试在
mysql - 基于其他行更新行

我希望根据其他行的特定条件更新某些行假设表格如下所示 COLUMNS time type genre doubles triples ROW 1 2010 06 21 12 00 1 1 0 0 ROW 2 2010 06 21 12 0
连接字符串向量的向量

我正在尝试编写一个函数该函数接收字符串向量的向量并返回连接在一起的所有向量即它返回字符串向量到目前为止我能做的最好的事情如下 fn concat vecs vecs Vec
java 8 收集器类型不匹配的问题：无法从 List
转换为 List
我正在使用早期版本的 java 8 编写工作代码我用它从列表中获取唯一值但自从我升级到 JDK 66 后它给了我一个错误类型不匹配无法转换List to List

使用 Realm 数据库检查两个字段

我怎样才能创建一个and与 Realm 一起操作示例我有一个包含日期和月份的对象我想检查这两个字段的值就像是 RealmResults

随机森林中什么是袋外错误？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案随机森林中什么是袋外错误它是在随机森林中找到正确数量的树的最佳参数吗我将尝试解释一下假设我们的训练数据集由 T 表示并且假设数

热门标签

自定义节点进度条

详细解析和常见大坑

软件测试岗位

道常问面试题

个面试题复盘

抖音软件测试三面

都被问到自闭

三面百度软件测试岗

查看请求头和响应头

菜鸟笔记之计算机网络

播放一个视频

数据表与索引

OIDC

alacritty

使用分享

logseq

cone

总线帧种类介绍篇

车载开发系列

align

PDP

中可迭代对象是什么

Powered by Hwhale

随机森林中什么是袋外错误？ [关闭]

随机森林中什么是袋外错误？ [关闭] 的相关文章

随机推荐

热门标签