尽管设置了随机状态和相同的输入，sklearn RandomForestClassifier.fit() 仍不可重现

2024-06-24

在使用 Scikit-learn 调整随机森林模型时，我注意到即使我使用相同的 RandomForestClassifier 实例和相同的数据作为输入，但在不同的运行后其准确度分数也不同。我尝试了谷歌搜索和 stackExchange 搜索功能，但我能找到的唯一与此有点相似的情况是this https://datascience.stackexchange.com/questions/66345/why-ml-model-produces-different-results-despite-random-state-defined-and-how-to帖子，但问题是在没有适当随机状态的情况下实例化分类器，这不是我的问题的情况。

我正在使用以下代码：

clf = RandomForestClassifier( n_estimators=65, max_features = 9, max_depth= 'sqrt', random_state = np.random.RandomState(123) )

X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.3, random_state = np.random.RandomState(159) )
clf.fit(X_train, y_train)
y_pred=clf.predict(X_test)

X和y是我的数据和相应的标签，但我发现数据集并没有影响问题。当我运行 train_test_split 行时，我每次都会得到相同的分割，因此没有随机性。使用相同的拟合模型运行 Predict() 每次也会给出相同的结果，这表明我的问题与我上面链接的帖子不同。然而，每次运行 fit() 后，predict() 都会给出不同的预测！即使我不碰 X_train 和 y_train 也会发生这种情况。所以只需运行这两行

clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

每次都会给出不同的结果。据我从文档中可以看出 .fit() 不应该做任何随机的事情。如果没有可重复的输出，就不可能调整模型，所以我很确定某个地方存在错误。我缺少什么？以前有人遇到过这种情况，或者有人知道为什么会发生这种情况吗？

不要使用 numpyRandomState如果您要重新运行拟合并期望得到相同的结果，请反对。仅使用一个整数random_state反而。

来自sklearn的Glossary https://scikit-learn.org/stable/glossary.html#term-random_state，使用numpyRandomState:

多次调用该函数将重用同一个实例，并会产生不同的结果。

The RandomState对象被播种（用你的 123 ），但每次调用都会持续存在fit，继续获取新的随机数，而不会被重置。

快速检查：

clf = RandomForestClassifier(random_state=314)
preds = {}
for i in range(10):
    preds[i] = clf.fit(X, y).predict_proba(X)
all(np.allclose(preds[i], preds[i+1]) for i in range(9))
# > True

clf = RandomForestClassifier(random_state=np.random.RandomState(314))
preds = {}
for i in range(10):
    preds[i] = clf.fit(X, y).predict_proba(X)
all(np.allclose(preds[i], preds[i+1]) for i in range(9))
# > False

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

尽管设置了随机状态和相同的输入，sklearn RandomForestClassifier.fit() 仍不可重现的相关文章

Django：NoReverseMatch at /'myapp'不是注册的命名空间

我在模板渲染期间遇到此错误我想做的是允许用户上传 csv 然后将数据处理到模型中第 109 行出错 myapp 不是已注册的命名空间这是我的第 109 行代码
使用 selenium 和 python 在网页网格中抓取 javascript 数据

我的问题是我需要包含网站子域的网格中的所有数据https applipedia paloaltonetworks com https applipedia paloaltonetworks com 包含名称类别子类别风险技术的数据
Python Flask 删除请求

我正在开发一个 Python 应用程序并使用 Flask 这是我的 DELETE 函数 app route DeleteMessage methods DELETE def DeleteMessage messages Message qu
使用不带引号的块样式的 Python YAML 转储

如何使用 PyYAML 加载和转储 YAML 以便它尽可能地使用原始样式我有 Python 来加载和转储 YAML 数据例如 import sys import yaml def represent dictorder self dat
Python TypeError：不支持的操作数类型 -：“int”和“function”

我是 Python 初学者正在做一项作业我不断得到TypeError unsupported operand type s for int and function 即使在研究了错误并应用了建议的修复之后我并不是在寻找任何人给我一个解
如何在嵌套列表中查找给定元素？

这是我的迭代解决方案 def exists key arg if not arg return False else for element in arg if isinstance element list for i in elemen
并行执行按位运算的代码

我有这段代码通过将该 AU 矩阵的每个字节 8 个元素打包到 A 中来减少内存消耗从而使 100k 200k 矩阵占用更少的空间正如您所期望的这段代码需要永远运行我也计划将行数增加到 200k 我正在一个非常强大的实例 CPU 和
在 Python 中解压存档时出现错误

我使用 Python 下载 bz2 文件然后我想使用以下方法解压存档 def unpack file dir file cwd os getcwd os chdir dir print Unpacking file s file cmd
[Python]比较两个 zip 文件的函数，一个位于 FTP 目录中，另一个位于我的本地计算机上

我在创建比较两个 zip 文件的函数时遇到问题如果它们相同而不仅仅是名称相同这是我的代码示例 def validate zip files self host 192 168 0 1 port 2323 username 123 pa
在Python中将月份和年份的列合并为季度和年份的列

我有一个数据框 df Month 1 8 Year 2015 2020 df pd DataFrame data df df 想要将其转变为新列期望的输出 df Month 1 8 Year 2015 2020 Quarter Q1201
dask分布式内存错误

在分布式作业上运行 Dask 时我在调度程序上遇到以下错误 distributed core ERROR Traceback most recent call last File usr local lib python3 4 dist
如何忽略 Sentry 捕获中的某些 Python 错误

我已将 Sentry 配置为捕获 Django Celery 应用程序中的所有错误它工作正常但我发现一个令人讨厌的用例是当我必须重新启动我的 Celery 工作人员 PostgreSQL 数据库或消息服务器时这会导致数千种各种无法访
如何循环遍历列表中除最后一项之外的所有项？ [复制]

这个问题在这里已经有答案了 Using a for循环如何循环遍历列表中除最后一项之外的所有项我想遍历一个列表检查每个项目与后面的项目我可以在不使用索引的情况下做到这一点吗 for x in y 1 If y是一个生成器那么上面的
Python httplib 和 POST

我目前正在使用别人编写的一段代码它用httplib向服务器发出请求它以正确的格式提供所有数据例如消息正文标头值等问题是每次尝试发送 POST 请求时数据都在那里我可以在客户端看到它但没有任何内容到达服务器我已经阅读了库规
抓取 Shopee API v4

我有一个最终项目其中我想要检索的数据是通过在shopee上抓取数据来获取的但是当我在隐藏的API上抓取shopee时遇到问题当我在Insomnia脚本上尝试时脚本会运行但是当我尝试时在本地或 google colab 脚本上这是
tkinter 库 treectrl 转换为 exe 安装程序时出现 cx_freeze 错误

我使用的是 python 版本 3 7 我使用了这个名为 treectrl 的外部库当我运行 py 文件时它工作得很好但是当我使用 cx freeze 转换为 exe 文件时它给了我错误 NomodulleFound 名为 tkint
为什么变量 1 += 变量 2 比变量 1 = 变量 1 + 变量 2 快得多？

我继承了一些 Python 代码用于创建巨大的表最多 19 列宽 5000 行花了九秒用于在屏幕上绘制表格我注意到每一行都是使用以下代码添加的 sTable sTable n GetRow where sTable是一个字符串我将
在 Python 中为非唯一列表创建虚拟列

目前我有下一个数据框 import pandas as pd df pd DataFrame ID 1 2 3 4 5 col2 a b c c d e f f b f a c b b a b print df ID c
导入错误：无法导入名称

我有一个名为 google translate python 的库 https github com terryyin google translate python https github com terryyin google tra
合并共享属性的节点

EDITED 我真的需要 Networkx graph 专家的帮助假设我有以下数据框我想将这些数据框转换为图表然后我想根据描述和优先级属性将两个图映射到相应的节点 df1 From description To priority 10

随机推荐

如何在Python中检查字符串中的某个字母？

我如何告诉Python检查下面的字母x然后打印 Yes 以下是我迄今为止所拥有的 dog xdasds if x is in dog print Yes Use the in关键字不带is if x in dog print Yes 如果您
SocketAsyncEventArgs.Completed 在 Windows 8 中不会触发

当我在安装了 Windows 7 Ultimate 和 NET 4 的计算机上编译此代码时它工作得很好但当我在安装了 Windows 8 RTM 和 NET 4 5 的计算机上尝试它时 Complete 事件永远不会触发 class P
Nuget包安装错误--无效的URI：无法解析权限/主机

我在 Visual Studio 2017 中使用 NuGet 尝试在较旧的 Web 窗体项目上安装包但失败并出现以下错误 Invalid URI The Authority Host could not be parsed 仅当尝试在
和之间的区别？

请你解释一下两者之间的区别好吗
基于 Java 的 Swing 浏览器应支持 JavaScript

在我的公司我正在实现一个基于java的html浏览器我发现很多工具只能在 Swing 中生成完整的浏览器它们看起来像 Mozilla 但我没能找到支持 JavaScript 的浏览器我将实现的浏览器应该在 HTML 端执行 Java
何时使用 Kotlin suspend 关键字？

fun startAsyncFunc launch asyncFunc1 asyncFunc2 fun asyncFunc1 suspend fun asyncFunc2 我可以完成工作无需suspend它甚至使测试变得更容易可以在不添
在函数式编程中画UML类图有什么意义吗？

我被要求在一个学校项目中展示UML我使用的图表如果我这样做的话实现该项目但我正在做的项目是用 C 语言编写的并且已经进行了功能编程因此我想证明在不使用面向对象语言的情况下使用类图是没有意义的但我担心这不是真的并且无法证实这
通过 PHPcurl 发布文件[重复]

这个问题在这里已经有答案了可能的重复不使用表单将文件上传到服务器 https stackoverflow com questions 6036799 upload a file to server without using a for
为什么安装某些 CPAN 模块需要 root 权限？

我需要在没有 root 权限的 Linux 机器上安装一些 CPAN 模块安装Spreadsheet WriteExcel http search cpan org perldoc Spreadsheet WriteExcel进行得很顺利
log4net - 在哪里可以找到诸如 log4net.Appender.FileAppender 配置之类的 XML DTD 或架构参考？ [复制]

这个问题在这里已经有答案了在哪里可以找到诸如 log4net Appender FileAppender 配置之类的 XML DTD 或架构参考 In this question https stackoverflow com quest
Visual Studio 2017 - 无法安装

我正在尝试安装 Visual Studio 2017 Community 因为我拥有的最后一个版本是同一版本的预发行版但现在我无法继续使用该程序因为它迫使我更新到新程序 I found 这个问题 https stackoverflow
如何在Java中创建大尺寸的自定义光标？

我正在为屡获殊荣的密码保护系统开发一个 Java Swing 应用程序我需要一个大型自定义光标 80 x 80 您可能会问为什么这么大您可以查看一个在线网络演示以了解原因需要这么大 http gatecybertech net http
C++ 初始化列表的元素少于结构体

当我使用初始值设定项列表创建结构体但初始值设定项列表包含的元素少于我的结构体时我看到其余元素均用零初始化这是未定义的行为吗我看到零是因为我的编译器 VS2015 决定为我将内存清零吗或者有人可以向我指出解释 C 中这种行为的文档吗
非本地包中的本地导入

我知道应该避免本地进口但在这种情况下有特殊情况需要这是一个私人仓库 heroku buildpack 在go get 由于服务器上缺少私钥与绝对 URL 一起使用时会出现此阶段现在我得到这个错误local import in non
AWS API Gateway 基于 URI 的版本控制

我很难理解 AWS API Gateway 希望我如何组织 API 以使版本控制变得简单例如假设我有一个简单的 API 用于从字典中获取单词可以选择通过查询参数过滤结果我希望在以下位置提供此版本的 v1 https
如何自动使我的 TortoiseSVN 项目保持最新？

我正在使用 TortoiseSVN 作为保存在 USB 驱动器上的 Subversion 存储库当我从一台电脑转移到另一台电脑时是否有一种方法可以自动识别文件是否已过期无需使用检查修改菜单如果能够看到我的硬盘驱动器上的文件夹与存
如何在Python中打开和编辑现有文件？

一段时间以来我一直在开发各种不同的程序来练习我的 Python 其中最引人注目的是我的选择你自己的冒险游戏到目前为止它已经超过 1000 行最近我一直在尝试在 Python 中编辑文件但我似乎无法弄清楚例如如果我将变量设置
节点 - 告诉请求的来源

是否可以区分直接来自浏览器中 URL 的请求与从远程网页调用的资源之间的区别例如当有人直接访问我的 URL 输入http mywebsite com http mywebsite com 在网络浏览器中但是当用户通过来自单独域的 ur
运行 shell 命令从 Android 应用程序复制文件

我正在尝试启动一个应用程序以便将我的应用程序备份到 SD 卡我跑 Process p Runtime getRuntime exec su Process c Runtime getRuntime exec cp data app co
尽管设置了随机状态和相同的输入，sklearn RandomForestClassifier.fit() 仍不可重现

在使用 Scikit learn 调整随机森林模型时我注意到即使我使用相同的 RandomForestClassifier 实例和相同的数据作为输入但在不同的运行后其准确度分数也不同我尝试了谷歌搜索和 stackExchange 搜索

尽管设置了随机状态和相同的输入，sklearn RandomForestClassifier.fit() 仍不可重现

尽管设置了随机状态和相同的输入，sklearn RandomForestClassifier.fit() 仍不可重现 的相关文章

随机推荐

热门标签

尽管设置了随机状态和相同的输入，sklearn RandomForestClassifier.fit() 仍不可重现的相关文章