我的 R 平方分数为负，但使用 k 倍交叉验证的准确度分数约为 92%

2024-05-08

对于下面的代码，我的 r 平方分数为负，但使用 k 折交叉验证的准确度分数为 92%。这怎么可能？我使用随机森林回归算法来预测一些数据。数据集的链接在下面的链接中给出：https://www.kaggle.com/ludobenistant/hr-analytics https://www.kaggle.com/ludobenistant/hr-analytics

import numpy as np
import pandas as pd
from sklearn.preprocessing import LabelEncoder,OneHotEncoder

dataset = pd.read_csv("HR_comma_sep.csv")
x = dataset.iloc[:,:-1].values   ##Independent variable
y = dataset.iloc[:,9].values     ##Dependent variable

##Encoding the categorical variables

le_x1 = LabelEncoder()
x[:,7] = le_x1.fit_transform(x[:,7])
le_x2 = LabelEncoder()
x[:,8] = le_x1.fit_transform(x[:,8])
ohe = OneHotEncoder(categorical_features = [7,8])
x = ohe.fit_transform(x).toarray()


##splitting the dataset in training and testing data

from sklearn.cross_validation import train_test_split
y = pd.factorize(dataset['left'].values)[0].reshape(-1, 1)
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.2, random_state = 0)

from sklearn.preprocessing import StandardScaler
sc_x = StandardScaler()
x_train = sc_x.fit_transform(x_train)
x_test = sc_x.transform(x_test)
sc_y = StandardScaler()
y_train = sc_y.fit_transform(y_train)

from sklearn.ensemble import RandomForestRegressor
regressor = RandomForestRegressor(n_estimators = 10, random_state = 0)
regressor.fit(x_train, y_train)

y_pred = regressor.predict(x_test)
print(y_pred)
from sklearn.metrics import r2_score
r2_score(y_test , y_pred)

from sklearn.model_selection import cross_val_score
accuracies = cross_val_score(estimator = regressor, X = x_train, y = y_train, cv = 10)
accuracies.mean()
accuracies.std()

你的问题有几个问题...

首先，你犯了一个非常基本的错误：你think当您处于回归设置时，您使用准确性作为指标，并且下面使用的实际指标是均方误差 https://en.wikipedia.org/wiki/Mean_squared_error (MSE).

准确度是一个衡量标准分类，它与正确分类示例的百分比有关 - 检查维基百科 https://en.wikipedia.org/wiki/Precision_and_recall条目了解更多详细信息。

您选择的回归器（随机森林）内部使用的度量包含在您的详细输出中regressor.fit(x_train, y_train)命令 - 注意criterion='mse'争论：

RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=None,
           max_features='auto', max_leaf_nodes=None,
           min_impurity_split=1e-07, min_samples_leaf=1,
           min_samples_split=2, min_weight_fraction_leaf=0.0,
           n_estimators=10, n_jobs=1, oob_score=False, random_state=0,
           verbose=0, warm_start=False)

MSE 是一个正连续量，并且它的上限不为 1，即，如果您得到的值为 0.92，这意味着......好吧，0.92，并且not 92%.

知道这一点后，明确将 MSE 作为交叉验证的评分函数是一个很好的做法：

cv_mse = cross_val_score(estimator = regressor, X = x_train, y = y_train, cv = 10, scoring='neg_mean_squared_error')
cv_mse.mean()
# -2.433430574463703e-28

出于所有实际目的，这是零 - 您适合training设置几乎完美；为了确认，这里是（再次完美）您的 R 平方分数training set:

train_pred = regressor.predict(x_train)
r2_score(y_train , train_pred)
# 1.0

但是，一如既往，当您将模型应用到实际应用中时，关键时刻就会到来。test放;你的second这里的错误是，因为你用scaled训练你的回归器y_train，你还应该缩放y_test评估前：

y_test = sc_y.transform(y_test)
r2_score(y_test , y_pred)
# 0.9998476914664215

你会得到一个非常好的 R 平方test设置（接近 1）。

那么MSE呢？

from sklearn.metrics import mean_squared_error
mse_test = mean_squared_error(y_test, y_pred)
mse_test
# 0.00015230853357849051

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

我的 R 平方分数为负，但使用 k 倍交叉验证的准确度分数约为 92% 的相关文章

将 JSON 发布到 Python CGI

我已经安装了 Apache2 并且 Python 可以工作但我有一个问题我有两页一个是 Python 页面另一个是带有 JQuery 的 Html 页面有人可以告诉我如何让我的 ajax 帖子正常工作吗
如何使用一个模型中间层的输出作为另一个模型的输入？

我训练一个模型A并尝试使用中间层的输出name layer x 作为模型的附加输入B 我尝试像 Keras 文档一样使用中间层的输出https keras io getting started faq how can i obtain th
为什么在访问 Python 对象属性时使用 getattr() 而不是 __dict__ ？

在具有一定程度的 Python 对象自省的源代码示例和 SO 答案中常见的模式是 getattr some object attribute name string 是否有理由优先选择这种模式 some object dict attri
如何计算数据框中按另一列的列值分组的一列的连续字符串值？

我有以下数据框 Levels Labels Confidence 0 Hands 0 8 0 Leg 0 7 0 Eye 0 9 1 Ear 0 9 1 Eye 0 8 2 Hands 0 9 2 Eye 0 8 3 Eye 0 8 我想检
将 Python Pandas DataFrame 写入 Word 文档

我正在努力创建一个使用 Pandas DataFrames 的 Python 生成的报告目前我正在使用DataFrame to string 方法但是这会作为字符串写入文件有没有办法让我实现这一目标同时将其保留为表格以便我可以使
类型错误：“datetime.datetime”和“str”的实例之间不支持“>”

我是 python 日期和时间类型的新手我有一个日期值 date 2018 11 10 10 55 31 00 00 我需要检查该日期值是否超过 90 天我试过 from datetime import datetime from da
用 Python 绘制直方图

我有两个列表 x 和 y x 包含字母表 A Z Y 包含它们在文件中的频率我尝试研究如何在直方图中绘制这些值但在理解如何绘制它方面没有成功 n bins patches plt hist x 26 normed 1 facecolor
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx
Django 多对多关系（类别）

我的目标是向我的 Post 模型添加类别我希望以后能够按不同类别有时是多个类别查询所有帖子模型 py class Category models Model categories 1 red 2 blue 3 black title
Python - Unicode 到 ASCII 的转换

我无法在不丢失数据的情况下将以下 Unicode 转换为 ASCII u ABRA xc3O JOS xc9 I tried encode and decode他们不会这么做有人有建议吗 Unicode 字符u xce0 and u xc
将 window.location 传递给 Flask url_for

我正在使用 python 在我的页面上当匿名用户转到登录页面时我想将一个变量传递到后端以便它指示用户来自哪里发送 URL 因此当用户单击此锚链接时 a href Sign in a 我想发送用户当前所在页面的当前 URL
类型错误：此 COM 对象无法自动执行 makepy 过程 - 请为此对象手动运行 makepy

这是什么错误回溯错误 C Users DELL PycharmProjects MyNew venv Scripts python exe C Users DELL PycharmProjects MyNew agaaaaain py T
Python-验证我的文档 xls 中是否存在工作表

我正在尝试在空闲时间设计一个小程序加载 xls 文件然后在要扫描的文档中选择一张纸步骤1 用户导入 xls文件导入程序后检查文件是否存在我能做到的第 2 步我要求用户提供要分析的文档表 xls 的名称这就是它停止的地方该程
无法使用 python rasterio、gdal 打开 jp2 （来自哨兵）

我试图在 python 中将 jp2 栅格产品作为栅格打开但当我们使用 raterio 和 gdal 包时没有成功我收到此错误 RasterioIOError b4 jp2 not recognized as a supported f
Python：如何在不先创建整个列表的情况下计算列表的总和？

通常我们必须 1 声明一个列表 2 使用以下方法计算该列表的总和sum 但现在我希望指定一个以 1 开头间隔为 4 100 个元素的列表如下所示 1 5 9 13 17 21 25 29 33 37 我不想涉及数学公式所以 1 如何在
Python 读取未格式化的直接访问 Fortran 90 给出不正确的输出

这是数据的写入方式它是一个二维浮点矩阵我不确定大小 open unit 51 file rmsd nn output form unformatted access direct status replace recl Npoints
如何使用 enumerate 来倒数？

letters a b c 假设这是我的清单在哪里for i letter in enumerate letters 将会 0 a 1 b 2 c 我怎样才能让它向后枚举如 2 a 1 b 0 c 这是一个很好的解决方案并且工作完美 i
pandas.read_fwf 忽略提供的数据类型

我正在从文本文件导入数据框我想指定列的数据类型但 pandas 似乎忽略了dtype input 一个工作示例 from io import StringIO import pandas as pd string USAF WBAN S
使用 MPI 的 Allreduce 对 Python 对象求和

我正在使用使用 Python 中的字典和计数器构建的稀疏张量数组操作我想让并行使用这个数组操作成为可能最重要的是我最终在每个节点上都有计数器我想使用 MPI Allreduce 或另一个不错的解决方案将其添加在一起例如使用计数
如何使用 Python/Django 在 Facebook 中获取（和使用）扩展权限

我正在尝试编写一个简单的应用程序让用户授予我的代码写入其页面的 Facebook 流的权限据我了解它应该很简单让用户单击一个按钮启动一个弹出窗口其中包含我的 Facebook 应用程序中的页面在该页面中他们单击授予的内容流发

随机推荐

VBA Office2010 Shapes.PasteSpecial 失败

我在将 VBA 代码从 Office2003 迁移到 Office2010 时遇到问题我想将单元格 Excel 的文本复制到Powerpoint Office2003生成了一个新的文本框文本样式与Excel中相同现在我的代码在 Off
更改 jQuery 中链接的标题

我有一个 id 为 helpTopicAnchorId 的链接我想在 jQuery 中更改其文本我该怎么做呢 helpTopicAnchorId text newText P S the jQuery 文档 http docs jque
'val' 或 'var'，可变还是不可变？

我可以定义一个变量通过var 是不可变的 var x scala collection immutable Set aaaaaa bbbbbb println x isInstanceOf scala collection immutab
如何在外部程序集中的类型的构造函数注入中使用 Ninject

我正在从外部程序集加载类型并希望创建该类型的实例但是此类型类是由当前管理绑定的对象设置为构造函数注入的Ninject 我该如何使用Ninject创建此类型的实例并注入任何构造函数依赖项下面是我如何获得这种类型 Assembly m
在 Go 中执行字节数组

我正在尝试在 Go 程序中执行 shellcode 类似于使用其他语言执行此操作的方式示例 1 C 程序中的 Shellcode https stackoverflow com questions 16626857 shellcode i
如何避免强制解包变量？

我如何避免使用执行强制解包操作因为使用它通常是一个糟糕的选择对于像下面这样的代码什么是更好的选择使用它使代码看起来更简单并且因为 if 检查变量被调用的永远不会为零因此不会崩溃我的老师向我们介绍了 bang 运算符然后告
如何允许表单接受文件删除而不处理 Windows 消息？

在 Delphi XE 中我可以允许我的表单接受文件拖放但不必处理裸窗口消息吗您不需要处理消息来实现这一点你只需要实施IDropTarget并打电话RegisterDragDrop RevokeDragDrop 这真的非常非常简单
Spring OAuth2 Keycloak Kubernetes 内部/外部访问

我在 Kubernetes 集群内配置了 Keycloak 10 0 3 服务器 keycloak 服务器必须处理外部用户的身份验证使用外部 url 并处理用于 Spring 微服务通信的 oauth2 令牌然后Web应用程序Sprin
如何使用用户输入来寻址 Pascal 中的特定变量（Eval/Exec？）

我正在尝试在分形程序中做一些非常具体的事情隆起7X http apophysis 7x org 使用的脚本语言是Pascal 该项目是用德尔福写的 https svn code sf net p apophysis7x svn trunk
TeamCity 命令行构建运行程序：如何使构建失败？

我们使用 TeamCity 的命令行构建运行程序来调用 bat 文件 bat 文件通过调用 Visual Studio 2008 的 devenv exe 来构建我们的解决方案然后执行单元测试并创建正确的文件夹结构我们想要做的是如果对
更改数据网格列顺序或索引

这是我无法相信我无法弄清楚的事情请告诉我我错过了一些简单的事情我有一个数据网格我用 LINQ 填充它以及一个自定义类来向其中添加数据之后我需要按特定顺序排列数据它似乎忽略了我如何更改列属性例如索引等这是我正在使用的 LIN
如何从存储在变量中的字符串调用函数？

我需要能够调用一个函数但函数名称存储在变量中这可能吗例如 function foo code here function bar code here functionName foo I need to call the functi
Eclipse Package Explorer 和 Eclipse Project Explorer 之间有什么区别？

在我看来这两种观点实际上是相同的尤其是自伽利略以来这是真的吗还是我错过了其中一个或另一个的某些功能根据Eclipse帮助 Project Explorer 提供了一个分层视图工作台中的工件即根据具体情况定制您的工作台的配置
ASP MVC.NET3 本地 IIS7 对象引用错误

在开发 mvc Web 应用程序期间我遇到了运行站点本地实例的问题当我尝试重新加载页面时在首次加载成功后我看到以下错误如果我通过 VS 虚拟服务器运行该站点则不会出现任何问题我的应用程序池正在集成模式下运行并且正在运行 ne
连续调用startRecordingToOutputFileURL：

苹果文档 https web archive org web 20140814091047 http developer apple com library ios DOCUMENTATION AVFoundation Reference
将值添加到 rCharts hPlot 工具提示

我想通过 rCharts 向标准 Highcharts 工具提示添加一些额外的值示例代码 require rCharts df lt data frame x c 1 5 y c 5 1 z c A B C D E name c K L
将 AngularJS 应用程序部署到普通 Apache HTTP 服务器是一种常见的选择吗？

我很好奇 AngularJS 应用程序通常部署到什么样的服务器上 Google 没有给出令人满意的答案特别是在我看来 AngularJS 应用程序只是静态文件的集合因此在生产中将这样的应用程序部署到普通 Apache HTTP 服务器
是否可以在三元表达式上只放置一个选项？

我只是好奇这是否可能或者是否有办法使它成为 C 的有效语法 expression value do nothing here or put some empty block like SomeClass SomeMethod Edit 为
MVC 删除记录但如何在控制器中对此进行编码

我是使用 ASP Net C 的 MVC3 初学者但我没有遇到下一种删除记录的情况我有一个视图要求用户确认删除项目记录作为代码我用它来初始化视图 public ActionResult KeywordsDelete Guid id
我的 R 平方分数为负，但使用 k 倍交叉验证的准确度分数约为 92%

对于下面的代码我的 r 平方分数为负但使用 k 折交叉验证的准确度分数为 92 这怎么可能我使用随机森林回归算法来预测一些数据数据集的链接在下面的链接中给出 https www kaggle com ludobenistant hr

我的 R 平方分数为负，但使用 k 倍交叉验证的准确度分数约为 92%

我的 R 平方分数为负，但使用 k 倍交叉验证的准确度分数约为 92% 的相关文章

随机推荐

热门标签