R randomForest子集无法摆脱因子水平[重复]

2024-03-27

可能的重复：
删除 R 中子集数据框中的因子级别 https://stackoverflow.com/questions/1195826/dropping-factor-levels-in-a-subsetted-data-frame-in-r

我正在尝试使用 randomForest 来预测销售额。我有 3 个变量，其中之一是 storeId 的因子变量。我知道测试集中的某些级别不在训练集中。我试图仅对训练集中存在的水平进行预测，但无法让它超越新的因子水平。

到目前为止，这是我尝试过的：

require(randomForest)
train <- data.frame(sales = runif(10)*1000, storeId = factor(seq(1,10,1)), dat1 =runif(10), dat2 = runif(10)*10)
test <- data.frame(storeId = factor(seq(2,11,1)), dat1 =runif(10), dat2 = runif(10)*10)


> train 
      sales storeId      dat1     dat2
1  414.7791       1 0.7830092 7.178577
2  719.5965       2 0.9512138 6.153049
3  887.3197       3 0.6879827 5.413556
4  706.5828       4 0.4486214 4.955400
5  326.8189       5 0.0944885 6.900802
6  840.5920       6 0.1917165 8.044636
7  936.2206       7 0.2173074 4.835064
8  244.6947       8 0.6526765 6.516790
9  818.8747       9 0.3317644 9.651675
10 631.6104      10 0.6998037 8.443972
> test 
   storeId      dat1     dat2
1        2 0.7513645 3.442052
2        3 0.2862487 3.196189
3        4 0.4971865 6.074281
4        5 0.8631945 8.766129
5        6 0.3848105 5.001426
6        7 0.9032262 7.018274
7        8 0.1560501 4.523618
8        9 0.3461597 5.551672
9       10 0.1318464 3.092640
10      11 0.6587270 1.348623


> RF1 <- randomForest(train[,c("storeId","dat1","dat2")], train$sales, do.trace=TRUE,
+ importance=TRUE,ntree=5,,forest=TRUE)
     |      Out-of-bag   |
Tree |      MSE  %Var(y) |
   1 | 2.915e+05   544.44 |
   2 | 1.825e+05   340.84 |
   3 |  2.1e+05   392.19 |
   4 | 1.914e+05   357.38 |
   5 | 1.809e+05   337.78 |
> pred <- predict(RF1, test)
Error in predict.randomForest(RF1, test) : 
  New factor levels not present in the training data

这部分是有道理的。

所以我尝试这个：

> test2 <- test[test$storeId != 11,]
> pred <- predict(RF1, test2)
Error in predict.randomForest(RF1, test2) : 
  New factor levels not present in the training data

所以我尝试这个：

> levels(test2$storeId)
 [1] "2"  "3"  "4"  "5"  "6"  "7"  "8"  "9"  "10" "11"

而且“11”级别仍然在那里。

接下来我尝试这个：

> test2$storeId <- as.numeric(as.character(test2$storeId))
> test2$storeId <- factor(test2$storeId)
> pred <- predict(RF1, test2)
Error in predict.randomForest(RF1, test2) : 
  Type of predictors in new data do not match that of the training data.

尽管事实上这里看起来一切正常：

> levels(test2$storeId)
[1] "2"  "3"  "4"  "5"  "6"  "7"  "8"  "9"  "10"

有什么建议让它只对没有“11”级别的商店进行预测吗？

EDIT:

> test2$storeId <- as.factor(as.character(test2$storeId))
> pred <- predict(RF1, test2)
Error in predict.randomForest(RF1, test2) : 
  Type of predictors in new data do not match that of the training data.
> 
> test2$storeId <- drop.levels(test2$storeId)
> pred <- predict(RF1, test2)
Error in predict.randomForest(RF1, test2) : 
  Type of predictors in new data do not match that of the training data.


> str(train)
'data.frame':   10 obs. of  4 variables:
 $ sales  : num  800 679 589 812 384 ...
 $ storeId: Factor w/ 10 levels "1","2","3","4",..: 1 2 3 4 5 6 7 8 9 10
 $ dat1   : num  0.5148 0.5567 0.9871 0.0071 0.736 ...
 $ dat2   : num  8.501 2.994 2.948 0.519 1.746 ...
> str(test)
'data.frame':   10 obs. of  3 variables:
 $ storeId: Factor w/ 10 levels "2","3","4","5",..: 1 2 3 4 5 6 7 8 9 10
 $ dat1   : num  0.0975 0.7435 0.7055 0.2085 0.2944 ...
 $ dat2   : num  5.96 6.84 3.96 8.93 8.62 ...
> str(test2)
'data.frame':   9 obs. of  3 variables:
 $ storeId: Factor w/ 9 levels "2","3","4","5",..: 1 2 3 4 5 6 7 8 9
 $ dat1   : num  0.0975 0.7435 0.7055 0.2085 0.2944 ...
 $ dat2   : num  5.96 6.84 3.96 8.93 8.62 ...

这实际上是重复的。你应该使用droplevels然后在解决该问题后，您忽略了级别仍然不对齐的事实。您只需更改级别，使其与训练数据中的级别相同：

test1 <- droplevels(subset(test,storeId != 11))
levels(test1$storeId) <- as.character(c(2:10,1)
pred <- predict(RF1, test1)
> pred
       1        2        3        4        5        6        7        8        9 
698.9186 703.9761 654.5370 561.3058 491.1836 736.4316 639.8752 586.1755 782.1186

这里的寓意很简单，您的训练数据有一个级别为 1,2,...10 的因子，您的测试数据必须具有完全相同的一组级别（无论您是否有其中某些级别的任何数据）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

RandomForest

R randomForest子集无法摆脱因子水平[重复] 的相关文章

数据表中的 NA

我有一个data table其中包含一些组我对每个组进行操作有些组返回数字其他组返回NA 因为某些原因data table很难将所有东西重新组合在一起这是一个错误还是我误解了这是一个例子 dtb lt data table a 1
如何使用 grid.arrange 移动图例位置

我试图在一页中排列 4 个图将图例放在底部中心我用它来获取其中一个图的图例因为它们对于四个图来说是相同的 get legend lt function myggplot tmp lt ggplot gtable ggplot buil
如何缩放（标准化）每列内的 ggplot2 stat_bin2d 值（按 X 轴）

我有一个 ggplot stat bin2d 热图 library ggplot2 value lt rep 1 5 1000 df lt as data frame value df group lt rep 1 7 len 5000 d
如何在RcppParallel中调用用户定义的函数？

受到文章的启发http gallery rcpp org articles parallel distance matrix http gallery rcpp org articles parallel distance matrix 我
SQL Server RODBC 连接

有没有人有使用 RODBC 并连接到 MS SQL Server 2005 或 2008 的连接字符串示例谢谢 library RODBC dbhandle lt odbcDriverConnect driver SQL Server s
如何正确调整 R 中 ggplot 的各个方面的大小，包括图例？

我在 ggplot2 中制作散点图然后使用 ggsave 导出特定宽度和高度的 PDF 但是图形图例永远不会使用 ggsave 正确调整大小其边框不会留在绘图内是否有另一种方法可以同时调整 ggplot 所有部分的大小以便于导出我
R：计算自上次出现某个值以来的累积总和和计数

给定简化数据 set seed 13 user id rep 1 2 each 10 order id sample 1 20 replace FALSE cost round runif 20 1 5 75 1 category samp
R中一张图中的多个条形图

我是 R 初学者我需要创建一个像这样的图表 https i stack imgur com az56z jpg https i stack imgur com az56z jpg 我不知道如何生成整个数据集基本思想是某个外显子 ID 会
R Shiny UI 子选项复选框？

我有一个基本的 RShiny 应用程序它有一个反应式复选框它根据复选框中选择的数据 df 列绘制时间序列数据我当前的代码生成一个带有复选框输入的 UI 如下所示 Load R packages library shiny libra
data.table：从不存在的列到现有列的“get”失败，静默失败

gt d lt data table x 1 5 gt d x 6 y get i 9 Error in get i 9 object i 9 not found gt d y 1 add a new column y gt d x 6 y
通过 rpy 将 SPSS 文件（.sav）导入 pandas 时如何保留标签？

我正在寻找使用 SPSS 文件 sav pandas 在没有 SPSS 程序的情况下典型文件转换为 csv 后的样子如下在调查前两行的含义时我不知道 SPSS 似乎第一行包含Labels 而第二行包含VarNames 当我将文件带入
准备编程竞赛的缩写和函数[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
不理解..密度的行为

在下面的数据框中我预计密度的 y 轴值为 0 6 和 0 4 但它们是 1 0 我觉得我使用的方式显然缺少一些非常基本的东西密度但是我的大脑冻结了我将如何使用密度获得所需的行为任何帮助将不胜感激 df lt data fram
根据条件计算平均值

下面是我的数据框 Row ID A B 1 0 0 2 0 0 3 0 0 4 0 1 5 0 1 6 0 1 7 62 75 0 8 100 0 9 100 0 10 100 1 11 100 1 12 100 1 13 100 1 14
如何替换R中的“意外转义字符”

当我尝试从 Facebook URL 的字符对象解析 JSON 时我收到 fromJSON data 中的错误位置 130 处出现意外的转义字符 o 看一下这个 library RCurl library rjson data lt g
如何在 R 中绘制预测的子集？

我有一个简单的 R 脚本来根据文件创建预测自 2014 年以来就有数据记录但我在尝试实现以下两个目标时遇到了困难仅绘制预测信息的子集从 11 2017 开始以特定格式包含月份和年份即 6 月 17 日这是链接到dataset
通过删除连续的重复项来减少字符串长度

我有一个包含 2 个字段的 R 数据框 ID WORD 1 AAAAABBBBB 2 ABCAAABBBDDD 3 我想通过仅保留字母而不是重复中的重复项来简化具有重复字母的单词 e g AAAAABBBBB应该给我AB and ABCAA
双向条形图，两侧带有正标签ggplot2

我尝试在 ggplot 中创建一个双向条形图其中轴上方和下方的轴标签和数据标签均为正值例如如果您的数据是 myData lt data frame category c yes yes no no month c Jan Feb Ja
如何拆分 data.frame -> 将合并应用于子集 -> 合并到 data.frame 中

我真的不知道如何在不使用 for 循环的情况下实现这一目标 x lt c a b c d gt x 1 a b c d data lt data frame x c a b a b c a a b c d name c one one tw
无法使用 cairo 安装 R

我正在从源代码安装 R cd R 3 2 2 configure prefix pwd with cairo yes with readline no with libpng yes with x no 我已经从源代码安装了 cairo v

随机推荐

如何从 Flask 服务器中的外部文件夹访问文件？

我是 Flask 新手对于将外部文件夹中的库包含到 html 模板中感到非常困惑我知道如何包括static文件夹但我想将代码和库文件保存在单独的文件夹中所以我的目录结构是这样的 main directory Code flask
如何将 TypeScript 类拆分为多个文件？

我找到了很多例子也尝试自己将一个模块分成几个文件所以我得到了那个非常方便但有时出于同样的原因划分班级也很实用假设我有几种方法但我不想将所有内容都塞进一个长文件中我正在寻找类似的东西partialC 中的声明最近我使用这种模式
带圆形进度条的倒计时器

我创建了一个倒计时器我有一个圆形边框当计时器趋向于零时圆形边框应随着秒数的减少而改变颜色我创建了JSFIDDLE https jsfiddle net alaksandarjesus th190c7a HTML div class
CSS倒三角形图像叠加[重复]

这个问题在这里已经有答案了是否有可能在 CSS 中制作类似的东西我想要一个标题图像但我希望从下一部分中切出该三角形以便上面的图像显示在那里我知道如何制作一个带有边框的实心 CSS 三角形例如 http www dailycodi
如何使用 Jest 测试导入自定义本机模块的 React Native 组件？

这是我尝试使用 React Native 0 39 和 Jest 18 测试的一个简单组件 index ios js import React Component from react import AppRegistry NativeMo
在 BIG QUERY 中进行透视时，行数据有空格时会出现错误。字段只能包含字母数字下划线以字母或下划线开头

我正在尝试使用下面的查询在大查询中进行旋转 select from SELECT desc qty RSN DESC FROM TABLE PIVOT SUM qty FOR RSN DESC IN Example1 Example2 Ex
用于构建共享库的“soname”选项有什么用？

我学到了程序库指南 http tldp org HOWTO Program Library HOWTO 它提到使用soname像下面这样管理版本 gcc shared fPIC Wl soname libfoo so 1 o libfoo
Delphi Chromium Embedded - 清除浏览器缓存

我在我的应用程序中使用 Delphi Chromium Embedded 我有以下问题有没有办法清除浏览器缓存我还尝试通过正确设置选项来不使用缓存我将两个选项页面和应用程序缓存设置为禁用但我的页面仍然在使用缓存我找到的解决方
C++ constexpr：在编译时计算 std 数组

我想转换一个数组 bool到一个整数序列所以我需要计算一个std array在编译时这是我的代码 include
MySQL 中使用数据库名称通配符授予权限？

我想创建一个用户 projectA 该用户对名为 projectA 的每个数据库具有相同的权限我知道这是可能的但 MySQL 不喜欢我的语法 grant all on projectA to projectA 参考 http dev m
如何将 JavascriptSerializer 序列化的 DateTime 字符串转换为 Javascript Date 对象

序列化对象后DateTime场与JavaScriptSerializer 我看到DateTime字段看起来像这样 EffectiveFrom Date 1355496152000 如何将此字符串转换为 Javascript Date 对象
Gradle 构建和部署特定的构建类型

我想使用特定的构建类型构建我的 gradle 项目并使用单个命令将其部署到设备上我的 build gradle 设置为多种构建类型例如实时和发布我之前与 Maven 合作过我寻找相当于 mvn clean install P re
Regex.Escape 的目的是什么？

我有如下代码其中 QualifiedInstanceFilter 是合格实例过滤器的访问器谁能告诉我 m afc QualifiedInstanceFilter Regex Escape this Identifier 行中发生的逻辑是
更改字体大小而不弄乱 Tkinter 按钮大小

我遇到麻烦了更改按钮的字体大小在 Tkinter 中当我尝试这样做时该按钮还可以展开收缩基于文本的大小有没有办法可以通过固定按钮的大小来改变文本大小我在设计 tic tac toe 应用程序时遇到了这个问题但是为了省去你的麻烦这
如何在 IE8 中转储 JavaScript 变量？

我有一个需要在 IE8 中检查的对象我尝试了开发者工具console log 他们的 Firebug 等价物但是当我将对象输出到日志时 console log Element element console log element 我
如何在 SQL Server 中拆分分隔字符串而不创建函数？

我正在使用 SQL Server 数据库我有一列包含分隔列表我需要编写一个查询将列表的值拆分为行通过浏览 StackOverflow 和网络的其他部分我知道这是一个常见问题事实上我在这里找到了广泛的分析 http www so
ILGenerator 是否有一个好的包装器？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
通过pdb调试djcelery的celeryd

有人尝试过使用 pdb 调试 celeryd 工作程序吗每当遇到断点通过 pdb 运行 celeryd 或者通过pdb set trace 我遇到了以下错误 Error while handling action event Trace
间歇性地从 LinkedIn API 收到 999 请求被拒绝。原因代码1,2,1指的是什么

在过去的两天里两个不同的 LinkedIn 应用程序开始间歇性地收到 999 请求被拒绝的错误除此之外我收到 reason code 1 2 1 作为标题具体来说这是从 oAuth 过程的第三步与https www linke
R randomForest子集无法摆脱因子水平[重复]

这个问题在这里已经有答案了可能的重复删除 R 中子集数据框中的因子级别 https stackoverflow com questions 1195826 dropping factor levels in a subsetted da

R randomForest子集无法摆脱因子水平[重复]

R randomForest子集无法摆脱因子水平[重复] 的相关文章

随机推荐

热门标签