插入符号训练的公式和非公式结果不同

2024-02-19

我注意到在训练时使用插入符中的公式和非公式方法会产生不同的结果。此外，公式方法所需的时间几乎是非公式方法所需时间的 10 倍。这是预期的吗？

> z <- data.table(c1=sample(1:1000,1000, replace=T), c2=as.factor(sample(LETTERS, 1000, replace=T)))

# SYSTEM TIME WITH FORMULA METHOD
# -------------------------------

> system.time(r <- train(c1 ~ ., z, method="rf", importance=T))
   user  system elapsed
376.233   9.241  18.190

> r
1000 samples
   1 predictors

No pre-processing
Resampling: Bootstrap (25 reps)

Summary of sample sizes: 1000, 1000, 1000, 1000, 1000, 1000, ...

Resampling results across tuning parameters:

  mtry  RMSE  Rsquared  RMSE SD  Rsquared SD
  2     295   0.00114   4.94     0.00154
  13    300   0.00113   5.15     0.00151
  25    300   0.00111   5.16     0.00146

RMSE was used to select the optimal model using  the smallest value.
The final value used for the model was mtry = 2.


# SYSTEM TIME WITH NON-FORMULA METHOD
# -------------------------------

> system.time(r <- train(z[,2,with=F], z$c1, method="rf", importance=T))
       user  system elapsed
     34.984   2.977   2.708
    Warning message:
    In randomForest.default(trainX, trainY, mtry = tuneValue$.mtry,  :
  invalid mtry: reset to within valid range
> r
1000 samples
   1 predictors

No pre-processing
Resampling: Bootstrap (25 reps)

Summary of sample sizes: 1000, 1000, 1000, 1000, 1000, 1000, ...

Resampling results

  RMSE  Rsquared  RMSE SD  Rsquared SD
  297   0.00152   6.67     0.00197

Tuning parameter 'mtry' was held constant at a value of 2

您有一个具有中等数量级别的分类预测变量。当您使用公式界面时，大多数建模功能（包括train, lm, glm等）内部运行model.matrix来处理数据集。这将从任何因子变量创建虚拟变量。非公式界面则没有[1]。

当您使用虚拟变量时，任何拆分中仅使用一个因子水平。树方法以不同的方式处理分类预测变量，但是，当不使用虚拟变量时，随机森林将根据结果对因子预测变量进行排序，并找到因子水平的 2 路分割 [2]。这需要更多时间。

Max

[1] 我讨厌成为那些说“在my book http://appliedpredictivemodeling.com/我展示...”，但在本例中我会展示。图 14.2 很好地说明了 CART 树的这一过程。

[2] 天哪，我又这么做了。第 14.1 节讨论了树木因子的不同表示，第 14.7 节显示了针对一个数据集的两种方法之间的比较

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

插入符号训练的公式和非公式结果不同的相关文章

R：在 Shiny 中，如何修复应用于“反应性”类对象的“xtable”没有适用的方法

我收到此错误 Error in UseMethod xtable no applicable method for xtable applied to an object of class reactive UI R library shi
R：在函数中包含循环？

以下代码可用于创建一个 data frame 其中 Kendall Tau 和 Spearman 相关结果彼此相邻 data mtcars mtcars correlation lt function x y df1 cor data fr
带有嵌套分组变量的多行轴标签，用于 - R 中的堆积条形图

我想使用 ggplot 制作一个包含多个类别的堆叠条形图并带有嵌套的标记 X 轴类似于我使用 Excel 制作的条形图如此处所示我尝试使用给出的例子here https stackoverflow com questions 181
R中有字典功能吗

有没有办法在 R 中创建一个字典使其具有对一些效果 x dictionary c Hi Why water c 1 5 4 x Why 5 我问这个是因为我实际上正在寻找两个分类变量函数所以如果 x dictionary c a b
分割单个 SpatialPolygons 对象的多边形部分

在 R 中我有一个SpatialPolygons包含数百个多边形的对象即多个多边形我想分割这个SpatialPolygons对象放入列表中Polygons 即孔应保持连接到父多边形知道如何做到这一点吗 EDITED 使用以下提供的示
如何使用r中的dplyr在特定位置插入空白行

我想在数据框中的特定位置插入空白行我的数据框是这样的 dat lt data frame group c rep A 1 rep B 4 rep C 2 rep D 2 group 1 A 2 B 3 B 4 B 5 B 6 C 7 C
R：如何更改ggvis闪亮应用程序中特定范围的绘图背景颜色

I have a simple shiny app like below and you can run it The plots are created by ggvis and user can choose student name
替换rmarkdown/knitr/pdf中字幕的自动编号

我正在使用 Rmarkdown 生成 PDF 文档我想在其中手动定义图号下面是一个块的示例 r chunk26 fig cap Fig 5 3 My figure caption plot 1 1 我使用特殊的编号来遵循文档的章节问题
当在另一行中找到元素逗号分隔时合并行

您好我有一个数据框例如 species family Events groups 1 SP1 A 10 22 G1 2 SP1 B 7 G2 3 SP1 C D 4 5 6 1 3 G3 G4 G5 G6 4 SP2 A 22 10 G
R Shiny - 使用 DataTable 移动列名称

我有一个非常复杂的闪亮代码其中有几个面板和这些面板内的几个表格启动应用程序时列名称与列值正确对齐但是一旦我更改应用程序表格下的页码列名称就会移动到左侧而值仍保留在中间如何强制应用程序使列名称与列值对齐一个可重现的例子 li
DT数据表中的列对齐

In my shiny我正在使用的应用程序datatable函数来自DT库构建一个表格并希望将列居中对齐我可以用formatStyle column textAlign center 但它只影响列体而不影响标题我们必须设置columnD
R - 如何为数据范围内的缺失值绘制条形图零点？

假设我对 1 到 10 之间的整数的 200 个点有 10 个观察值 mysample sample rep seq 1 10 20 10 我想用条形图绘制它 barplot table mysample barplot https i s
R 中 if-else 中的逻辑运算符

我有一个名为 mat 的下表 5 列和 3 行 AC CA RES 1 0 2 2 1 3 0 0 0 1 正在执行的操作是mat 1 mat 1 mat 2 我正在测试以下内容 1 如果一行的两列都为零则结果应为 NA 2 如果一行中只
基于列名称的字符向量的子数据框[重复]

这个问题在这里已经有答案了菜鸟问题提前感谢您的耐心我有一个数据框 vals lt c 1 1 1 1 testdf lt data frame var1 vals var2 vals var3 vals 我有一个变量名称的字符向量 v
ggplot2：图例下方的中心图例而不是面板区域

ggplot默认情况下图例位于面板下方居中这在某些情况下确实令人沮丧请看下面的例子 ggplot diamonds aes cut fill clarity geom bar coord flip theme legend posit
在 Rlattice xyplot 上分别控制轴刻度和轴线

我怎样才能去除周围的盒子xyplot 同时保留轴刻度刻度线本着爱德华塔夫特 Edward Tufte 极简主义数据图形美学的精神这些轴线是非数据墨水并且可以应该被擦除 library lattice my df lt dat
在闪亮应用程序的 DT::datatable 中添加、删除和编辑行

我有下面闪亮的应用程序我可以通过按添加新行Add基于闪亮的小部件选择我可以通过按选择并删除一行Delete我想将它们与单击一行的功能结合起来然后在按Edit 例如如果我单击第二行然后更改Security Type小部件来自Stoc
零膨胀泊松分布：无法估计参数，错误代码为 100

以下是我正在研究的一种数据集 data lt c 0 1 0 11 2 0 3 0 0 2 1 3 1 0 1 0 0 0 2 3 0 0 0 8 1 1 1 0 1 1 2 7 0 0 0 5 2 3 6 1 1 5 2 9 0 0 1
geom_polygon 的渐变填充

此代码生成一个包含 3 个多边形的图表我正在创建一个显示 3 个多边形的图表如果有更好的方法来绘制多边形我不太感兴趣实际上这些多边形代表事件并且这些事件有一个持续时间首先我感兴趣的是使用渐变填充每个多边形的可能性 librar
如何在 R 中解析堆叠多个 JSON 的文件？

我在 R 中有以下堆叠 JSON 对象 example1 json ID 12345 Timestamp 20140101 Usefulness Yes Code event1 A result 1 ID 1A35B Timestamp

随机推荐

在 JSON 对象的开头添加新属性

我有这个 JSON var myVar 9 Automotive Industrial 1 Books 7 Clothing 我想在开头添加一个新元素我想最终得到这个 var myVar 5 Electronics 9 Automotiv
KeyValuePair<> 结构中 Deconstruct 方法的用途是什么？

我在看System Collections Generic KeyValuePair
C89、C90 或 C99 中的所有函数都需要原型吗？

为了真正符合标准 C 中的所有函数除 main 之外都必须有原型吗即使它们仅在同一翻译单元中定义后才使用这取决于您所说的真正符合标准是什么意思然而简短的答案是确保所有函数在使用之前在范围内都有原型是一个好主意一个更合格的
Java 正则表达式去除 XML 标签，但不去除标签内容

我有以下 Java 代码 str str replaceAll lt gt lt gt 这会将字符串变成这样 How now
在 SQL Server 数据库中保存字体的最佳方法

在知道可以从不同环境 Windows Linux 和语言 Java PHP Python C 访问该字体的情况下在 SQL Server 数据库中插入字体的最佳方法是什么我有一个例子我应该从 C Winforms 应用程序插入字体并从
模板函数查找

考虑这段代码 include
在 .h 文件中声明结构并在 .c 文件中实现

这是我的 h 文件 struct MyString typedef struct MyString MyString 我想在 c 文件中声明其成员我试过 typedef struct MyString char str pointer t
如何缩短 Git Bash 提示符 (Windows)

如何缩短我的 git bash 提示符 Malik LAPTOP 7R9912OI MINGW64 Desktop test 像这样的事情 Malik test 我在 Windows 上使用 git bash git 版本为 2 21 0
java中从arraylist中删除具有多个索引的多个元素

我有两个List2 我将项目存储在一个列表中在第二个列表中我存储 int 数字我将其视为索引我想从包含所有索引的项目列表中删除项目 ArrayList
R中多个变量的线图

我有以下格式的输入数据 x y z 0 2 2 4 5 5 3 8 6 8 10 4 6 9 3 15 7 6 10 5 我如何在R中像Excel 如下所示一样绘制xy散点图至少有四种方法可以做到这一点 1 此处使用名为 df 的水平
获取没有函数参数的二叉树的高度

import java util Scanner public class BinaryTree private int info private BinaryTree left private BinaryTree right priva
在 dplyr 中使用字符串作为过滤器？

有没有办法在 dplyr 中使用字符串变量作为过滤器参数例如 filter iris Sepal Length gt 6 将被替换为 string lt Sepal Length gt 6 filter iris string 基本上我
管理中的 AbstractController::DoubleRenderError

我正在从事疯狂商务工作我正在尝试调整 active sale controller 中的几个操作我有一些条件如果条件失败我将重定向到返回否则我将继续下一步我现在面临的问题是我在同一个操作中使用了两次redirected to
无法安装 Visual Studio 2013 更新 5 (RTM)； Apache Cordova 工具

我正在尝试安装 VS2013 更新 5 但它不会安装因为它被阻止我必须通过控制面板卸载旧版本的 Visual Studio Tools for Apache Cordova 多设备混合应用程序我已经按照要求卸载了它尽管与 VS20
Node js Express 中的环境变量(.env)

是否可以为所有不同的部署环境例如开发生产等提供一个 env 文件根据环境需要加载相应的环境变量文件是的您可以使用dotenv https github com motdotla dotenv module例如 env DB H
在没有 JavaScript 的情况下将 HTML 元素与父元素的中间对齐

我想在元素中间放置一个水平对齐很容易当然垂直对齐也可以用JS来完成但我确信用CSS有更好的方法有什么窍门呢附我需要这个用于具有 HTML5 元素的应用程序因此我不介意该解决方案是否仅适用于支持画布的浏览器和 IE 7 8 使用
使用 Typescript 时如何更新 Next-auth 中会话回调中的会话类型

我正在使用打字稿我的 next auth tsx 文件如下所示 import NextAuth Awaitable Session User from next auth import GithubProvider from next a
如何使用try catch语句抛出错误？

Utility const readUserUtility id a gt const currentstore store getState const returnedArray currentstore users filter us
使用多个跟踪侦听器

我有 2 个 WCF 服务它们是从单个 Windows 主机托管的我使用跟踪侦听器将数据记录到应用程序日志中我已将以下代码添加到配置文件中
插入符号训练的公式和非公式结果不同

我注意到在训练时使用插入符中的公式和非公式方法会产生不同的结果此外公式方法所需的时间几乎是非公式方法所需时间的 10 倍这是预期的吗 gt z lt data table c1 sample 1 1000 1000 replace T

插入符号训练的公式和非公式结果不同

插入符号训练的公式和非公式结果不同 的相关文章

随机推荐

热门标签

插入符号训练的公式和非公式结果不同的相关文章