插入符号交叉验证中的预处理

2024-01-19

我有一个关于数据预处理的问题需要澄清。据我了解，当我们通过交叉验证调整超参数并估计模型性能时，我们需要在交叉验证中进行，而不是预处理整个数据集。换句话说，在交叉验证中，我们对训练折叠进行预处理，然后使用相同的预处理参数来处理测试折叠并进行预测。

在下面的示例代码中，当我在 caret::train 中指定 preProcess 时，它会自动执行此操作吗？如果有人能澄清我这一点，我真的很感激。

从一些在线资源来看，有些人预处理整个数据集（训练集），然后使用预处理数据通过交叉验证来调整超参数，这似乎不对......

library(caret)
library(mlbench)
data(PimaIndiansDiabetes)

control <- trainControl(method="cv", 
                        number=5,
                        preProcOptions = list(pcaComp=4))
grid=expand.grid(mtry=c(1,2,3))

model <- train(diabetes~., data=PimaIndiansDiabetes, method="rf", 
               preProcess=c("scale", "center", "pca"), 
               trControl=control,
               tuneGrid=grid)

您的担忧是对的。引入积极偏见的方法有很多。

根据插入符的创建者 Max Kuhn 的说法，当preProcess指定于train:

所有预处理均应用于数据的重采样版本（例如 10 倍 CV 中的 90%），然后将这些计算应用于抵制者（剩余的 10%）无需重新计算。

source: https://github.com/topepo/caret/issues/335 https://github.com/topepo/caret/issues/335

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

rcaret

插入符号交叉验证中的预处理的相关文章

mtext：使用布局时较小的标签描述

使用 mtext 作为标签描述与使用 xlab 的作用不同如何使 mtext 标签始终与使用 xlab 时的大小相同无需始终定义 cex 参数在下面的最小示例中两个图的 cex cex lab 1 不过大小不同 layout mat
按值对 geom_bar ggplot2 中的条形重新排序

我正在尝试制作一个条形图其中的图是从miRNA与最高的value to the miRNA与最低的为什么我的代码不起作用 gt head corr m miRNA variable value 1 mmu miR 532 3p pos
导出绘图变量显示空白图像

我正在使用 JRI 进行 java 和 R 集成请找到下面的脚本 String path C Users hrpatel Desktop CSVs DataNVOCT csv rengine eval library tseries re
使用 R 进行语言相关排序

1 如何正确排序任务是根据英文字母对美国州名缩写进行排序但我注意到 R 根据某种操作系统语言或区域设置对列表进行排序例如在我的语言立陶宛语中甚至拉丁语非立陶宛语字母的顺序也与英语字母表中的顺序不同仅比较两个字母表中的非立
从数据帧创建 sf 多边形

我有一个包含一组多边形坐标的数据框这就是我将其转换为spatialPolygons 包sp 的方法 my df lt data frame Plot c A A A A A B B B B B Corner c SW NW NE SE S
如何在 R 中压缩多个 CSV 文件？

我正在尝试在 R 中压缩多个 CSV 文件下面是供参考的代码 Create two dataframes using inbuilt datasets for reproducible code df1 lt head mtcars df
x[floor(d)] + x[ceiling(d)] 中的错误：二元运算符的非数字参数

我试图绘制病毒载量和试验组的简单箱线图但不断收到此错误 x floor d x ceiling d 中的错误二元运算符的非数字参数 dataset PatientID trial arm viral load 1 club 19 2 c
R 彩色树状图建议？

我想制作彩色树状图但尚未找到足够的库 http addictedtor free fr graphiques RGraphGallery php graph 79 http addictedtor free fr graphiques R
r - ggplot2 - 突出显示选定的点和奇怪的行为

我想突出显示选定的点并遇到一些奇怪的行为首先是一些虚拟数据 a lt 1 50 b lt rnorm 50 mydata lt data frame a a b b ggplot mydata aes x a y b geom point
R 连接到主机时出错

我已经安装了 R 3 0 2 和包KEGGREST 在使用它的命令时我收到以下错误函数错误类型消息 asError TRUE 无法连接到主持人使用 internet2 选项后我可以很好地从互联网安装软件包该选项使用来自 In
删除 R 数据框中所有列名称的前两个字符

有没有办法从数据框中的所有列名中按位置删除字符串例如如果我有如下列名称 ab sales1 kj sales2 lm sales3 pk sales100 10 34 64 288 我希望我的输出列名称类似于 sales1 sales2
如何找到连续数字的区间开始和结束的位置？

我有一个向量 vec lt c 2 3 5 6 7 8 16 19 22 23 24 连续的数字是 c 2 3 c 5 6 7 8 c 22 23 24 所以第一个向量从 2 开始到 3 结束第二个向量从 5 开始到 8 结束对于第
R中的函数重新排序和排序值[重复]

这个问题在这里已经有答案了我正在尝试以下功能 stest lt data frame group c John Jane James mean c 3 5 1 transform stest group reorder group mea
使用Shiny和Shinydashboard时如何使图标大小一致？

我在闪亮的应用程序中添加可点击的图标以显示弹出信息框请参阅以下屏幕截图和代码示例我的策略是将我的文本和代码包装起来actionLink in the HTML功能这效果很好然而图标的大小是由关联的大小决定的我想知道是否可以使所有
替换 R 中内置函数的定义？

sparcl 包使用标准 stat 包中的 kmeans 函数我想让它使用我自己的 kmeans 实现一种方法是编辑 sparcl 包本身中的代码我宁愿避免这种情况因为它会很混乱而且我不确定如何在 R 中安装编辑过的代码不幸的是
如何使用 by 并将所有列暴露给该函数将函数应用于 data.table 的子集？

当切片一个data table按组划分用于对数据进行切片的变量在函数执行期间不在子集中我用以下方法演示了这一点debugonce library data table x lt data table a rep letters 1 4
将 jupyter R 内核与 Visual Studio 代码结合使用

对于 python jupyter 笔记本我目前正在使用 VSCode python 扩展但是我找不到任何使用替代内核的方法我对 jupyter R 内核特别感兴趣有没有办法在 VSCode 中使用 R 内核来处理 jupyter
R中舍入单位的舍入数字[重复]

这个问题在这里已经有答案了我正在尝试按舍入单位对数字进行舍入例如 value lt c 8 21 1 76 6 42 1 94 10 38 如果舍入单位为 0 2 则结果为 8 2 1 8 6 4 2 0 10 4 我怎样才能在R中做到
R strsplit：根据字符分割，除非后面有特定字符

假设我有一个字符串向量例如 split these c File Location C Documents File Location Pete s Computer File Location 我想根据分割该向量中的每个元素除非后面
检查远程错误时出错 (val)：5 个节点产生错误：未找到对象

我尝试使用并行处理 parLapply 进行 10 倍交叉验证并估计联合模型的模型性能我试图找出为什么我收到错误消息 checkForRemoteErrors val 中的错误五个节点产生错误未找到对象 Week 代码如下 Valid

随机推荐

.NetCoreApp 和 .NetStandard.Library 有什么区别？

Net Core 1 0 几天前发布了我已经开始使用它了我创建了一个简单的解决方案其中一个项目类库 gt NetStandard Library 和第二个项目是控制台应用程序 NetCoreApp 关键是控制台应用程序引用了库但
如何使 UITextField 只有一个文本/数字并使用“下一步/完成”按钮浏览多个“UITextField”

我必须处理多个导航UITextField使用下一步完成按钮现在我必须在每个按钮中只允许一个文本数字UITextField我们怎样才能做到这一点UITextField如下图所示我最近使用了以下代码也能够实现但遇到问题当我第一次
构建失败 jenkins iOS 没有错误

我让 jenkins 工作来编译 iOS 应用程序但我的构建失败了没有错误 CodeSign Users jenkins Library Developer Xcode DerivedData XXXXX com aevqskpxrxf
我可以在 Razor 中使用 @helper 语法返回字符串吗？

我有一个 RazorHelpers cshtml 文件app code看起来像 using Molecular AdidasCoach Library GlobalConstants helper Translate string key
将工具提示与 Windows 应用程序中的 CHM 帮助集成

我们正在尝试重新设计 Windows 桌面应用程序的文档流程我们的两个要求是以 CHM 格式提供参考帮助提供有关各个控件的工具提示帮助目前我们的工具提示被硬编码到 Delphi C Builder 表单中但我理想情况下希望避免
libVLC 函数 media_player_new() 抛出分段错误

media player new 抛出分段错误 import vlc ins vlc Instance player ins media player new 这是它崩溃的地方 Thread 0 Crashed Dispatch queue
scala：为什么 1/0 是算术异常但 1.0/0.0 = Double.Infinity

在 Scala 中整数算术除以零会抛出 a 这似乎不一致java lang ArithmeticException by zero 但是浮点运算 1 0 0 0 返回Double Infinity 我知道从类型的角度来看同时拥有 Dou
默认函数参数的有效表达式

函数或成员函数中默认参数的有效表达式有哪些可能类型在对函数参数类型的变量进行赋值的上下文中任何正确的内容 Edit编译期间的默认参数根据类型正确性等进行评估但不会计算它们并且直到运行时才会进行赋值您可以将尚未定义的类的构造函数指定为
如何根据方法名称动态调用方法？ [复制]

这个问题在这里已经有答案了当方法的名称包含在字符串变量中时如何动态调用该方法例如 class MyClass def foo end def bar end end obj MyClass new str get data from
Forth 中的内存管理

所以我刚刚学习 Forth 很好奇是否有人可以帮助我了解内存管理通常是如何工作的目前我只有一些 C 堆栈与堆范例的经验据我了解可以在字典中分配也可以在堆上分配字典是否像 C 中的堆栈更快更受欢迎但与 C 不同的是它没有作用
Excel，将一个范围附加到一列中另一个范围的末尾

我的 Excel 中有两列数据我想添加结合第一列和第二列的第三列如何使用公式执行此操作以便可以在 A 列和 B 列中添加或删除数据而无需接触 C 列 Column A Column B Column C Bob Mary Bob J
是否可以使用一行将流收集到两个不同的集合？

我有以下代码为了勇敢而简化 public void search Predicate
Jenkins 使用 Git 和 Deploy Key 进行构建

我将 git 插件添加到 Jenkins 中我已经作为构建服务器上的 jenkins 用户生成了一个公钥我将此密钥作为部署密钥添加到 github 我添加了带有 jenkins 名称和电子邮件的全局 git 属性并且电子邮件与公钥末尾
在 Rails 模型中；保存到数据库时，符号会自动转换为 YAML。正确的做法是什么？

在我的模型示例游戏中有一个状态列但我通常通过使用符号来设置状态例子 self status active MATCH STATUS betting on gt Betting is on home team won gt Home t
Firefox 的 execCommand 复制异步替代方案

document execCommand copy 可以在 Promise 的解析函数中使用 Firefox 除外 Chrome Opera 甚至 Safari 等所有现代浏览器都允许最多 1 秒的异步复制我想改善用户体验并在剪贴板中计算
使用 HDFS 更改更新 Hive 外部表

可以说我从文件 myFile csv 位于 HDFS 中创建了 Hive 外部表 myTable myFile csv 每天都会更改那么我也有兴趣每天更新一次 myTable 是否有任何 HiveQL 查询告诉每天更新表谢谢 P S
AddEntityFrameworkStores 只能由派生自 IdentityUser 的用户调用

我正在尝试为我的网络应用程序创建一些角色但由于以下原因它并没有真正起作用Tkey exception 如果您投赞成票我很高兴这样其他需要帮助的人就可以更多地看到它我不知道如何解决它我认为我的 Startup cs 有问题无论我尝
将其他计费注册字段与 WooCommerce 中的默认 Wordpress 字段同步

我已将以下代码添加到 Woocommerce 用户注册表中以获取注册页面上的账单详细信息现在当新用户注册时会发生什么名字和姓氏将在账单详细信息数据库以及默认 WordPress 用户帐户中注册如果用户更新其帐户 wordpress
Git 强制覆盖本地跟踪文件，但不覆盖本地未跟踪文件

我正在一个名为的本地目录中工作p1其中包含一个 git 存储库添加分支并对添加的分支进行提交后我制作了目录的副本p1并称之为p2 我的目的是在目录中尝试合并和变基只是为了学习 p2 同时从p1当我决定如何合并重新调整我的更改时但是
插入符号交叉验证中的预处理

我有一个关于数据预处理的问题需要澄清据我了解当我们通过交叉验证调整超参数并估计模型性能时我们需要在交叉验证中进行而不是预处理整个数据集换句话说在交叉验证中我们对训练折叠进行预处理然后使用相同的预处理参数来处理测试折叠并进行预

插入符号交叉验证中的预处理

插入符号交叉验证中的预处理 的相关文章

随机推荐

热门标签

插入符号交叉验证中的预处理的相关文章