如何替换 randomForest r 包中的引导步骤

2024-04-24

首先是一些背景信息，这在 stats.stackexchange 上可能更有趣：

在我的数据分析中，我尝试比较不同机器学习方法在时间序列数据上的性能（回归，而不是分类）。例如，我训练了一个 Boosting 训练模型，并将其与随机森林训练模型（R 包 randomForest）进行比较。

我使用时间序列数据，其中解释变量是其他数据和因变量的滞后值。

由于某种原因，随机森林的表现严重不佳。我能想到的问题之一是随机森林对每棵树的训练数据执行采样步骤。如果对时间序列数据执行此操作，则该序列的自回归性质将被完全消除。

为了测试这个想法，我想用所谓的块引导步骤替换 randomForest() 函数中的（引导）采样步骤。这基本上意味着我将训练集分成 k 个部分，其中k<<N，其中每个第 k 部分均按原始顺序排列。如果我对这 k 个部分进行采样，我仍然可以从随机森林中的“随机性”中受益，但时间序列的性质基本上保持不变。

现在我的问题是这样的：

为了实现这一目标，我通常会复制现有函数并编辑所需的步骤/行。

randomForest2 <- randomForest()

但 randomForest() 函数似乎是另一个更深层次底层函数的包装器的包装器。那么如何编辑 randomForest() 函数中的实际引导步骤并仍然定期运行该函数的其余部分？

所以对我来说，解决方案不是编辑现有的 randomForest 函数。相反，我自己编写了逐块引导程序，使用split2Soren H. Welling 给出的用于创建块的函数。一旦我按块引导了数据，我就寻找一个包（rpart）只执行一个回归树并自己聚合它（采用方法）。

我的实际数据的结果是在 RMSPE 方面比正常随机森林性能略有但持续改进的版本。

对于下面的代码，性能似乎是一个抛硬币的问题。

以 Soren 的代码为例，它看起来有点像这样：

library(randomForest)
library(doParallel) #parallel package and mclapply is better for linux
library(rpart)

#parallel backend ftw
nCPU = detectCores()
cl = makeCluster(nCPU)
registerDoParallel(cl)

#simulated time series(y) with time roll and lag=1
timepoints=1000;var=6;noise.factor=.2

#past to present orientation    
y = sin((1:timepoints)*pi/30) * 1000 +
  sin((1:timepoints)*pi/40) * 1000 + 1:timepoints
y = y+rnorm(timepoints,sd=sd(y))*noise.factor
plot(y,type="l")

#convert to absolute change, with lag=1
dy = c(0,y[-1]-y[-length(y)]) # c(0,t2-t1,t3-t2,...)

#compute lag 
dy = dy + rnorm(timepoints)*sd(dy)*noise.factor #add noise
dy = c(0,y[-1]-y[-length(y)]) #convert to absolute change, with lag=1 
dX = sapply(1:40,function(i){
  getTheseLags = (1:timepoints) - i
  getTheseLags[getTheseLags<1] = NA #remove before start timePoints
  dx.lag.i = dy[getTheseLags]
})
dX[is.na(dX)]=-100 #quick fix of when lag exceed timeseries
pairs(data.frame(dy,dX[,1:5]),cex=.2)#data structure

#make train- and test-set
train=1:600
dy.train = dy[ train]
dy.test  = dy[-train]
dX.train  = dX[ train,]
dX.test   = dX[-train,]

#classic rf
rf = randomForest(dX.train,dy.train,ntree=500)
print(rf)

#like function split for a vector without mixing
split2 = function(aVector,splits=31) {
  lVector = length(aVector)
  mod = lVector %% splits
  lBlocks = rep(floor(lVector/splits),splits)
  if(mod!=0) lBlocks[1:mod] = lBlocks[1:mod] + 1
  lapply(1:splits,function(i) {
    Stop  = sum(lBlocks[1:i])
    Start = Stop - lBlocks[i] + 1
    aVector[Start:Stop]
  })
}  


#create a list of block-wise bootstrapped samples
aBlock <- list()
numTrees <- 500
splits <- 40
for (ttt in 1:numTrees){

  aBlock[[ttt]] <- unlist(
    sample(
      split2(1:nrow(dX.train),splits=splits),
      splits,
      replace=T
    )
  )
}

#put data into a dataframe so rpart understands it
df1 <- data.frame(dy.train, dX.train)
#perform regression trees for Blocks
rfBlocks = foreach(aBlock = aBlock,
                   .packages=("rpart")) %dopar% {
                     dBlock = df1[aBlock,] 
                     rf = predict( rpart( dy.train ~., data = dBlock, method ="anova" ), newdata=data.frame(dX.test) ) 
                   } 

#predict test, make results table
#use rowMeans to aggregate the block-wise predictions
results = data.frame(predBlock   = rowMeans(do.call(cbind.data.frame, rfBlocks)),
                     true=dy.test,
                     predBootstrap = predict(rf,newdata=dX.test)
                     )
plot(results[,1:2],xlab="OOB-CV predicted change",
     ylab="trueChange",
     main="black bootstrap and blue block train")
points(results[,3:2],xlab="OOB-CV predicted change",
       ylab="trueChange",
       col="blue")

#prediction results
print(cor(results)^2)


stopCluster(cl)#close cluster

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何替换 randomForest r 包中的引导步骤的相关文章

无法使用 Shinyjs() 禁用闪亮的应用程序单选按钮

我正在尝试禁用闪亮的应用程序单选按钮趋势 input Product A input month All 使用Shinyjs包但没有成功我的 ui 页面定义为 ui lt fluidPage shinyjs useShinyjs pa
为什么 Pearson 相关输出为 NaN？

我正在尝试获取 R 中变量之间的皮尔逊相关系数这是变量的散点图 ggplot results summary aes x D in y D ex geom point col ifelse results summary FDR lt 0
如何在 R 或 MATLAB 中为散点图创建阴影误差条“框”

我想在 R 或 MATLAB 中创建一个简单的散点图涉及两个变量 x 和 y 它们有与之相关的错误 epsilon x 和 epsilon y 然而我不是添加误差线而是希望在每个 x y 对周围创建一个阴影框其中框的高度范围从 y
在单个图中获取 geom_hex 中的观测值 (Shiny)

我正在尝试创建一个十六进制的交互式图用户可以单击给定的十六进制并接收分组在该单击的十六进制中的原始数据帧的所有观察结果的列表下面是一个 MWE 看起来非常接近我的目标我正在使用 Shiny hexbin 和 ggplotly app
在没有事件的情况下从 HTML 执行 javascript 函数

我希望从 HTML 页面调用 javascript 函数并且我do not希望它依赖于任何事件该函数位于单独的 js 文件中因为我希望在许多网页中使用它我也将变量传递给它我试过这个 HTML fp footer2 js中的函数 f
在闪亮的应用程序中选择文件夹或文件夹目录

我在使用闪亮时遇到问题我想选择保存我要在应用程序中使用的所有文件的文件夹方法是 1 将工作目录设置为该文件夹路径或 2 将此文件夹内的所有 csv 数据上传到我的应用程序以进行进一步处理 1 我找到了shinyFiles包但它非常非
匹配较大向量中的序列

我想要一个函数它返回向量的匹配子序列的初始索引例如 y lt c a a a b c multi match c a a y 1 1 2 multi match c a b y 1 3 我有一个粗略的实现但我觉得我必须重新发明轮子而
R从列表中删除子列表中的项目[重复]

这个问题在这里已经有答案了我有一个清单 L lt c a b c d e 我还有这个列表的一个子集 L1 lt c b d e 我正在尝试创建一个不包含子集列表的新列表我努力了 L L in L1 L L in L1 L L in L1
UseMethod("select") 中的错误：没有适用于“select”的方法应用于“character”类的对象

这个问题与这个问题非常相似为所有日期类别制作系数 https stackoverflow com questions 69520290 make coefficient for all dates categories 不同的是retur
程序如何在Python中的两个函数之间进行选择？

我有一个 Python 3 2 程序可以计算未来任意时间段内的投资价值它可以处理单利和复利问题是我定义了两个函数 main 和 main2 第一个是简单函数第二个是复利函数现在我想做的是根据用户的一些输入程序在运行 main
从 Vowpal Wabbit 的内存中读取数据？

有没有办法发送数据来训练 Vowpal Wabbit 中的模型而不将其写入磁盘这就是我正在尝试做的事情我有一个相对较大的 csv 数据集大约 2gb 可以毫无问题地容纳在内存中我将它在 R 中加载到数据框中并且有一个函数将该数据框
如何在浏览模式下禁用 RStudio 中的查看模式

Is there a way to disable the View mode in RStudio when debugging functions 代码示例 myfun lt function browser myfun 我知道它不开放
将列拆分为多列

对于下面给出的数据 data1 lt structure list var1 c 2 7 2 6 7 2 7 2 7 1 7 1 7 1 5 1 2 7 1 5 1 7 1 2 3 4 5 6 7 1 2 4 6 Names var1 cl
部署使用 fileInput 上传数据的闪亮应用程序时出错

部署我的第一个闪亮应用程序简单的 html 解析器让用户上传 html 文件然后解析它以获取 LinkedIn 上的分享提及喜欢的信息该应用程序在本地运行良好在部署之前进行了测试并且 Rstudio 没有显示任何部署错误但
unnest_longer 给出美元符号而不是正常的小标题

任何人都可以解释以下差异 library tidyverse tribble id c 1 10 gt unnest longer id gt mutate data map x id mtcars gt unnest longer dat
从光栅计算器传输到 R 的条件命令

到目前为止我在ArcGIS的栅格计算器中使用了以下语句 Con Land use rst 20 Export rst 这会计算一个新栅格其中仅包含来自导出的数据其中 Land use 等于 20 这正是我想要的但我想自动化这个R 因
R - 过滤器坐标

我是 R 新手我有一个简单的问题据我看来但到目前为止我还没有找到解决方案我有一组长 2D x y 坐标只是 2D 空间中的点如下所示 ID x y 1 1758 56 1179 26 2 775 67 1197 14 3 29
使用正整数参数优化

我需要解决一个需要比较具有相同列数的两个矩阵的问题其中之一被操纵直到获得最佳匹配我对两个矩阵之间的差异进行评分的方式非常复杂我仍然需要最终确定它目前我真正感兴趣的是找到一种仅适用于正整数的搜索优化算法我创建了一个简单的示例其
在两列上使用 Rollapply

我正在尝试做类似我要求的事情here https stackoverflow com questions 4472691 calculate returns over period of time不幸的是我无法解决这个问题这是我的数据框
在 dplyr 过滤器中引用同名的列和变量

鉴于这种情况 id a df lt tibble id c a b c value c 1 2 3 df gt dplyr filter id id 我预计最后一行的输出与df gt dplyr filter id a 但它仍然指的是id作

随机推荐

Android - 将 ProgressBar 设置为垂直条而不是水平条？

我正在尝试使用 ProgressBar 作为类似计量的显示我认为这将是一个简单的任务并认为 ProgressBar 有一个属性可以设置为垂直但我没有看到任何东西此外我希望能够在栏的侧面显示类似标尺的指示器以清楚地指示当前级别感
在 Linux 中生成相同的数字，但在 Windows 中则不然

下面的代码旨在生成区间 1 100 中的五个伪随机数的列表我播种default random engine with time 0 它返回系统时间UNIX时间 https en wikipedia org wiki Unix time 当
与 Post 进行交叉呼叫，但在飞行前失败

我必须从我的网站向第三方域服务器进行网络服务调用当我使用 jQuery Ajax by Post 方法和 content type text plain 进行此调用时它工作正常但是当我将其更改为 content type text
如何隐藏 WPF ListView 的标头？

我希望能够隐藏 WPF ListView 中每个网格列顶部的标题这是我的 ListView 的 XAML
在同一 URL 上运行 SOAP 和 RESTful

假设我们有一个响应主机标头 kebab shop intra net 的网站此 URL 中是否可以同时包含 SOAP 和 RESTful 也就是说这两者都是在已部署的代码中处理的 kebab shop intra net takeawa
在我的绘画程序中绘制矩形时出现错误

public partial class Form1 Form Point downPoint upPoint List
iPhone HTML5 音频标签不起作用

我遇到了音频标签无法在 iPonhe 上工作的问题在 W3Schools 网站上测试时它可以播放 HTML5 音频标签但不适用于我下面的网站
使用 awk 添加列。这个 awk 命令有什么问题？

我想将两列添加到大约 10 000 列的文件中我想在每行插入 nr 22 作为第一列然后我想要将原始第一列作为第二列然后作为第三列我想要插入第 nr NR 行之后我想要打印其余的原始列我想我可以用下面的 awk 行来做到这一点 a
Google 地图 API - 添加多个目的地不起作用（谷歌方向）

我在创建复制谷歌地图方向功能时遇到问题当我有从到字段时我可以让它正常工作但一旦我尝试添加多个目的地它就不起作用我看过我们但我没有得到任何很好的示例教程来展示这是如何完成的以下是我到目前为止所做的事情但我很确定这件事做
Mac 上 Docker 内的 Xdebug 无法工作

我将本地开发设置从 Linux 移植到新的 Mac 机器但在让 Xdebug 在 Mac M1 Pro 机器中与 PhpStorm 配合使用时遇到问题我有一个包含 PHP 的容器其中 Xdebug 安装并配置如下 zend exten
安装APK时缺少lib文件夹

我想知道如何构建我的 APK 以便我的库安装复制到 data data
Rails 开发服务器、PDFKit 和多线程

我有一个 Rails 应用程序它使用 PDFKit 来呈现网页的 pdf 版本我使用 Thin 作为开发服务器问题是当我处于开发模式时当我使用 bundle execrails s 启动服务器并尝试渲染任何 PDF 时整个过程陷入
“实例显示状态”无法编译

这是我试图弄清楚的 State Monad 代码 data State a State Int gt a Int instance Monad State where return x State c gt x c State m gt g
如何忽略 Eclipse 中特定类型的未捕获异常？

我在我的 Java 应用程序中使用第三方库这个第三方库在每次应用程序启动时都会引发自定义的未捕获异常该异常是无害的仅用于第三方库内部记录的目的由于未捕获此异常它会导致我的 Eclipse IDE 切换到调试视角并在每次启动应用程
D3：打字机风格的文本过渡

In this jsfiddle http jsfiddle net VividD QbysN 标签通过减小旧文本的字体然后增加新文本的字体从一个文本过渡到另一个文本但是我希望新文本以打字机方式出现就像这样jsfiddle h
Angular 应用程序仅在 IE11 上抛出语法错误

我有 Angular 应用程序该应用程序仅适用于 IE11 我已经设置了polyfills import core js es6 symbol import core js es6 object import core js es6 fu
复制构造函数创建依赖副本

我按照描述实现了复制构造函数here https stackoverflow com questions 15020850 copy constructors and defensive copying 但问题仍然是当我更新时route c
带图像背景的 Outlook 2013 HTML 签名

我找到了另一个线程 Outlook 2013 背景图像损坏 https stackoverflow com questions 22613230 outlook 2013 background image broken 但是我无法发表评论
Pod 清单写入 Deployment Manifest

在 Kubernetes 中将正在运行的 pod 清单转换为具有 x 个副本的部署的简单方法是什么我尝试获取清单 k get po xyz o yaml gt po1 yaml 然后编辑 yaml 并与部署清单匹配但这似乎并不容易我
如何替换 randomForest r 包中的引导步骤

首先是一些背景信息这在 stats stackexchange 上可能更有趣在我的数据分析中我尝试比较不同机器学习方法在时间序列数据上的性能回归而不是分类例如我训练了一个 Boosting 训练模型并将其与随机森林训练模型

如何替换 randomForest r 包中的引导步骤

如何替换 randomForest r 包中的引导步骤 的相关文章

随机推荐

热门标签

如何替换 randomForest r 包中的引导步骤的相关文章