for 循环和 apply 函数系列之间的性能差异是什么？

2024-03-11

人们常说，一个人应该更喜欢lapply over for循环。但也有一些例外，例如 Hadley Wickham 在他的 Advance R 书中指出的那样。

(http://adv-r.had.co.nz/Functionals.html http://adv-r.had.co.nz/Functionals.html)（就地修改、递归等）。以下是其中的一个案例。

只是为了学习，我尝试以函数形式重写感知器算法，以便进行基准测试相对性能。来源（https://rpubs.com/FaiHas/197581 https://rpubs.com/FaiHas/197581).

这是代码。

# prepare input
data(iris)
irissubdf <- iris[1:100, c(1, 3, 5)]
names(irissubdf) <- c("sepal", "petal", "species")
head(irissubdf)
irissubdf$y <- 1
irissubdf[irissubdf[, 3] == "setosa", 4] <- -1
x <- irissubdf[, c(1, 2)]
y <- irissubdf[, 4]

# perceptron function with for
perceptron <- function(x, y, eta, niter) {

  # initialize weight vector
  weight <- rep(0, dim(x)[2] + 1)
  errors <- rep(0, niter)


  # loop over number of epochs niter
  for (jj in 1:niter) {

    # loop through training data set
    for (ii in 1:length(y)) {

      # Predict binary label using Heaviside activation
      # function
      z <- sum(weight[2:length(weight)] * as.numeric(x[ii, 
        ])) + weight[1]
      if (z < 0) {
        ypred <- -1
      } else {
        ypred <- 1
      }

      # Change weight - the formula doesn't do anything
      # if the predicted value is correct
      weightdiff <- eta * (y[ii] - ypred) * c(1, 
        as.numeric(x[ii, ]))
      weight <- weight + weightdiff

      # Update error function
      if ((y[ii] - ypred) != 0) {
        errors[jj] <- errors[jj] + 1
      }

    }
  }

  # weight to decide between the two species

  return(errors)
}

err <- perceptron(x, y, 1, 10)

### my rewriting in functional form auxiliary
### function
faux <- function(x, weight, y, eta) {
  err <- 0
  z <- sum(weight[2:length(weight)] * as.numeric(x)) + 
    weight[1]
  if (z < 0) {
    ypred <- -1
  } else {
    ypred <- 1
  }

  # Change weight - the formula doesn't do anything
  # if the predicted value is correct
  weightdiff <- eta * (y - ypred) * c(1, as.numeric(x))
  weight <<- weight + weightdiff

  # Update error function
  if ((y - ypred) != 0) {
    err <- 1
  }
  err
}

weight <- rep(0, 3)
weightdiff <- rep(0, 3)

f <- function() {
  t <- replicate(10, sum(unlist(lapply(seq_along(irissubdf$y), 
    function(i) {
      faux(irissubdf[i, 1:2], weight, irissubdf$y[i], 
        1)
    }))))
  weight <<- rep(0, 3)
  t
}

由于上述原因，我并没有预期会有任何持续的改进问题。但尽管如此，当我看到病情急剧恶化时，我还是感到非常惊讶使用lapply and replicate.

我使用以下方法得到了这个结果microbenchmark函数来自microbenchmark library

可能是什么原因？会不会是内存泄漏？

                                                      expr       min         lq       mean     median         uq
                                                        f() 48670.878 50600.7200 52767.6871 51746.2530 53541.2440
  perceptron(as.matrix(irissubdf[1:2]), irissubdf$y, 1, 10)  4184.131  4437.2990  4686.7506  4532.6655  4751.4795
 perceptronC(as.matrix(irissubdf[1:2]), irissubdf$y, 1, 10)    95.793   104.2045   123.7735   116.6065   140.5545
        max neval
 109715.673   100
   6513.684   100
    264.858   100

第一个函数是lapply/replicate功能

第二个是函数for loops

第三个是相同的功能C++ using Rcpp

这里根据 Roland 的功能分析。我不确定我能以正确的方式解释它。在我看来，大部分时间都花在子集化上函数分析 https://i.stack.imgur.com/N2Nez.png

首先，这是一个早已被揭穿的神话for循环比任何慢lapply. The forR 中的循环性能得到了提高，目前至少与lapply.

也就是说，你必须重新考虑你的使用lapply这里。您的实现需要分配给全局环境，因为您的代码要求您在循环期间更新权重。这是不考虑的正当理由lapply.

lapply是一个您应该使用的函数，因为它有副作用（或没有副作用）。功能lapply自动将结果合并到列表中，并且不会扰乱您的工作环境，这与for环形。同样适用于replicate。另请参阅这个问题：

R 的 apply 系列不仅仅是语法糖吗？ https://stackoverflow.com/questions/2275896/is-rs-apply-family-more-than-syntactic-sugar

原因是你的lapply解决方案要慢得多，是因为您使用它的方式会产生更多开销。

replicate只不过是sapply在内部，所以你实际上结合了sapply and lapply来实现你的双循环。sapply会产生额外的开销，因为它必须测试结果是否可以简化。所以一个for循环实际上比使用更快replicate.
在你的里面lapply匿名函数，您必须为每个观察访问 x 和 y 的数据帧。这意味着 - 与你的 for 循环相反 - 例如函数$每次都必须调用。
由于您使用这些高端函数，因此与您的“lapply”解决方案相比，您的“lapply”解决方案调用了 49 个函数for只调用 26 的解决方案。这些额外的函数lapply解决方案包括调用类似的函数match, structure, [[, names, %in%, sys.call, duplicated, ... 您不需要的所有功能for循环，因为该循环不执行任何这些检查。

如果你想知道这个额外的开销从何而来，请查看内部代码replicate, unlist, sapply and simplify2array.

您可以使用以下代码来更好地了解您在何处失去性能lapply。一行一行地运行！

Rprof(interval = 0.0001)
f()
Rprof(NULL)
fprof <- summaryRprof()$by.self

Rprof(interval = 0.0001)
perceptron(as.matrix(irissubdf[1:2]), irissubdf$y, 1, 10) 
Rprof(NULL)
perprof <- summaryRprof()$by.self

fprof$Fun <- rownames(fprof)
perprof$Fun <- rownames(perprof)

Selftime <- merge(fprof, perprof,
                  all = TRUE,
                  by = 'Fun',
                  suffixes = c(".lapply",".for"))

sum(!is.na(Selftime$self.time.lapply))
sum(!is.na(Selftime$self.time.for))
Selftime[order(Selftime$self.time.lapply, decreasing = TRUE),
         c("Fun","self.time.lapply","self.time.for")]

Selftime[is.na(Selftime$self.time.for),]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

for 循环和 apply 函数系列之间的性能差异是什么？的相关文章

read.table 和 read.delim 函数之间的区别

两者有什么区别read table and read delim R语言中的函数当您不确定函数的作用时除了阅读帮助页面之外您还可以检查函数的实际代码例如输入read delim显示该函数包含以下代码 gt read delim f
确定向量中是否存在元素的最有效方法

我有几种算法取决于确定元素是否存在于向量中的效率在我看来这 in 这相当于is element 应该是最有效的因为它只返回一个布尔值在测试了几种方法之后令我惊讶的是这些方法是迄今为止效率最低的以下是我的分析随着向量大小的增加
使用pivot_longer将R中的多列变成一列[重复]

这个问题在这里已经有答案了我有一个dfpopulation看起来像这样未列出所有列和行 Region X1975 X1976 X1977 X2008 National Total 942420 93717 94974 132802 Be
R：如何根据规范更改数据框中的列名称

我有一个数据框它的开头如下 SM H1455 SM V1456 SM K1457 SM X1461 SM K1462 ENSG00000000419 8 290 270 314 364 240 ENSG00000000457 8 252
优化 R 中的嵌套 for 循环

我尝试加速下面的代码但没有成功我读到Rfast https cran r project org web packages Rfast Rfast pdf包但我也未能实现该包有没有办法优化R中的以下代码 RI lt function
抑制 R 中的错误消息

我正在 R 中运行模拟研究有时我的模拟研究会产生错误消息当我在函数中实现模拟研究时当出现此错误消息时模拟停止我知道抑制错误是不好的做法但此时对我来说除了抑制错误然后继续下一个模拟直到达到我喜欢运行的模拟总数为止没有其他选择
R lubridate：当地语言的工作日

如何获取本地语言的工作日和月份 My code library lubridate data lt c 10 02 2015 11 03 2015 data lubri lt dmy data wday data lubri label T
node-mongodb-native的插入性能

我正在使用 MongoDB 测试 Node js 的性能我知道其中每一个都很好彼此独立但我正在尝试一些测试来感受它们我遇到了这个问题但无法确定来源问题我正在尝试在单个 Node js 程序中插入 1 000 000 条记录它
优化 CSS 交付 - Google 的建议

谷歌建议在 head 中使用非常重要的 CSS 内联并在内部使用其他 CSS
ggplot2 - 添加具有不同中断和标签的辅助 y 轴

是否可以使用 ggplot2 手动向辅助 y 轴添加中断和标签 see bottom right 我希望在右侧 y 轴上有更紧凑的中断代表条形该图将作为基本情况然后我将展示如何更改辅助 y 轴上的分隔符和标签 sapply c pip
使用starts_with() 将 NA 替换为 0

我正在尝试替换我的一组特定列的 NA 值tibble 这些列都以相同的前缀开头所以我想知道是否有一种简洁的方法来使用starts with 函数从dplyr包可以让我做到这一点我已经看到了有关 SO 的其他几个问题但是它们都需要使用特
以编程方式触发 R 传单中的标记鼠标单击事件以获得闪亮效果

我的问题与此相同在 R 传单中触发标记鼠标单击事件以获得闪亮效果 https stackoverflow com questions 56962857 trigger marker mouse click event in r leafl
使用管道语法处理模型列表

我经常喜欢拟合和检查与 R 数据框中的两个变量相关的多个模型我可以使用如下语法来做到这一点 require tidyverse require broom models lt list hp exp cyl hp cyl map df m
R：为什么 boxplot(x,log="y") 与 boxplot(log(x)) 不同？

delme lt exp rnorm 1000 1 5 0 3 boxplot delme log y boxplot log10 delme 为什么这两个图中的胡须不同谢谢阿古斯我想说的是在您的第一个图中您只是将 y 轴更改为对
R texreg：如何选择要显示的 gof 统计信息？

我正在使用 texreg 通过 plm 生成面板回归的输出表我想抑制所有 gof 统计数据的输出这不是显示 R2 adj R2 和 N 我只想显示 adj R2 有谁知道一个简单的方法来做到这一点好吧这实际上很简单只需在调用中包含
如何使用 sprintf 函数在字符中添加前导“0”而不是空格？

我正在尝试使用sprintf函数为字符添加前导 0 并使所有字符长度相同然而我得到的是领先空间 My code a lt c 12 123 1234 sprintf 04s a 1 12 123 1234 我试图得到什么 1 0012 0
聚合日期时间以总结在特定条件下花费的时间

我很困惑我应该如何继续我下面有一些虚拟数据 Date lt as POSIXct c 2018 03 20 11 52 25 2018 03 22 12 01 44 2018 03 20 12 05 25 2018 03 20 12 10
将不同的 grViz 组合成一个图

我想结合不同的DiagrammeR绘制成一个图形生成的图如下例所示 library DiagrammeR pDia lt grViz digraph boxes and circles a graph statement graph ov
在函数中使用 quit/q 会导致 RStudio 出现致命错误

更多的是好奇但当你使用时q or quit在 R studio 内的函数内部它会导致致命错误如下所示但 rgui 中的相同函数会导致 R 像往常一样停止并且仅使用q 在 RStudio 中按预期关闭 R 为什么q在函数中导致 RS
将所有分号替换为空格 pt2

我尝试对 2000 多行关键字的列表运行文本分析但它们的列出方式如下战略管理风格组织所以当我使用 tm 删除标点符号时它就变成了组织的战略管理风格我认为这在某种程度上破坏了我常用术语的分析我尝试过使用 vector lt

随机推荐

禁用右键单击后如何检查 chrome 中的元素？

我想调试一个信息框当我将鼠标悬停在谷歌地图标记上时显示该信息框但谷歌地图禁用右键单击地图画布上的任何位置因此我无法检查该元素以进行调试查看目的我尝试通过元素选项卡中的 href 内容搜索元素但它没有显示在搜索中尽管缺少右键单击
Oracle“创建表为”空值

如果您使用 create as 创建一个 Oracle 表其中某个字段为空您将收到错误 ORA 01723 不允许零长度列查询示例 create table mytable as select field a null brand n
架构 i386 的重复符号[关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 我正在使用
jQuery 背景位置动画

我创建了一个图像它基本上是由 3 个图像组成的 CSS 精灵它的大小是 278x123 所以它们基本上是 3 个 278x41 的图像我想做的是通过改变背景位置来制作动画我尝试了很多方法我的一个不太有效的解决方案如下 var sl
Java/Mysql..SQLException：表必须至少有 1 列 SQLState：42000 VendorError：1113

我有一个连接到数据库的应用程序如果名称尚不存在则创建一个表并添加新的注册用户信息以便我可以将密码散列到我的登录框架并将它们与数据库进行匹配也将被散列目前我有以下错误代码 SQLException A table must hav
用类隐藏

我确信这真的很简单但这对我来说不起作用我编写了一个表单允许用户使用标签从列表中选择一个月
Python/WebApp Google App Engine - 测试标头中的用户/通行证

当您像这样调用网络服务时 username test12 password test34 client httplib2 Http cache client add credentials username password URL htt
检查 UTF-8 字符串在 Qt 中是否有效

在 Qt 中有没有办法检查字节数组是否是有效的 UTF 8 序列看起来QString fromUtf8 http qt project org doc qt 5 0 qtcore qstring html fromUtf8默默地抑制或替
jQuery UI 自动完成中的自定义属性问题

我在使用 jQuery UI 的自动完成功能时遇到了自定义属性的问题由于某些奇怪的原因自动完成功能不允许我使用 make 或 id 属性ui item make or ui item id 但在设置为时工作ui item label H
Typescript：如何期望精确的类实例作为函数参数

Code 考虑以下代码一个基类两个子类以及一个采用一个子类的一个实例的函数 abstract class AbstractNumberHolder constructor private readonly value number g
使用 Jackson 从 POJO 创建 JSON 模式时，从 JSON 模式中删除“id”

如何去掉id字段 id urn jsonschema org gradle 人来自使用 Jackson 创建的 JSON 模式生成的模式 type object id urn jsonschema org gradle Person p
未捕获的类型错误：未定义不是 WordPress 中的函数（匿名函数）[重复]

这个问题在这里已经有答案了我收到以下错误这似乎是 Javascript 未解释符号未捕获的类型错误未定义不是函数 main js 1 匿名函数 main js 1 下面附加的是 main js 代码这在某个时候工作得很好我正在
BrowserSync Gulp 无法在 Chrome 中打开

我尝试在 Chrome 中使用 BrowserSync 和 Gulp 在本地主机上打开我的网站但它不起作用默认情况下它在 Firefox 中打开一切正常但是当我更改 gulpfile js 中的参数以在 Chrome 中打开网站
iOS7 上的 TableViewCell 中不会显示复选标记

我现在正在研究一个奇怪的问题我的应用程序部署目标设置为 iOS6 因此我想同时支持 iOS6 和 iOS7 我只有一个简单的 UITableView 用户可以在其中选择首选的通知声音代码为 UITableViewCell tableVi
预测 git Push 中将推送多少数据

我偶尔会使用昂贵的互联网连接并且我想知道至少大约有多少数据将被推送到远程git push 事实上我想我很喜欢我的评论可以将其作为答案发布当您推送时 git 会创建一个包含所有必需对象的包并将其上传到远程这意味着我们正在寻找一种
将 less 和 css 文件捆绑在一起

我觉得捆绑应该用于将一堆一起使用的文件分组到一个交付给浏览器的文件中这意味着对于我的根样式我想做类似以下的事情 var bundle new StyleBundle Content style Include Content mysty
网格/列表视图的概念如何将图像发送到 imageitem 类

在我的项目中我想加载 url 图像并在 gridview 活动中显示它们但如何将这些图像加载到 gridview 适配器呢所以我试图理解这个概念grid list view适配器据我了解在一个基本示例中它包含 3 个活动 1 主
Doctrine 2 QueryBuilder 添加多个选择元素/参数？

我仍在与 QueryBuilder 学说作斗争因为当我想将另一个元素添加到选择表达式中时我认为它无法正常工作在这两种情况下学说 queryBuilder gt getQuery gt getResults 返回一个数组其中实体表示
如何将不存在的链接重定向到 Angular 2 中的主页？

如果用户输入不存在的链接我希望页面重定向到主页我该怎么做谢谢 RouteConfig path home name Home component HomeComponent path about name About componen
for 循环和 apply 函数系列之间的性能差异是什么？

人们常说一个人应该更喜欢lapply over for循环但也有一些例外例如 Hadley Wickham 在他的 Advance R 书中指出的那样 http adv r had co nz Functionals html htt

for 循环和 apply 函数系列之间的性能差异是什么？

for 循环和 apply 函数系列之间的性能差异是什么？ 的相关文章

随机推荐

热门标签

for 循环和 apply 函数系列之间的性能差异是什么？的相关文章