我有两个向量e
and g
。我想知道中的每个元素e
中元素的百分比g
那些更小。在 R 中实现这一点的一种方法是:
set.seed(21)
e <- rnorm(1e4)
g <- rnorm(1e4)
mf <- function(p,v) {100*length(which(v<=p))/length(v)}
mf.out <- sapply(X=e, FUN=mf, v=g)
与大e
or g
,这需要很多时间来运行。我如何更改或调整此代码以使其运行得更快?
注:mf
上面的函数基于以下代码mess
dismo 包中的函数。
这么慢的原因是因为你正在调用你的函数length(e)
次。对于小向量来说,这并没有太大的区别,但是 R 函数调用的开销确实开始随着较大的向量而增加。
通常,您需要将其移至编译代码,但幸运的是您可以使用findInterval
:
set.seed(21)
e <- rnorm(1e4)
g <- rnorm(1e4)
O <- findInterval(e,sort(g))/length(g)
# Now for some timings:
f <- function(p,v) mean(v<=p)
system.time(o <- sapply(e, f, g))
# user system elapsed
# 0.95 0.03 0.98
system.time(O <- findInterval(e,sort(g))/length(g))
# user system elapsed
# 0 0 0
identical(o,O) # may be FALSE
all.equal(o,O) # should be TRUE
# How fast is this on large vectors?
set.seed(21)
e <- rnorm(1e7)
g <- rnorm(1e7)
system.time(O <- findInterval(e,sort(g))/length(g))
# user system elapsed
# 22.08 0.08 22.31
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)