将 ddply + mutate 与自定义函数一起使用？

2024-04-29

I use ddply相当频繁，但历史上有summarize（偶尔mutate）并且只有基本功能，例如mean(), var1 - var2等等。我有一个数据集，我试图在其中应用一个自定义的、更复杂的函数，并开始尝试深入研究如何做到这一点ddply。我有一个成功的解决方案，但我不明白why它的工作原理与更多“正常”功能相比是这样的。

Related

ddply {plyr} 无法识别自定义函数... https://stackoverflow.com/questions/11556877/custom-function-not-recognized-by-ddply-plyr-it-tells-me-that-my-function-is
如何将变量传递给 ddply 中的自定义函数？ https://stackoverflow.com/questions/20845409/how-do-i-pass-variables-to-a-custom-function-in-ddply
r-help: [R] 正确使用 ddply 及其自身功能 http://grokbase.com/t/r/r-help/1255y8qvty/r-correct-use-of-ddply-with-own-function（我最终的解决方案基于此）

这是一个示例数据集：

library(plyr)
df <- data.frame(id = rep(letters[1:3], each = 3),
                 value = 1:9)

通常情况下，我会使用ddply像这样：

df_ply_1 <- ddply(df, .(id), mutate, mean = mean(value))

我对此的想象是ddply splits df基于分组组合的“迷你”数据框id，然后我通过调用添加一个新列mean()在存在于的列名上df。因此，我尝试实现一个函数扩展了这个想法：

# actually, my logical extension of the above was to use:
# ddply(..., mean = function(value) { mean(value) })
df_ply_2 <- ddply(df, .(id), mutate,
                  mean = function(df) { mean(df$value) })

Error: attempt to replicate an object of type 'closure'

有关自定义函数的所有帮助均不适用mutate，但这似乎不一致，或者至少让我烦恼，因为我实现的解决方案的模拟是：

df_mean <- function(df) {
    temp <- data.frame(mean = rep(mean(df$value), nrow(df)))
    temp
}

df_ply_3 <- df
df_ply_3$mean <- ddply(df, .(id), df_mean)$mean

在线，看来我必须这样做：

df_ply_4 <- df
df_ply_4$mean <- ddply(df, .(id), function(x) {
    temp <- data.frame(mean = rep(mean(x$value), length(x$value)))
    temp})$mean

为什么我不能使用mutate具有自定义功能？难道只是“内置”函数返回某种类ddply可以处理与必须踢出一个完整的data.frame然后只调出我关心的栏目？

感谢您帮助我“得到它”！

@Gregor 回答后更新

很棒的答案，我想我现在明白了。我确实很困惑mutate and summarize意味着......认为他们是论据ddply关于如何处理结果与实际情况being函数本身。所以，感谢您的深刻见解。

而且，它确实有助于理解这一点without mutate/summarize，我需要返回一个data.frame，这就是我必须这样做的原因cbind具有列名称的列df得到返回。

最后如果我do use mutate，现在意识到我可以返回向量结果并获得正确的结果是有帮助的。于是，我can这样做，在阅读您的答案后我现在已经理解了：

# I also caught that the code above doesn't do the right thing
# and recycles the single value returned by mean() vs. repeating it like
# I expected. Now that I know it's taking a vector, I know I need to return
# a vector the same length as my mini df
custom_mean <- function(x) {
    rep(mean(x), length(x))
}

df_ply_5 <- ddply(df, .(id), mutate,
              mean = custom_mean(value))

再次感谢您的深入解答！

根据 @Gregor 的最后评论更新

嗯。我用了rep(mean(x), length(x))由于这一观察df_ply_3的结果（我承认当我第一次运行它时并没有仔细观察它，我只是看到它没有给我一个错误！）：

df_mean <- function(x) {
    data.frame(mean = mean(x$value))
}

df_ply_3 <- df
df_ply_3$mean <- ddply(df, .(id), df_mean)$mean

df_ply_3
  id value mean
1  a     1    2
2  a     2    5
3  a     3    8
4  b     4    2
5  b     5    5
6  b     6    8
7  c     7    2
8  c     8    5
9  c     9    8

所以，我认为我的代码实际上是一个意外，因为我有 3id变量重复 3 次。因此实际回报相当于summarize（每行一行id值），并进行回收。如果我像这样更新数据框，测试该理论似乎是准确的：

df <- data.frame(id = c(rep(letters[1:3], each = 3), "d"),
                 value = 1:10)

我在尝试使用时遇到错误df_ply_3方法与df_mean():

Error in `$<-.data.frame`(`*tmp*`, "mean", value = c(2, 5, 8, 10)) : 
  replacement has 4 rows, data has 10

所以，迷你 df 传递给df_mean返回一个df where mean是取平均值的结果，如果value向量（返回一个值）。所以，我的输出只是一个data.frame三个值，每个值一个id团体。我在想mutate有点“记住”它传递了一个迷你数据帧，然后重复单个输出以匹配它的长度？

无论如何，感谢您的评论df_ply_5;事实上，如果我删除rep()一点然后返回mean(x)，效果很好！

你基本上是对的。ddply确实根据石斑鱼将您的数据分解为迷你数据帧，并对每个数据帧应用一个函数。

With ddply，所有工作都是通过数据框完成的，所以.fun争论must将（迷你）数据帧作为输入并返回数据帧作为输出。

mutate and summarize是符合此要求的函数（它们获取并返回数据帧）。您可以查看他们各自的帮助页面，或者在外部的数据框架上运行它们ddply看到这个，例如

mutate(mtcars, mean.mpg = mean(mpg))
summarize(mtcars, mean.mpg = mean(mpg))

If you don't use mutate or summarize，那是你only使用自定义函数，那么您的函数还需要采用（迷你）数据帧作为参数，并返回一个数据帧。

If you do use mutate or summarize，您传递给的任何其他函数ddply不被使用ddply，它们只是被传递给使用mutate or summarize。以及使用的函数mutate and summarize作用于数据的列，而不是整个 data.frame。这就是为什么

ddply(mtcars, "cyl", mutate, mean.mpg = mean(mpg))

注意我们没有通过mutate一个函数。我们不说ddply(mtcars, "cyl", mutate, mean)。我们必须告诉它取什么意思。在?mutate，描述...是“给出新列定义的命名参数”，与函数无关。（是mean()真的与任何“自定义功能”不同吗？不。）

因此它不适用于匿名函数——或者根本不适用于函数。传递一个表情！您可以预先定义自定义函数。

custom_function <- function(x) {mean(x + runif(length(x))}
ddply(mtcars, "cyl", mutate, jittered.mean.mpg = custom_function(mpg))
ddply(mtcars, "cyl", summarize, jittered.mean.mpg = custom_function(mpg))

这很好地扩展了，您可以拥有接受多个参数的函数，并且可以为它们提供不同的列作为参数，但是如果您使用mutate or summarize，你必须给其他函数参数；你不只是传递函数。

你似乎想通过ddply已经“知道”要取哪一列的平均值的函数。为此，我认为你需要not use mutate or summarize，但你可以破解你自己的版本。为了summarize-类似行为，返回具有单个值的 data.frame，对于mutate-类似行为，返回带有额外值的原始 data.framecbinded on

mean.mpg.mutate = function(df) {
    cbind.data.frame(df, mean.mpg = mean(df$mpg))
}

mean.mpg.summarize = function(df) {
    data.frame(mean.mpg = mean(df$mpg))
}

ddply(mtcars, "cyl", mean.mpg.mutate)
ddply(mtcars, "cyl", mean.mpg.summarize)

tl;dr

为什么我不能将 mutate 与自定义函数一起使用？难道只是“内置”函数返回某种 ddply 可以处理的类，而不是必须踢出完整的 data.frame，然后只调用我关心的列？

恰恰相反！mutate and summarize将数据帧作为输入并踢出数据帧作为返回。但变异和总结are您传递给 ddply 的函数，没有恶意或其他什么意思。

Mutate 和 Summarize 是您 99% 的时间都会用到的便利函数ddply.

如果您不使用 mutate/summarize，那么您的函数需要获取并返回一个数据帧。

如果您确实使用 mutate/summarize，那么您不会向它们传递函数，而是向它们传递可以使用（迷你）数据框进行评估的表达式。如果它是变异的，则返回应该是一个要附加到数据的向量（根据需要回收）。如果是汇总，则返回应该是单个值。你没有传递一个函数，比如mean;你传递一个表达式，比如mean(mpg).

关于什么`dplyr`?

这是之前写过的dplyr是一件事，或者至少是一件大事。dplyr消除了这个过程中的很多混乱，因为它本质上取代了嵌套ddply with mutate or summarize作为顺序函数的参数group_by其次是mutate or summarize. The dplyr我的答案的版本是

library(dplyr)
group_by(mtcars, cyl) %>%
    mutate(mean.mpg = mean(mpg))

随着新列的创建直接传递给mutate (or summarize），对于哪个函数的作用并不存在混淆。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

plyr