我想了解为什么这两种索引空的方法data.frame
导致NA
分配给第一行的行号only:
方法一:
df <- data.frame(Number=numeric(), Text=character(), stringsAsFactors = FALSE)
df[1,]$Number <- 123456
df[1,]$Text <- "abcdef"
df[2,]$Number <- 456789
df[2,]$Text <- "abcdef"
输出1:
> df
Number Text
NA 123456 abcdef
2 456789 abcdef
方法二:
df <- data.frame(Number=numeric(), Text=character(), stringsAsFactors = FALSE)
df[1,1] <- 123456
df[1,2] <- "abcdef"
df[2,1] <- 456789
df[2,2] <- "abcdef"
输出2:
> df
Number Text
1 123456 abcdef
2 456789 abcdef
我看到的唯一区别是第一个方法访问data.frame
使用列名称而不是列号,但我不明白这会导致NA
行号被分配给仅第一次观察因为从第二行开始行号似乎按预期工作。
好吧,这个答案最重要的部分是应该避免这样的代码。将数据逐行添加到 R 中的 data.frame 中效率非常低(参见第 2 圈)R地狱)。几乎总是有更好的方法来做到这一点,具体取决于您到底在做什么。
但要了解这里发生的事情。所有这一切都归结为$.data.frame<-
, [.data.frame
, and [<-.data.frame
功能。在第一种情况下,与
df[1,]$Number <- 123456
你首先要做的是调用的子集[<-.data.frame
。当您请求 data.frame 中不存在的行时,您会得到一堆所有内容的 NA 值(包括行名称)。现在您有一个空的 data.frame,列和行名称中包含 NA 值。现在你打电话$<-.data.frame
只需更新Number
柱子。您不更新行号。然后这个新值被传递给[<-.data.frame
将其合并回 data.frame 中。当此命令运行时,它会检查以确保不存在重复的行名称。对于第一行,由于只有一行并且其名称为 NA,因此保留该名称。但是,当存在重复名称时,该函数会将这些值替换为行号的索引。这就是为什么第一行得到 NA,但当它尝试添加下一行时,它再次尝试 NA,但发现这是重复的,因此必须选择一个新名称。 (看看当你尝试时会发生什么df[1:2,]$Number <- 123456
then df[3,]$Number <- 456789
)
另一方面,当你这样做时
df[1,1] <- 123456
这不会首先进行子集化来创建缺少行名称的行。你直接跳过作业$.data.frame<-
and [.data.frame
。在这种情况下,它不必合并到具有 NA 行名称的新行中,它可以立即创建该行并分配行名称。这只是调用赋值运算符的一个特殊属性,必须先进行提取。您可以使用以下命令打开调试器debug(`[<-.data.frame`)
看看到底是如何发生的。
所以第一种方法基本上是做三个步骤:1)提取df[1,]
, 2) 更改数字列的值,然后 3) 将该新值合并回df[1,]
。第二种方法跳过第一个步骤,直接将值合并到df[1,]
。真正的区别在于每个函数如何为尚不存在的行选择行名称。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)