我有一个data.frame
共 10 个变量R
。让我们称呼他们吧var1
var2
...var10
我想找到其中之一的相关性var1
关于var2
, var3
... var10
我们怎样才能做到这一点?
cor
函数可以一次找到两个变量之间的相关性。通过使用它我必须写cor
每个分析的函数
我的包裹corrr
有助于探索相关性,对此有一个简单的解决方案。我将使用 mtcars 数据集作为示例,并说我们希望关注以下相关性mpg
与所有其他变量。
install.packages("corrr") # though keep eye out for new version coming soon
library(corrr)
mtcars %>% correlate() %>% focus(mpg)
#> rowname mpg
#> <chr> <dbl>
#> 1 cyl -0.8521620
#> 2 disp -0.8475514
#> 3 hp -0.7761684
#> 4 drat 0.6811719
#> 5 wt -0.8676594
#> 6 qsec 0.4186840
#> 7 vs 0.6640389
#> 8 am 0.5998324
#> 9 gear 0.4802848
#> 10 carb -0.5509251
Here, correlate()
产生相关数据框,并且focus()
让您专注于某些变量与所有其他变量的相关性。
FYI, focus()
工作原理类似于select()
来自dplyr
包,只不过它改变了行和列。所以如果你熟悉select()
,你应该会发现它很容易使用focus()
. E.g.:
mtcars %>% correlate() %>% focus(mpg:drat)
#> rowname mpg cyl disp hp drat
#> <chr> <dbl> <dbl> <dbl> <dbl> <dbl>
#> 1 wt -0.8676594 0.7824958 0.8879799 0.6587479 -0.71244065
#> 2 qsec 0.4186840 -0.5912421 -0.4336979 -0.7082234 0.09120476
#> 3 vs 0.6640389 -0.8108118 -0.7104159 -0.7230967 0.44027846
#> 4 am 0.5998324 -0.5226070 -0.5912270 -0.2432043 0.71271113
#> 5 gear 0.4802848 -0.4926866 -0.5555692 -0.1257043 0.69961013
#> 6 carb -0.5509251 0.5269883 0.3949769 0.7498125 -0.09078980
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)