数据框多个变量之间的相关性

2023-11-25

我有一个data.frame共 10 个变量R。让我们称呼他们吧var1 var2...var10

我想找到其中之一的相关性var1关于var2, var3 ... var10

我们怎样才能做到这一点?

cor函数可以一次找到两个变量之间的相关性。通过使用它我必须写cor每个分析的函数


我的包裹corrr有助于探索相关性,对此有一个简单的解决方案。我将使用 mtcars 数据集作为示例,并说我们希望关注以下相关性mpg与所有其他变量。

install.packages("corrr")  # though keep eye out for new version coming soon
library(corrr)
mtcars %>% correlate() %>% focus(mpg)


#>    rowname        mpg
#>      <chr>      <dbl>
#> 1      cyl -0.8521620
#> 2     disp -0.8475514
#> 3       hp -0.7761684
#> 4     drat  0.6811719
#> 5       wt -0.8676594
#> 6     qsec  0.4186840
#> 7       vs  0.6640389
#> 8       am  0.5998324
#> 9     gear  0.4802848
#> 10    carb -0.5509251

Here, correlate()产生相关数据框,并且focus()让您专注于某些变量与所有其他变量的相关性。

FYI, focus()工作原理类似于select()来自dplyr包,只不过它改变了行和列。所以如果你熟悉select(),你应该会发现它很容易使用focus(). E.g.:

mtcars %>% correlate() %>% focus(mpg:drat)

#>   rowname        mpg        cyl       disp         hp        drat
#>     <chr>      <dbl>      <dbl>      <dbl>      <dbl>       <dbl>
#> 1      wt -0.8676594  0.7824958  0.8879799  0.6587479 -0.71244065
#> 2    qsec  0.4186840 -0.5912421 -0.4336979 -0.7082234  0.09120476
#> 3      vs  0.6640389 -0.8108118 -0.7104159 -0.7230967  0.44027846
#> 4      am  0.5998324 -0.5226070 -0.5912270 -0.2432043  0.71271113
#> 5    gear  0.4802848 -0.4926866 -0.5555692 -0.1257043  0.69961013
#> 6    carb -0.5509251  0.5269883  0.3949769  0.7498125 -0.09078980
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据框多个变量之间的相关性 的相关文章

随机推荐