R语言中如何进行PCA分析?利用ggplot和prcomp绘制基因表达量分析图

2023-11-10

学习笔记的主要内容是在R语言中利用ggplot2进行PCA分析和绘图,包括简单分析与操作流程,对比不同方式得到的结果差异,提供脚本代码供练习.

PCA分析的原理

在处理基因差异表达数据时,有时候需要分析其中因素的影响最大,判断结果的关系,这个时候可以用PCA分析法,之前发过一篇PCA分析的简介和数学原理解析,如果有兴趣点击这里查看,今天的笔记主要围绕实际操作过程进行分享。笔者学习时参考易汉博的教程,感觉这个教程挺好的,推荐给大家,也可以在学习过程中一起交流。

PCA分析示例

创建演示数据

count <- 100 #设置变量个数为100
Ge_1a <- rnorm(count,4,0.6) #生成100个服从均值为4标准差为0.6正态分布的数字
Ge_1b <- rnorm(count,19,0.4)
gro_a <- rep('a',count) #生成100个a,代表a组
gro_b <- rep('b',count)

演示数据为Ge_1的表达量(每个基因包括两组类型的值各100个,且两个组的表达量有差异),接下来创建根据数据创建矩阵,设置样本的名称标签,添加新列R,并生成一个表格输出基因在200个样本中的表达量,每一行为一个样品,每一列为基因的表达值。

c_data <- data.frame(Ge_1=c(Ge_1a,Ge_1b),
                     Group=c(gro_a,gro_b))
label <- c(paste0(gro_a,1:count),paste0(gro_b,1:count))
row.names(c_data) <- label

c_data$R <- rep(0,count*2)
kable(headTail(c_data),booktabs=TRUE,
      caption="Expr Profile For Ge_1 in 200 samples")

生成了200行3列的表格数据,结果如下:

Table: Expr Profile For Ge_1 in 200 samples
|     |Ge_1  |Group |R   |
|:----|:-----|:-----|:---|
|a1   |4.77  |a     |0   |
|a2   |4.13  |a     |0   |
|a3   |4.15  |a     |0   |
|a4   |4.04  |a     |0   |
|...  |...   |NA    |... |
|b97  |18.93 |b     |0   |
|b98  |18.06 |b     |0   |
|b99  |18.74 |b     |0   |
|b100 |19.52 |b     |0   |

加载R包

library(knitr)
library(psych)
library(reshape2)
library(ggplot2)
library(ggbeeswarm)
library(scatterplot3d)
library(useful)
library(ggfortify)

需要加载上述R包,如果没有请先安装后载入R包。

绘制图像

p <- ggplot(c_data,aes(Ge_1,R)) + geom_quasirandom(
  aes(color=factor(Group))) +theme(legend.position = c(0.5,0.8)) +
  theme(legend.title = element_blank()) +
  scale_fill_discrete(name="Group") +
  theme(axis.line.y=element_blank(),
        axis.text.y=element_blank(),
        axis.ticks.y=element_blank(),
        axis.title.y=element_blank()) +
  ylim(-0.5,5) + xlim(0,25)
p 

利用ggplot函数进行绘图,发现200个样本在Ge1基因表达量上分为了两类(原因是刚刚生成数据时分成了两个不同类型的组,表达量存在差异)

添加一个基因

刚刚是只有Ge1的情况,接下来再创建一个Ge_2(方法和刚刚类似),看看两个基因时情况会发生什么变化?
创建一组均值为6标准差为0.3的正态分布随机数据,并设置行名构建矩阵,输出表达矩阵。需要注意的是:Ge_2的表达量保持稳定(a组和b组的表达水平相当),不像Ge_1存在表达量差异。

> count <- 100
> Ge_2a <- rnorm(count,6,0.3)
> Ge_2b <- rnorm(count,6,0.3)
> c2_data <- data.frame(Ge_1=c(Ge_1a,Ge_1b),Ge_2=c(Ge_2a,Ge_2b),
+                       Group=c(gro_a,gro_b))
> row.names(c2_data) <- label
> kable(headTail(c2_data),booktabs=T,
+                caption="Expression for Ge_1 and Ge_2 in 200 samples")

Table: Expression for Ge_1 and Ge_2 in 200 samples
|     |Ge_1  |Ge_2 |Group |
|:----|:-----|:----|:-----|
|a1   |4.77  |5.71 |a     |
|a2   |4.13  |5.65 |a     |
|a3   |4.15  |6.38 |a     |
|a4   |4.04  |5.88 |a     |
|...  |...   |...  |NA    |
|b97  |18.93 |6.06 |b     |
|b98  |18.06 |6.29 |b     |
|b99  |18.74 |5.78 |b     |
|b100 |19.52 |5.87 |b     |

利用ggplot函数作图,数据为c2data,此时能显示出Ge1Ge2的分布情况,可以看出在Ge_1(x轴)上分成了两类,而Ge_2上分类趋势很小(因为Ge_2本身就没什么差异分组)

p <- ggplot(c2_data,aes(Ge_1,Ge_2)) +
  geom_point(aes(color=factor(Group))) +
  theme(legend.position = c(0.5,0.8)) +
  theme(legend.title = element_blank()) +
  ylim(0,10)+xlim(0,25)
p

再添加一个基因

刚刚是两个基因,现在再加一个Ge_3,这个基因的表达量差异设置的更大一些,设置该基因分成两个组,而且每个组的表达量也存在两种类型,所以这个基因对样本分类的作用更大。

> count <- 100
> Ge_3a <- c(rnorm(count/2,6,0.4),rnorm(count/2,14,0.3))
> Ge_3b <- c(rnorm(count/2,14,0.3),rnorm(count/2,4,0.4))
> data_3 <- data.frame(Ge_1=c(Ge_1a,Ge_1b),
+                      Ge_2=c(Ge_2a,Ge_2b),
+                      Ge_3=c(Ge_3a,Ge_3b),
+                      Group=c(gro_a,gro_b))
> data_3 <- as.data.frame(data_3)
> data_3$Group <- as.factor(data_3$Group)
> row.names(data_3) <- label
> 
> kable(headTail(data_3),booktabs=T,caption = "Expression 3 Genes in 200 samples")


Table: Expression 3 Genes in 200 samples
|     |Ge_1  |Ge_2 |Ge_3 |Group |
|:----|:-----|:----|:----|:-----|
|a1   |4.77  |5.71 |5.61 |a     |
|a2   |4.13  |5.65 |6.38 |a     |
|a3   |4.15  |6.38 |6.47 |a     |
|a4   |4.04  |5.88 |5.82 |a     |
|...  |...   |...  |...  |NA    |
|b97  |18.93 |6.06 |3.57 |b     |
|b98  |18.06 |6.29 |4.37 |b     |
|b99  |18.74 |5.78 |4.18 |b     |
|b100 |19.52 |5.87 |4.82 |b     |

生成一组颜色变量,用于区分不同类别。每个数据向底面做垂直投影,可以看出在x轴方向(Ge_1)和z轴(Ge_3)上投影时在不同位置分成两类,而在y轴(Ge_2)上投影位于同一区域,所以可以看出Ge_2对样本分类的贡献度最小。

colorl <- c("#E19F90", "#96B4E9")
colors <- colorl[as.numeric(data_3$Group)]
scatterplot3d(data_3[,1:3],color=colors,xlim=c(0,24),
              ylim=c(0,24),zlim=c(0,24),type="h",
              angle=45,pch=16)
legend("top",legend=levels(data_3$Group),col=colorl,
       pch=16,xpd=T,horiz=T)

通过上面的演示,已经基本了解PCA的作用了,通过PCA分析能将不同基因在不同样本中的表达量分成几类,接下来,用简单的例子来演示流程。

PCA的实现流程

使用上面创建的data_3数据来进行后续操作。首先生成表达矩阵,包含3个基因在200个样本中的表达情况。

> kable(headTail(data_3),booktabs=T,caption = "Expression 3Gene in 200 samples")
Table: Expression 3Gene in 200 samples
|     |Ge_1  |Ge_2 |Ge_3 |Group |
|:----|:-----|:----|:----|:-----|
|a1   |4.77  |5.71 |5.61 |a     |
|a2   |4.13  |5.65 |6.38 |a     |
|a3   |4.15  |6.38 |6.47 |a     |
|a4   |4.04  |5.88 |5.82 |a     |
|...  |...   |...  |...  |NA    |
|b97  |18.93 |6.06 |3.57 |b     |
|b98  |18.06 |6.29 |4.37 |b     |
|b99  |18.74 |5.78 |4.18 |b     |
|b100 |19.52 |5.87 |4.82 |b     |
# 对数据进行标准化处理
> data_3_cs <- scale(data_3[,1:3],center = T,scale = T)
> kable(headTail(data_3_cs),booktabs=T,caption = "norm Expression 3 gene in 200 samples")

上面的代码是对数据进行标准化和中心化处理(使数据的差异变化幅度在同一水平),将数据转化为均值为0且标准差为1的新数据集。

Table: norm Expression 3 gene in 200 samples

|     |Ge_1  |Ge_2  |Ge_3  |
|:----|:-----|:-----|:-----|
|a1   |-0.89 |-1    |-0.87 |
|a2   |-0.98 |-1.22 |-0.7  |
|a3   |-0.97 |1.41  |-0.68 |
|a4   |-0.99 |-0.37 |-0.82 |
|...  |...   |...   |...   |
|b97  |0.99  |0.25  |-1.32 |
|b98  |0.88  |1.08  |-1.14 |
|b99  |0.97  |-0.73 |-1.18 |
|b100 |1.07  |-0.44 |-1.04 |
> data_3_cs_cov <- cov(data_3_cs)
> kable(data_3_cs_cov,booktabs=T,
+       caption = "cov for 3 gene in 200 samples")

上面的代码生成协方差矩阵,计算3个基因在200个样本中表达数据的协方差。

Table: cov for 3 gene in 200 samples

|     |       Ge_1|       Ge_2|       Ge_3|
|:----|----------:|----------:|----------:|
|Ge_1 |  1.0000000| -0.0808226| -0.1181946|
|Ge_2 | -0.0808226|  1.0000000| -0.0106916|
|Ge_3 | -0.1181946| -0.0106916|  1.0000000|
> data_3_cs_cov_e <- eigen(data_3_cs_cov)
#求解特征值和特征向量
> data_3_cs_cov_e$values #特征值
> [1] 1.1383477 1.0099558 0.8516964
> data_3_cs_cov_e$vectors #特征向量
>       [,1]        [,2]       [,3]
> [1,]  0.7189945  0.02734216 -0.6944778
> [2,] -0.3748044 -0.82622441 -0.4205650
> [3,] -0.5852936  0.56267720 -0.5838028

上面的代码得到特征值和特征变量,下面的代码用于产生新矩阵。

> pc_select <- 3
> label <- paste0("PC",c(1:pc_select))
> data_3_n <- data_3_cs %*% data_3_cs_cov_e$vectors[,1:pc_select] #%*%表示矩阵相乘
> colnames(data_3_n) <- label
> kable(headTail(data_3_n),booktabs=T,
+       caption = "PCA gene matrix for 3 gene in 200 samples")


Table: PCA gene matrix for 3 gene in 200 samples

|     |PC1   |PC2   |PC3   |
|:----|:-----|:-----|:-----|
|a1   |0.24  |0.31  |1.55  |
|a2   |0.16  |0.59  |1.6   |
|a3   |-0.83 |-1.57 |0.48  |
|a4   |-0.09 |-0.18 |1.32  |
|...  |...   |...   |...   |
|b97  |1.39  |-0.92 |-0.02 |
|b98  |0.89  |-1.51 |-0.4  |
|b99  |1.66  |-0.03 |0.33  |
|b100 |1.54  |-0.19 |0.05  |

接下来,比较两种方式对样本的聚类差异情况,设置工作区同时输出两个图,并使用scatterplot3d进行绘图。

colorl <- c("#E38F92","#97B6E1")
colors <- colorl[as.numeric(data_3$Group)]

par(mfrow=c(1,2)) #图片输出区为一行两图的布局

scatterplot3d(data_3[,1:3],color = colors,
              angle=45,pch=16,main="before data")

# 生成图例legend("top",legend = levels(data_3$Group),col=colorl,pch=16,xpd=T,horiz = T)
scatterplot3d(data_3_n,color=colors,angle = 45,pch=16,
              main="after data")


通过对比上图,可以发现两种数据处理方式形成的样品分组情况不同,在处理后数据右图中,样本的分散程度更大,笔者的理解是其变化特征显示的更广泛,相比左图能够读取更多信息,处理后效果更好(可能是因为此时变量间非线性相关)。

利用prcomp进行PCA分析

pca_data_3 <- prcomp(data_3[,1:3],center=T,scale=T)
str(pca_data_3)

上面的代码对data_3数据进行处理,得到新数据,接着查看一下pca_data_3的数据信息摘要。

List of 5
 $ sdev    : num [1:3] 1.067 1.005 0.923
 $ rotation: num [1:3, 1:3] -0.719 0.3748 0.5853 0.0273 -0.8262 ...
  ..- attr(*, "dimnames")=List of 2
  .. ..$ : chr [1:3] "Ge_1" "Ge_2" "Ge_3"
  .. ..$ : chr [1:3] "PC1" "PC2" "PC3"
 $ center  : Named num [1:3] 11.47 5.99 9.55
  ..- attr(*, "names")= chr [1:3] "Ge_1" "Ge_2" "Ge_3"
 $ scale   : Named num [1:3] 7.52 0.277 4.548
  ..- attr(*, "names")= chr [1:3] "Ge_1" "Ge_2" "Ge_3"
 $ x       : num [1:200, 1:3] -0.2399 -0.1632 0.833 0.0905 0.3406 ...
  ..- attr(*, "dimnames")=List of 2
  .. ..$ : chr [1:200] "a1" "a2" "a3" "a4" ...
  .. ..$ : chr [1:3] "PC1" "PC2" "PC3"
 - attr(*, "class")= chr "prcomp"

生成新的数据包含五个变量,按照之前的方法对其进行处理。

data_pca_n <- pca_data_3$x
kable(headTail(data_pca_n),booktabs=T,
      caption = "PCA gene matrix")

得到prcomp方式的基因表达矩阵,此时存在三个主成分(PC1、2、3)。

Table: PCA gene matrix
|     |PC1   |PC2   |PC3   |
|:----|:-----|:-----|:-----|
|a1   |-0.24 |0.31  |1.55  |
|a2   |-0.16 |0.59  |1.6   |
|a3   |0.83  |-1.57 |0.48  |
|a4   |0.09  |-0.18 |1.32  |
|...  |...   |...   |...   |
|b97  |-1.39 |-0.92 |-0.02 |
|b98  |-0.89 |-1.51 |-0.4  |
|b99  |-1.66 |-0.03 |0.33  |
|b100 |-1.54 |-0.19 |0.05  |
# 查看特征向量
> pca_data_3$rotation
            PC1         PC2        PC3
Ge_1 -0.7189945  0.02734216 -0.6944778
Ge_2  0.3748044 -0.82622441 -0.4205650
Ge_3  0.5852936  0.56267720 -0.5838028

接下来,比较两种方式实现PCA分析的结果差异,左图是手动方式,右图是利用prcomp方式,可以看出两种结果具有差异性。

scatterplot3d(data_3_n,color=colors,angle=45,pch=16,
              main="PCA by steps")
scatterplot3d(data_pca_n,color=colors,angle=45,pch=16,
              main="PCA by prcomp")

创建PCA计算函数

在R语言中自定义一个函数ct_PCA,用于计算处理PCA数据(参数设置对原始数据进行标准化和中心化)

ct_PCA <- function(data,center=T,scale=T){
  data_norm <- scale(data, center=center, scale=scale)
  data_norm_cov <- crossprod(as.matrix(data_norm)) / (nrow(data_norm)-1)
  data_eigen <- eigen(data_norm_cov)

  rotation <- data_eigen$vectors
  label <- paste0('PC', c(1:ncol(rotation)))
  colnames(rotation) <- label
  sdev <- sqrt(data_eigen$values)
  data_new <- data_norm %*% rotation
  colnames(data_new) <- label
  ct_pca <- list('rotation'=rotation, 'x'=data_new, 'sdev'=sdev)
  return(ct_pca)
}

标准化scale操作是指将数据的差异程度相对化,消除固有差异幅度的影响,从同一衡量标准下判断数据的差异性,接下来,分别演示不经过标准化处理和进行标准化处理的结果。

data_pca_noscale_step <- ct_PCA(data_3[,1:3],center=T,scale = F)
#只中心化,不标准化
data_pca_noscale_step$rotation #查看特征向量
              PC1          PC2          PC3
[1,]  0.993858995 -0.110611181 -0.003076602
[2,] -0.002918535  0.001590917 -0.999994476
[3,] -0.110615464 -0.993862483 -0.001258325
data_pca_noscale_pc <- data_pca_noscale_step$x

利用刚才生成的四种数据,生成四个不同类型的结果图:

par(mfrow=c(2,2)) #设置输出区为2行2列排版,同时输出4副图
scatterplot3d(data_3[,c(1,3,2)],color=colors,
              angle=45,pch=16,main="ori plot")
scatterplot3d(data_pca_noscale_pc,color=colors,
              angle=45,pch=16,main="PCA noscale")
scatterplot3d(data_3_cs[,c(1,3,2)],color=colors,
              angle=45,pch=16,main="ori plot(scale)")
scatterplot3d(data_3_n,color=colors,
              angle=45,pch=16,main="PCA scale")

依次生成4副图,可以看出上面两张图(没有scale标准化)的分布比较秘籍,而经过scale处理之后数据的分散程度更高(下面两张图),说明标准化处理后数据的相对变化幅度信息被保留,差异细节更清晰,这也是PCA分析的目的所在。

本文中所有代码已整理打包,下载链接:
https://down.jewin.love/?f=/Rscript/PCA.R
参考资料:http://www.ehbio.com

本文由mdnice多平台发布

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

R语言中如何进行PCA分析?利用ggplot和prcomp绘制基因表达量分析图 的相关文章

  • 微信小程序wx.getLocation接口审核不通过

    审核不通过的原因一般包含这几种 一 当前提审小程序代码包中地理位置相关接口 wx getLocation 暂未开通 分析原因 接口未开通 解决方法 按下图申请开通对应的接口即可 二 你所描述的小程序接口使用场景 目前未符合接入wx getL

随机推荐

  • taro 兼容支付宝小程序和微信小程序<六>-- 自定义密码或验证码输入框组件的input 自动获取焦点(ios支付宝小程序怎么隐藏input的光标)

    项目 tar3 vue3 问题 自定义密码或验证码输入框需要自动聚焦 拉起键盘 A 微信小程序 用了自定义指令达到这个目的 自定义密码或验证码输入框 input自动获取焦点之坑 B 支付宝小程序 官方文档中说不支持自动获取焦点 必须手动拉起
  • 解决mysql经常断开重连的问题

    解决mysql自动断开连接的问题 有三个方法可以解决这个问题 1 修改MySQL配置参数 2 修改JDBC 3 修改第三方的数据库连接池应用 Proxool xml 方法1的解决方案 这个参数的名称是 wait timeout 其默认值为
  • redis 获取 list 中的所有元素

    一种方法是用 lrange key 0 1 这种方法不会影响 redis list 中的数据 List
  • QT 网络编程之https

    HTTP 超文本传输协议 是一个基于请求与响应 无状态的 应用层的协议 常基于TCP IP协议传输数据 互联网上应用最为广泛的一种网络协议 所有的WWW文件都必须遵守这个标准 设计HTTP的初衷是为了提供一种发布和接收HTML页面的方法 H
  • 【Python-3.5】matplotlib做简单折线图

    在matplotlib中使用plot 函数可以做出简单折线图 预期效果如下 代码如下 导入pyplot模块 import matplotlib pyplot as plt 输入横纵坐标数据 months 1 2 3 4 5 6 people
  • 分布式事务解决方案

    一 概述 分布式事务 分布式系统会把一个应用拆分为多个可独立部署的服务 此时要完成事务 就需要这些服务之间远程交互完成事务 简单的说跨JVM进程或者跨数据库实例产生分布式事务 典型的分布式事务场景 跨库事务 一个应用中某个功能需要操作多个库
  • Android基础-Service和IntentService知识点详细总结

    Service 对于广大的Android开发者来说算是耳熟能详了 作为Android的四大组件之一 在我们的开发中也起着重要的作用 在Android面试中 Service相关的问题也是面试官问得比较多的 当别人问你 Service 到底是什
  • 【torch.nn.init】初始化参数方法解读

    可参考 torch nn init 云 社区 腾讯云 一 torch nn init constant tensor val 1 作用 常数分布 用值val填充向量 2 参数 tensor an n dimensional torch Te
  • 青藤首提“业安融合”理念,正式发布先进云安全方案CNAPP

    4月18日 青藤以 云时代 安全变了 为主题的2023年云安全高峰论坛在北京成功举办 会上 青藤首次提出 业安融合 理念 正式发布先进云安全方案CNAPP 中国全面进入云和数字化时代 当前 全球已进入数字经济时代 我国高度重视数字经济发展
  • Postgresql on conflict do update 设置当前值,原始值,当前值与原始值相加值

    Postgresql插入时主键冲突会报错 可采取冲突不做任何处理或者进行更新 俩种方式避免报错 更新时可以保存新值 保存新值与旧值表达式 更新时可以保存原来的值 ON CONFLICT date city DO NOTHING 或者 ON
  • JVM —堆内存区域的认识

    一个JVM只有一个堆 堆的大小是可以调节的 堆中存放的内容 当类加载器读取完类文件后 会把类 方法 常量 变量等存放在堆中 保存的是我们所有引用对象的真实对象 也就是真实引用对象的数据等 堆内存中的三个区域 新生区 老年区 永久区 堆中要进
  • 【Typescript】ts中的静态属性和静态方法

    Typescript中的静态属性和静态方法 在ts中使用静态属性和方法 需要有static关键字 且在静态方法里只能用静态属性 举两个栗子 在es5中 function Person this run1 function 实例方法 实例化后
  • 特征缩放(归一化处理)

    在我们面对多维特征问题的时候 我们要保证这些特征都具有相近的尺度 这将帮助梯度下降算法更快地收敛 以房价问题为例 假设我们使用两个特征 房屋的尺寸和房间的数量 尺寸的值为 0 2000平方英尺 而房间数量的值则是0 5 以两个参数分别为横纵
  • 带有 OpenCV.js 的 ESP32-CAM Web 服务器:颜色识别和跟踪

    本教程介绍了使用 ESP32 摄像头网络服务器环境的 OpenCV js 和 OpenCV 工具 例如 我们将构建一个简单的 ESP32 摄像头网络服务器 其中包括对移动物体的颜色检测和跟踪 本教程绝不是对 OpenCV 可以提供给 ESP
  • 学乐高机器人还是学习少儿编程

    学乐高机器人还是学习少儿编程 对于很多的家长来说 孩子的学习一直都是他们非常关心和重视的一件事情 很多的家长在给孩子选择学习课程的时候 也是非常的耐心的 他们会给孩子选择一些能够有利于孩子成长的课程 就拿现在很多的家长想要孩子去学习机器人编
  • 生成树协议实验报告_“网络工程师培训”基础教程:OSPF协议及配置

    OSPF协议概述 OSPF 是 Open Shortest Path First 即 开放最短路由优先协议 的缩写 它是 IETF 组织开发的一个基于链路状态的自治系统内部路由协议 在IP 网络上 它通过收集和传递自治系统的链路状态来动态地
  • 牛客网Verilog刷题——VL54

    牛客网Verilog刷题 VL54 题目 答案 题目 实现一个深度为8 位宽为4bit的双端口RAM 数据全部初始化为0000 具有两组端口 分别用于读数据和写数据 读写操作可以同时进行 当读数据指示信号read en有效时 通过读地址信号
  • ffmpeg命令行map参数的使用

    介绍 理解 map参数的最好办法就是想像一下怎么去告诉ffmpeg你要从源文件中选择 拷贝哪个流到输出文件 输出文件的stream顺序取决于在命令行中 map的参数顺序 下面有一些例子 默认 默认操作 没有指定map参数 比如 ffmpeg
  • IR2104电机驱动

    目录 一 IR2104的引脚定义 二 IR2104的内部原理 三 半桥驱动原理分析 四 全桥驱动原理分析 五 电感电流回流路径的建立 六 自举电容容值的计算与自举二极管选型 七 mos管发热可能的问题 八 推荐阅读 一 IR2104的引脚定
  • R语言中如何进行PCA分析?利用ggplot和prcomp绘制基因表达量分析图

    学习笔记的主要内容是在R语言中利用ggplot2进行PCA分析和绘图 包括简单分析与操作流程 对比不同方式得到的结果差异 提供脚本代码供练习 PCA分析的原理 在处理基因差异表达数据时 有时候需要分析其中因素的影响最大 判断结果的关系 这个