gsea富集分析结果怎么看_TCGA单基因泛癌分析:富集分析结果答疑

2023-05-16

前段时间我们推出了TCGA单基因泛癌分析,其中GO,KEGG和GSEA富集分析我们是使用clusterprofiler包做的出的图有气泡图,条形图,山峦图(波浪图)和circle图

a64bf5da6fc1d0fe551d1d197f1bdc65.png

1f437d0a6f233dcfe8d7b6f0d2e8da52.png

ae7fa12884efd3ddc05146389fd1369f.png

3ae8a6468c5bd12429ce1b1b06a4e4c0.png

下面总结一下常见的问题

1 条形图和气泡图顺序不一样是怎么回事?

条形图通过颜色和长度反应了两个指标,分别是p.adjust和count。count的意思是我们输入了300个基因,其中有n个基因富集到该通路中,n就是count值。显然条形图是按照p.adjust排序的。

气泡图反应了三个指标,气泡的大小指count,颜色代表p.adjust,还有个generatio。generatio是啥呢?我们看一下结果的数据

6748198d48e3f02b4ec1da4760bc0b8a.png

generatio的分子是count,分母都是254,254是啥?

这里我们输入了300个基因,而只有254个基因是被纳入到数据库的,也就是被注释的。比如KEGG数据库大约有七八千个基因,而人类有两万多基因。

那么气泡图是按照啥排序的呢?

比如我们展示前20个结果,我们首先选择p.adjust最小的前二十个,按照从小到大排序排列,再用generatio值从大到小排序,得到我们最终展示结果的顺序。

2 山峦图是怎么排序的?

首先按照p.adjust从小打到排序,选20个。然后按照NES值从大到小排序作图。

3 山峦图中,山的高度代表什么?

这。。。让我联想到高中时候,有个同学问我化学题,问道最后实在没问题了,问了一句,那空气中的稀有气体对反应有影响怎么办?我无言以对。但是这个问题至今我都记得,也不知道这位同学现在怎么样,有这种探索精神的人将来才能成大才吧。

我也就用尺子量了一下,确实不是所有的山峦高度都是一样的。就像下图:

85beee1729e5c1728ea5a4ee19ce7e7b.png

第2 4 5个山峰的高度是不一样的,那么我们单独画每一个的图:

第二个:

84d6b14af38240916011935b61055047.png

第四个:

4a190cebb25f138a0f4e99f3af4d6525.png

第六个:

1cb193be1a2ff7df92dd77ade4ad29f5.png

看来也不是running enrichment score,那么看一看富集到的基因数,

synaptic signaling:76

anterograde trans-synaptic signaling:75

nervous system development:180

所以也不是基因数,在结果的excel文件中我也找不到答案。所以目前还是未解之谜,有知道的一定后台留言告诉我

4 山峦图的横坐标代表啥?

我们做的这个GSEA,用的是相关性系数对基因进行排序,而横坐标的意义就是每个geneset中的基因对应的相关系数的分布,最大是1,最小是-1。(这里我觉得山峦的高度是不是和基因数以及对应的r值有潜在的不为人知的关系?)

5 GSEA-GO图中展示的是BP还是CC还是MF?

这个看一下结果的文件就知道了,都包括在内。

f157a27575c185908253443a90b30393.png

6 P值怎么没有范围?

结果比较好的时候,很多基因集的矫正后的p值是一样的,所以前20个p.adjust是同一个值

ae7fa12884efd3ddc05146389fd1369f.png

还有时候结果一般,就是这样:

cc8ed4304dc48ec989c59edbba9d6c42.png

所以说,p值是有范围的。

好吧,目前的问题就是这样,以后还有问题会继续分享。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

gsea富集分析结果怎么看_TCGA单基因泛癌分析:富集分析结果答疑 的相关文章

随机推荐