前段时间我们推出了TCGA单基因泛癌分析,其中GO,KEGG和GSEA富集分析我们是使用clusterprofiler包做的出的图有气泡图,条形图,山峦图(波浪图)和circle图
![a64bf5da6fc1d0fe551d1d197f1bdc65.png](https://img-blog.csdnimg.cn/img_convert/a64bf5da6fc1d0fe551d1d197f1bdc65.png)
![1f437d0a6f233dcfe8d7b6f0d2e8da52.png](https://img-blog.csdnimg.cn/img_convert/1f437d0a6f233dcfe8d7b6f0d2e8da52.png)
![ae7fa12884efd3ddc05146389fd1369f.png](https://img-blog.csdnimg.cn/img_convert/ae7fa12884efd3ddc05146389fd1369f.png)
![3ae8a6468c5bd12429ce1b1b06a4e4c0.png](https://img-blog.csdnimg.cn/img_convert/3ae8a6468c5bd12429ce1b1b06a4e4c0.png)
下面总结一下常见的问题
1 条形图和气泡图顺序不一样是怎么回事?
条形图通过颜色和长度反应了两个指标,分别是p.adjust和count。count的意思是我们输入了300个基因,其中有n个基因富集到该通路中,n就是count值。显然条形图是按照p.adjust排序的。
气泡图反应了三个指标,气泡的大小指count,颜色代表p.adjust,还有个generatio。generatio是啥呢?我们看一下结果的数据
![6748198d48e3f02b4ec1da4760bc0b8a.png](https://img-blog.csdnimg.cn/img_convert/6748198d48e3f02b4ec1da4760bc0b8a.png)
generatio的分子是count,分母都是254,254是啥?
这里我们输入了300个基因,而只有254个基因是被纳入到数据库的,也就是被注释的。比如KEGG数据库大约有七八千个基因,而人类有两万多基因。
那么气泡图是按照啥排序的呢?
比如我们展示前20个结果,我们首先选择p.adjust最小的前二十个,按照从小到大排序排列,再用generatio值从大到小排序,得到我们最终展示结果的顺序。
2 山峦图是怎么排序的?
首先按照p.adjust从小打到排序,选20个。然后按照NES值从大到小排序作图。
3 山峦图中,山的高度代表什么?
这。。。让我联想到高中时候,有个同学问我化学题,问道最后实在没问题了,问了一句,那空气中的稀有气体对反应有影响怎么办?我无言以对。但是这个问题至今我都记得,也不知道这位同学现在怎么样,有这种探索精神的人将来才能成大才吧。
我也就用尺子量了一下,确实不是所有的山峦高度都是一样的。就像下图:
![85beee1729e5c1728ea5a4ee19ce7e7b.png](https://img-blog.csdnimg.cn/img_convert/85beee1729e5c1728ea5a4ee19ce7e7b.png)
第2 4 5个山峰的高度是不一样的,那么我们单独画每一个的图:
第二个:
![84d6b14af38240916011935b61055047.png](https://img-blog.csdnimg.cn/img_convert/84d6b14af38240916011935b61055047.png)
第四个:
![4a190cebb25f138a0f4e99f3af4d6525.png](https://img-blog.csdnimg.cn/img_convert/4a190cebb25f138a0f4e99f3af4d6525.png)
第六个:
![1cb193be1a2ff7df92dd77ade4ad29f5.png](https://img-blog.csdnimg.cn/img_convert/1cb193be1a2ff7df92dd77ade4ad29f5.png)
看来也不是running enrichment score,那么看一看富集到的基因数,
synaptic signaling:76
anterograde trans-synaptic signaling:75
nervous system development:180
所以也不是基因数,在结果的excel文件中我也找不到答案。所以目前还是未解之谜,有知道的一定后台留言告诉我
4 山峦图的横坐标代表啥?
我们做的这个GSEA,用的是相关性系数对基因进行排序,而横坐标的意义就是每个geneset中的基因对应的相关系数的分布,最大是1,最小是-1。(这里我觉得山峦的高度是不是和基因数以及对应的r值有潜在的不为人知的关系?)
5 GSEA-GO图中展示的是BP还是CC还是MF?
这个看一下结果的文件就知道了,都包括在内。
![f157a27575c185908253443a90b30393.png](https://img-blog.csdnimg.cn/img_convert/f157a27575c185908253443a90b30393.png)
6 P值怎么没有范围?
结果比较好的时候,很多基因集的矫正后的p值是一样的,所以前20个p.adjust是同一个值
![ae7fa12884efd3ddc05146389fd1369f.png](https://img-blog.csdnimg.cn/img_convert/ae7fa12884efd3ddc05146389fd1369f.png)
还有时候结果一般,就是这样:
![cc8ed4304dc48ec989c59edbba9d6c42.png](https://img-blog.csdnimg.cn/img_convert/cc8ed4304dc48ec989c59edbba9d6c42.png)
所以说,p值是有范围的。
好吧,目前的问题就是这样,以后还有问题会继续分享。