GSEA软件基因富集分析

2023-10-27

GSEA分析简介

基因集富集分析(GSEA)是一种计算方法,用于确定一组定义好的基因是否在两种生物状态(如表型)之间显示出统计上显著的一致性差异。

分析步骤

首先在官网下载软件:软件下载

1、准备数据

使用GSEA时,可以提供四个数据文件:表达数据集文件表型标签文件基因集文件芯片注释文件。下面我们逐个来看

(1)表达数据文件

包含特征(基因或探针)、样本以及每个样本中每个特征的表达值。表达数据可以来自任何来源(Affymetrix、Stanford cDNA等)。格式可以是res, gct, pcl,或 txt。
gct格式
Alt
第一行的数值是固定的。第二行的第一个数值19668是表达数据中的基因数或者探针数;第二个数值是样本数。

txt格式
Alt
第一行包括标签名和样本的标识,Description这一列如果没有要填的内容用NA代替。
文件的其余部分包含每个基因的数据。每行包含基因名、基因描述和数据集中每个样本的表达值。基因名称和描述可以包含空格,因为字段由制表符tab分隔。
选择以制表符分格的txt 作为保存文件类型。

(2)表型标签文件

CLS:分类(例如肿瘤与正常)类文件格式(.cls)

CLS文件格式定义表型(类或模板)标签,并将表达式数据中的每个样本与标签相关联。CLS文件格式使用空格或制表符分隔字段。CLS文件格式根据定义的是分类表型还是连续表型而有所不同。分类标签定义了离散的表型;例如,正常与肿瘤。对于分类标签,CLS文件格式的组织如下:
Alt
CLS文件的第一行包含表示样本数和类数。样本数应与相关RES或GCT数据文件中的样本数相对应。CLS文件中的第二行包含每个类的用户可见名称。这些是出现在分析报告中的类名。该行应以#开头,后跟空格。第三行包含每个样本的类标签。类标签可以是类名、数字或文本字符串。使用的第一个标签分配给第二行中命名类型的第一类;第二个标签分配给第二行命名的第二类;依此类推。(注意:标签的顺序决定类名和类标签的关联,即使类标签与类名相同。)此行指定的类标签总数应与第一行指定的样本数相同。此行指定的标签种类数应与第一行指定的类数相同。格式如下:
(sample 1 class) (space) (sample 2 class) (space) … (sample N class)
例如我整理的文件格式:
标签文件

2、数据导入

Alt
弹出确认窗口,无误后点击确认。

3、参数设置及运行

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
点击RUN后,状态栏显示running,如果报错,按照相应的错误提示进行调整和修改。

4、结果分析

如果样品比较多,Permumation type 选择了phenotype ,则设定FDR<0.25为可信的富集最有可能获得有功能研究价值的结果,如果样品数量较少,选择gene_set,那么标准要更加严格,FDR<0.05。
对于分析结果,我们一般认为NES的绝对值大于1,NOM p value <0.05, FDR q value <0.25的通路是显著富集的。

参考:
[1]:https://mp.weixin.qq.com/s/5ZEuII6ccJZZFdCsj6f3kA

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

GSEA软件基因富集分析 的相关文章

  • 学习笔记 Day 41 (监督学习分类算法)

    knn 结果不太理想 可以删除row id项 朴素贝叶斯 朴素贝叶斯预测 api省略 def navie bayes 获取数据 fet fetch 20newsgroups subset all print fet 数据基本处理 分割数据
  • Java实现简单版SVM

    Java实现简单版SVM 最近的图像分类工作要用到latent svm 为了更加深入了解svm 自己动手实现一个简单版的 之所以说是简单版 因为没有用到拉格朗日 对偶 核函数等等 而是用最简单的梯度下降法求解 其中的数学原理我参考了http
  • 因果推断-PSM的原理及python实现

    目录 一 背景 员工技能培训真的是浪费时间吗 二 PSM的原理及python实现 1 PSM的原理 1 1 计算倾向性得分 1 2 匹配对照组样本 1 3 平衡性检查 1 4 敏感度分析 2 PSM的python实现 一 背景 员工技能培训
  • 泰迪杯挑战赛优秀论文-A题-基于数据挖掘的上市公司高送转预测

    目 录 第 1 章 绪论 1 1问题背景 1 2问题重述 1 3本文主要工作与创新点 1 4模型假设 1 5本文研究意义 第 2 章 相关理论 2 1高送转相关知识介绍 2 1 1高送转的实质 2 1 2预测下一年上市公司高送转的一些其他条
  • 4-2 过滤器法

    4 2 过滤器法 请参考 数据准备和特征工程 中的相关章节 调试如下代码 注意 本节内容因为要耗费比较大的内存 在线平台有可能无法支持 可以下载到本地执行 基础知识 from sklearn datasets import load iri
  • 【Data Mining】【第五章作业】

    文章目录 一 单选题 二 多选题 三 填空题 一 单选题 1 回归分析中使用的距离是点到直线的垂直坐标距离 最小二乘准则是指 A B C D 正确答案 D 2 回归分析的步骤为 进行相关分析 建立预测模型 确定变量 确定预测值 计算预测误差
  • 数据预处理与特征工程—10.图像切割与特征提取

    文章目录 引言 一 图像切割 二 特征提取 1 各阶颜色矩的计算公式 三 python实现 水质图像数据 百度网盘链接提取码 1234 引言 本文以水质图像为例 进行图像切割与特征提取 一 图像切割 一般情况下 采集到的水样图片包含盛水容器
  • 基于遗传算法(GA)优化高斯过程回归(GA-GPR)的数据回归预测,matlab代码,多变量输入模型。评价指标包括:R2、MAE、MSE、RMSE和MAPE等,代码质量极高,方便学习和替换数据。

    清空环境变量 warning off 关闭报警信息 close all 关闭开启的图窗 clear 清空变量 clc 清空命令行 restoredefaultpath 导入数据 P train xlsread data training s
  • 【数据分析入门】Jupyter Notebook

    目录 一 保存 加载 二 适用多种编程语言 三 编写代码与文本 3 1 编辑单元格 3 2 插入单元格 3 3 运行单元格 3 4 查看单元格 四 Widgets 五 帮助 Jupyter Notebook是基于网页的用于交互计算的应用程序
  • 2021 CCF大数据与计算智能大赛个贷违约预测top 73 解决方案

    目录 一 概述 二 解题过程 2 1 数据 2 2 构建基线 2 3 进阶思路一 2 4 进阶思路二 2 5 进阶思路三 2 6 融合 2 7 调优提分过程 2 8 其他工作 三 结语 一 概述 这是我第二次参加大数据类型的竞赛 也是第一次
  • 数据挖掘—数据预处理

    文章目录 数据预处理 1 数据清洗 缺失值处理 异常值处理 2 数据集成 实体识别 冗余属性识别 数据变换 简单函数变换 规范化 连续属性离散化 属性构造 3 数据规约 属性归约 数值归约 Python主要数据预处理函数 数据预处理 数据预
  • AI会议排名_周志华

    AI会议排名 周志华 http blog sina com cn s blog 631a4cc40100xl7d html 南京大学周志华教授写的一个很经典的帖子 不过IJCAI能不能算成是no 1的会议有待商榷 不过总体还算客观 说明 纯
  • WOA-BILSTM-Attention基于鲸鱼算法优化双向长短期记忆网络结合注意力机制回归预测,多变量输入模型

    文章目录 效果一览 文章概述 订阅专栏只能获取专栏内一份代码 部分源码 参考资料
  • 判断API接口优劣的标准

    随着互联网的发展 API接口已经成为了应用程序之间进行数据交互的重要方式 然而 在众多的API接口中 如何判断其优劣呢 本文将介绍一些判断API接口优劣的标准 一 稳定性和可用性 一个优秀的API接口必须具备稳定性和可用性 稳定性是指接口在
  • 探索关系:Python中的Statsmodels库进阶

    目录 写在开头 1 多元线性回归 场景介绍 2 Logistic回归 2 1 Logistic回归的概念 2 2 应用案例 2 2 1 建立模型和预测
  • Python-一键爬取图片、音频、视频资源

    前言 使用Python爬取任意网页的资源文件 比如图片 音频 视频 一般常用的做法就是把网页的HTML请求下来通过XPath或者正则来获取自己想要的资源 这里我做了一个爬虫工具软件 可以一键爬取资源 媒体文件 但是需要说明的是 这里爬取资源
  • ResNet实战:CIFAR-10数据集分类

    本节将使用ResNet实现CIFAR 10数据集分类 7 2 1 CIFAR 10 数据集简介 CIFAR 10数据集共有60000幅彩色图像 这些图像是32 32像素的 分为10个类 每类6000幅图 这里面有50000幅用于训练 构成了
  • 民安智库(第三方满意度调研公司):满意度调查,选择适合的数据分析方法

    满意度调查是企业了解客户对其产品或服务满意程度的重要工具 而选择适合的数据分析方法则是解读调查结果的关键步骤 不同的数据分析方法可以提供不同的洞察和见解 帮助企业更好地理解客户需求 优化产品和服务 本文将分享民安智库 北京第三方绩效管理评估
  • 时间序列平稳性相关检验方法

    理解平稳性 一般来说 平稳时间序列是指随着时间的推移具有相当稳定的统计特性的时间序列 特别是在均值和方差方面 平稳性可能是一个比较模糊的概念 将序列排除为不平稳可能比说序列是平稳的更容易 通常不平稳序列有几个特征 平均值随时间推移发生变化
  • 天猫数据分析工具推荐(天猫第三方数据平台)

    在电商迅速发展的大背景下 做好天猫数据分析能够在多方面帮助品牌商家更好地运营店铺 塑造品牌 如通过数据分析了解消费者的需求 购买偏好 这有利于品牌商家及时调整商品结构 产品推广 商品宣传等等 灵活制定品牌的销售策略 那么 天猫平台行业 品牌

随机推荐

  • C++类结构规范定义

    后期私有类肯定还会有很多 为了自己和读者方便阅读 在后面的设计中将严格按照制定格式来定义类的变量和函数 pragma once class CClassxxx public CClassBase DECLARE DYNAMIC CClass
  • Flink SQL中时态表

    前言 Flink 1 12正式发布后 带来了很多新的特性 本文重点学习和总结一下Flink 1 11和 Flink1 12中时态表的使用和自己的一个小总结 文章如有问题 请大家留言交流讨论 我会及时改正 本文主要将在Flink1 12中新的
  • 仿今日头条最强顶部导航指示器,支持6种模式

    项目中经常会用到类似今日头条中顶部的导航指示器 我也经常用一个类似的库PagerSlidingTabStrip 但是有时并不能小伙伴们的所有需求 所以我在这个类的基础上就所有能用到的情况做了一个简单的封装 大家知道做一个功能比较简单 但是封
  • PageHelper 分页排序使用记录

    PageHelper 分页使用 PageHelper startPage pageNum pageSize orderBy 其中最后一个参数是数据库字段名称 按传入的字段进行排序 场景 如果有接口参数中有排序字段 则按参数中的排序字段来排序
  • 用MATLAB修改图像大小

    J1 imread frame 1 png 将图片读进工作区 J2 im2double J1 将默认的uinit数据类型保存为double类型并进行单位化 f imresize J2 2 将J2图片尺寸变为原来的二倍 figure imsh
  • 机器学习——逻辑回归 (Logistic Regression)

    引言 当谈到分类问题时 机器学习中最常用的算法之一就是逻辑回归 Logistic Regression 逻辑回归是一种广义线性模型 用于预测二分类问题 它的优势在于简单易懂 计算效率高 并且通常具有不错的性能 在本文中 我们将介绍逻辑回归的
  • 软件测试面试题:什么是上下文切换?

    1 什么是上下文切换 上下文切换是指CPU从一个任务或线程切换到另一个任务或线程时 保存当前任务的上下文信息并加载新任务的上下文信息的过程 上下文信息包括寄存器状态 程序计数器 堆栈指针等 它们共同组成了一个任务或线程的运行状态 同时 我也
  • 基于深度学习的人脸检测与识别系统设计(python)

    代码在github上 https github com Bluenessdrops face recognition 以上 后续有空了再详细写写过程 有问题请留言
  • vivo手机android耗电快怎么解决,vivo手机耗电严重怎么办 如何解决手机耗电严重的问题...

    相信大家对vivo手机都是不陌生的 他也是我们国产智能手机中的一个品牌 使用的用户也非常的多 并且机型也是一代比一代更好 那么大家平时在使用vivo手机的时候可能都会觉得它的电耗太快了 每天没用多久就需要充电了 所以就有网友问到小编有没有解
  • python通讯录课程设计

    最近自学了python 想到之前学c 的通讯录课程设计 就试着用来检验python的学习成果 import os file name contact txt def menu print 欢迎使用通讯簿 print 菜单 print 1 新
  • 【Chips】跨时钟域的亚稳态处理、为什么要打两拍不是打一拍、为什么打两拍能有效?

    Title 跨时钟域的亚稳态处理 为什么要打两拍不是打一拍 为什么打两拍能有效 前言 个人颜色习惯 黑色加粗 突出显示 红色 重要 洋红色 产生的疑问 question 蓝色 个人思考 或 针对问题的Solution 1 个人疑惑 在学习
  • Spring中原型prototype的准确使用

    实际问题 项目中 报表导出涉及到了在同一个类的两个不同方法中 都有相同的查询数据库的操作 一个方法是用于获取内容 一个是用于获取条数的 大概类似于这样 code class language java hljs has numbering
  • CVPR 2022

    论文 https arxiv org abs 2112 10003 代码 https github com timojl clipseg 语雀文档 https www yuque com lart papers ma3gkwbb5ud1ew
  • 苹果手机如何打开开发者模式

    下载爱思助手 数据线连接苹果手机 点击虚拟定位 修改虚拟定位 打开开发者模式 6 根据提示前往 iPhone 设置 隐私与安全性 可发现 开发者模式 现在已经显示出来 请打开开关并重启设备 7 设备完成重启后 屏幕上会出现询问是否打开 开发
  • cpm(派系过滤算法)实现社区发现

    注意 1 派系过滤CPM方法 clique percolation method 用于发现重叠社区 派系 clique 是任意两点都相连的顶点的集合 即完全子图 2 所有彼此连通的k 派系构成的集合就是一个k 派系社区 其中一个k 派系与另
  • Java高级——内存分配机制

    内存分配 概述 对象优先在Eden分配 大对象直接进入老年代 长期存活的对象将进入老年代 动态对象年龄判定 空间分配担保 概述 对象都是在堆上分配 但实际上也有可能经过即时编译后被拆散为标量类型并间接地在栈上分配 分代设计下 新生对象通常会
  • 极简入门 2022 docker 部署skywalking9.2.0

    安装skywalking服务 官方地址 官网 安装文档 文档地址 拉取镜像 docker pull apache skywalking oap server 9 2 0 docker pull apache skywalking ui 9
  • 树表的查找

    目录 一 基本概念 二 二叉排序树 插入 建立二叉排序树 查找 查找父结点 三 二叉排序树的删除结点 演示 删除 用直接后继替代 删除 用直接前驱替代 完整代码 四 平衡二叉树 4种调整情况 1 LL型调整 右单旋演示 代码 2 RR型调整
  • ArrayList扩容机制(基于jdk1.8)

    一 ArrayList继承了AbstractList 实现了List接口 底层实现基于数组 因此可以认为是一个可变长度的数组 二 在讲扩容机制之前 我们需要了解一下ArrayList中最主要的几个变量 定义一个空数组以供使用 private
  • GSEA软件基因富集分析

    快速目录链接 GSEA分析简介 分析步骤 1 准备数据 1 表达数据文件 2 表型标签文件 2 数据导入 3 参数设置及运行 4 结果分析 GSEA分析简介 基因集富集分析 GSEA 是一种计算方法 用于确定一组定义好的基因是否在两种生物状