利用CIBERSORT免疫细胞类群分析详细教程

2023-11-09

利用CIBERSORT免疫细胞类群分析详细教程

现在最火的组学技术是什么,无疑便是单细胞测序了。通过单细胞测序,科研人员可以获得比原来更为精细的细胞图谱。但是单细胞测序诸多限制条件,也是不能让大家很好地利用这项技术解决自己的科学问题。

除了较高的费用外,极其严格的前期样本制备也使得许多研究人员望而却步。

那么有没有更好的办法来解决这一问题呢?答案是肯定的!

从事免疫相关工作的研究人员,目前只需常规普通的转录组测序数据,就能拿到该样本中各类免疫细胞如DC细胞、NK细胞、CD4+ T细胞等所占比例。

例如肿瘤微环境主要由肿瘤细胞、成纤维细胞、免疫细胞、各种信号分子和细胞外基质及特殊的理化特征等共同组成,肿瘤微环境显著影响着肿瘤的诊断、生存结局和临床治疗敏感性。其中免疫浸润也是近几年肿瘤研究的一个重要方向。

所以我们要清楚一个概念那就是肿瘤组织中并不是100%的细胞是肿瘤细胞,不同肿瘤组织的微环境都有着各自的特点。

那么简单肿瘤组织中存在着那么多不同类型的细胞,但是传统的转录组混池测序方法(也叫Bulk RNA-seq)是将组织整体的RNA表达水平进行检测,我们并不能有效区分究竟哪些细胞表达了哪些基因。

别怕!有一种算法叫反卷积分析,英文名叫Deconvolution。如上图所示,以CIBERSORT这种算法为例,生信开发人员可以先通过预设一个优秀的数据训练集(训练集主要包含了每种不同免疫细胞的基因表达特征),然后通过反卷积算法推算出这个整体样本中究竟有哪些免疫细胞。

目前已公开发表的在线数据库中,包括TIMER、CIBERSORT、ImmuneCellAI、ABIS、EPIC等,通过机器学习和反卷积算法对样本中各类免疫细胞的免疫浸润情况进行分析。

今天我们着重来介绍下其中一款作为优秀的在线数据库CIBERSORT。这款由斯坦福大学开发的在线数据库,2015年就发表了在了Nature Methods上,目前引用次数接近800次。

目前CIBERSORT没有本地版本只能在网页端运行。如果网速不行的小伙伴强烈建议使用VPN或翻墙手段。

CIBERSORT之所以优秀是因为在诸多免疫浸润数据库中,它基于线性支持向量回归(linear support vector regression)的原理进行反卷积分析,所提供的免疫细胞类别较为全面,有将近22种不同的免疫细胞,而且操作及其简单粗暴。当然这边CIBERSORT的作者又在2019年,根据前面的CIBERSORT基础上开发了CIBERSORTx,功能更为强大,我们后期会为大家介绍。

现在还是先让我们一步步带领大家如果在CIBERSORT上进行操作。提示:如果没有CIBERSORT邮箱,可以到这里查看Cibersort共享账号:Cibersort共享账号

1
第一步,准备需要分析的文件
这里指的是表达谱矩阵文件,英文叫gene profling或matrix。 在Excel上显示格式如上图所示,第一行是表头,除了A1的Gene_name外,第一行B1到G1为样本名,这里以Sample_1做示例。 接下来除了第一列为基因名(也叫gene symbol)外,其余都是基因在该样本中的表达量。
保存格式推荐使用txt。 其中xlsx格式保存问题不大。 但是txt格式的保存操作中,每列必须是table键相隔,不能是空格。 具体操作方法是——
① 在excel全选内容后直接复制到一个空的txt文档中
② 直接在excel上点击另存为文本文件(制表符分隔)(*.txt),千万不能点击Unicode文本(*.txt)
错误格式1:用芯片探针ID号替换了gene name
上面2张图我们可以看到第一列或者说是A列,数字开头以at结尾以及用ENSG开头的显然不是基因名(gene symbol),目前数据库还没智能到直接识别芯片探针号或数据库ID号功能。这边给大家科普下,通常第一种数字+at结尾的是昂飞公司的Affymetrix的mRNA表达谱芯片上探针ID号,一个探针代表一个基因。而ENSG开头指的是著名的欧洲生物信息学中心Ensembl数据库Human基因对应的ID号,比如这边的ENSG00000037280对应的基因是FLT4,但是在线数据库能识别FLT4,这类属于gene symbol也叫gene name。同样的道理,FLT4这个基因对应昂飞芯片中探针ID号就变成了209946_at,但是你不能让数据库直接去识别209946_at。
错误格式2:表内有多余信息
表达谱矩阵文件里,只能有基因名对应在各个样本的表达量,不能有多余的其他信息,如基因的KEGG注释,两组相比的p值等
错误格式3:表达量为原始的counts,未经过归一化处理
 所使用的数据,强烈建议使用归一化后的数据,而最最原始的counts等,是不能直接用于后期分析的。 什么叫原始数据呢? 举个例子,样本1测了12G的数据,样本2测了2G的数据,基因A在样本1和样本2中的counts数全部是2000,但是显然基因A在两个样本中的表达量是不相等的,通过fpkm或TPM等归一化方式处理才能算作是表达量,即fpkm值才能算作是基因的表达量。 通过fpkm归一化处理后,基因A在样本1中表达量25,而基因A在样本2的表达量有170。 同样芯片也存在扫描后得到的raw value也叫原始值,这种是不推荐直接使用的。
2
第二步,登录CIBERSORT网(https://cibersort.stanford.edu/)和注册
上图就是CIBERSORT官网的首页,首先我们可以先点击register注册一个新的账号。这里需要注意的是,所注册的邮箱必须是edu结尾的,非edu结尾的邮箱一般情况是不允许注册的,或者只能申请商业化付费使用。由于注册邮箱的步骤大同小异,这边就不多做介绍了,下面我们直接进入下一步的分析步骤。
3
第三步,上传需要分析的文件
我们在网页上侧的Menu一栏里,下拉后会出现一排操作界面。 我们可以点击Upload Files,进行上传文件的操作
点击Upload files后我们进入了上传文件的操作界面,我们可以看到,CIBERSORT还是非常大方地给了我们约500MB的存储空间,理论上只要上传的文件总数量不超过500MB都是可以的。 而且CIBERSORT居然支持txt和xlsx两种格式,可以说这点考虑很周全。
但是我们还是 强烈建议使用制表符分隔的txt文档 会更好一些。根据我们多次实操经验来看,xlsx格式的文件会存在报错现象。
由于在前面我们已经上传了xlsx格式的文件,这边我们正式操作一个txt文档帮助了解下上传过程。 根据上图显示,点击绿色的Add files按钮,选中文件后就会出现这个界面。 Title不解释,自己可以任意命名。 File Type我们选择Mixture即可。 由于你提供的文件里,所有基因对应有多个样本,所以Mixture最合适,其他暂时不考虑。
这边稍微讲一下其他几个属性。 Signature Genes指的是
接下来点击蓝色的Start upload按钮后,出现了正在上传的界面,包括上传进度和上传网速等都会一一显示。
最后上传完毕后,你会看到同一个文件的两种不同格式txt和xlsx都显示出来了,当然点击Delete即可删除文件。 为了后面更好地演示大样本分析情况,我们这边又上传了一个有16组样本的测试数据。
4
第四步,进入免疫浸润分析参数设置
刚才我们只是上传了文件,CIBERSORT数据库并不是你上传完了文件即可直接进行分析的。 跟市面上其他分析网站不同的是,你只要上传的文件,理论上不删除可以一直重新分析,各种参数这种分析条件可以轮着来。
众所周知,许多数据库现在上传完的文件是立刻分析的,关闭网页你上传的文件就消失了,体验非常不好。 而CIBERSORT与那些妖艳jian货完全不同。
如上图所示,当我们重新回到CIBERSORT最初的界面,点击蓝色按钮Run CIBERSORT,就可以进入我们的分析前参数设置界面。
在进入上图的参数设置界面后,一共有7个地方我们需要注意。 我们会针对被CIBERSORT网站称之为Basic CIBERSORT Options的七个设置条件一一做详细解释。
绝对值指的是每种免疫细胞的绝对比例,例如整体免疫细胞所占比例为3%,那么22个主流的免疫细胞最后的绝对比值只有不到0.1%也是有可能的,但是相对模式最后比值相加很容易得到总和为1的结果。 不勾选的话,CIBERSORT默认只跑相对模式,所以这边我们并没有勾上。
关于第二个选项,Signature gene file,不多做解释,直接选择22种数据库中已集成的免疫细胞类型即可。 除非你很擅长做数据分析,也有很好的背景跟参考文件,否则就乖乖地选择LM22(22 immune cell type)即可。
第三个Mixture选项,我们由于前面已经上传了三个文件,这边选择16个样本的16_samples。 需要注意的是,这个界面无法直接上传你想要分析的数据,必须专门前往Upload界面才可以。
第四个Permutation,指的是分析上排列次数,我们选择默认的100。 理论上数字越大,最后运算的结果更准确。 第五个选项同样也在Permutation下方,Disable开头的一串英文,指的是本次运算数据是否不需要归一化处理。 由于我们上传的文件里,每个基因在各个样本中表达量已经进行了归一化处理,所以这边我们打算打√。 假如你的原始文件真的是counts,不会进行归一化处理,那么在分析的时候可以不把这个选项勾上。
接下来到了第六个选项Custom Signature Genes的时候,我们发现有一个Phenotype classes选项。 这边官方Manual文档给出的解释是,里面的样本如果有分组的话,实际上可以对属于同一组的样本进行归类,1属于同一组,2不属于同一组,0是忽略。 如果你无法进行分组可以无视该选项。
下图就是我们这次所设置的分组信息,一共五组分别是Normal、CIN1、CIN2、CIN3、Cancer。
还是在第六项中,我们会找到一个Advanced Options。 这里面的参数如果你不会特别明白最好不要轻易修改,直接按照网页上默认参数运行就行了。
最后第七个选项Example datasets,这边就不截图了。 当你还没有数据的时候,可以使用数据库中已经内置的一个示例数据,先用来分析下作为演示。
组后点击最下方的蓝色Run按钮就进入了分析界面
5
第五步,分析界面展示
当点击Run按钮后,进入了分析界面。 注意,这边网页是可以直接关闭的,到时候分析完毕的结果会单独发送Jobs Results一栏。 如果不关闭,会时刻显示分析的百分比进度条。
6
第六步,查看分析结果
如果刚才分析的进度条界面已关闭,没有关系。 一般不超过10分钟的时间就能分析完毕。 我们来到主页,通过Menu菜单下拉的Jobs Results一栏,点击进入,就能下载到我们先前所有的分析结果了。
上图显示的就是进入Jobs Results一栏后,所展示的全部分析结果。 有html格式,有pdf格式,还有txt格式等。 点击下载就可以查看分析结果了。
但是无论这些结果呈现形式如何,其实最核心的数据来源依旧是22种不同免疫细胞在该样本中所占比例的一个数值。 很多图都是根据这个数字来进行绘制的。 如上图所示,每个样本的每个细胞所占比例,数字一清二楚。
这个图就是官网上pdf和html显示形式,根据所占比例的数值,分成了不同颜色等级。
我们还可以利用联川生物云平台当中的柱形图,来实现堆叠图的展示。 结果如上图所示。
7
总结
CIBERSORT这个在线数据库是目前所有反卷积免疫浸润分析网站中,功能最为强大操作最为友好的数据库之一。 免疫细胞种类齐全,另外数据库每个账号提供的500MB的空间,满足了绝大部分医生的需求。 但是申请邮箱必须为edu理论上也限制了CIBERSORT的扩散程度。
当然这个数据库高峰期访问的时候极其不稳定,经常存在无法打开的情况,必须使用VPN才能进行正常操作。 目前来看,早晨6点-9点是数据库速度较快的时间段,操作比较流畅。
而数据库另一个缺点是,无法使用R Shiny部署到本地的服务器上,必须使用在线服务。 小编猜测可能这个课题组文章还没发够吧。 据说CIBERSORT以及升级版CIBERSORTx已经发了一篇Nature Methods和Nature Biotechnology了,引用率都相当高。

推荐阅读:

  1. Cibersort:肿瘤免疫浸润细胞在线分析工具
  2. CIBERSORT零代码分析免疫细胞浸润
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

利用CIBERSORT免疫细胞类群分析详细教程 的相关文章

随机推荐

  • linux 终端 删除,如何真正清除终端?

    问题描述 我可以发出clear命令或按Ctrl L清除当前的Ubuntu终端 但这只是向上移动以前的输出 如果使用鼠标滚动或PgUP和PgDown键 很难区分前一个命令的输出结束和输出当前命令开始 有没有办法真正清除终端 所以我不会看到以前
  • GOOGLE开发者工具之CONSOLE

    代码调试 我们可以用console来调试js代码 有图有真相 我的代码执行到161行 如果想打印下 result 我就可以在Console中进行调试 输入代码 alert result result 回车即可 即可弹出result的结果 或
  • 需要使用新应用以打开此steam链接_Steam加好友的N种方法,完美解决教程

    Steam好友打不开 网络无法访问 不知道好友代码是什么在哪里 到底怎么样才能加上正确的好友 这里全部你一一解答 steam好友页面打不开 网络无法访问 很多人可能发现不论是手机端还是客户端都会发生steam社区打不开的情况 其实steam
  • power bi公式运用

    从原有的表中提取数据 生成新的表格 从销售数据汇总表中提取日期成本 生产新的销售成本表 其中 成本 相当于在新表中的名称 沿用旧表表头 销售成本表 SUMMARIZE 销售数据汇总 销售数据汇总 日期 成本 SUM 销售数据汇总 成本 自己
  • 字符串最长重复连续子串

    比如字符串aaaabbbcddc 因为aaaa最长 返回4 本题是面试遇到的真题 需要熟练手写 String数组中 top3的字符与出现的次数 如ababc 输出 a 2 b 2 c 1
  • TCP是如何传输数据的?

    做IT相关的工作 肯定都离不开网络 网络中最重要的协议是TCP 无论是实际工作还是笔试面试 你看哪里能少得了TCP 我考过RFC中与TCP相关的文档 也看过Linux中与TCP相关的源码 也看过不少框架中的TCP相关的代码 对TCP是有点感
  • jq 中如何调用vue的方法

    jq 中如何调用 vue的方法
  • vs2019下内存泄漏检测工具VLD(Visual Leak Detector)的使用

    前言 我们在c 程序开发中经常在使用指针时 会出现内存泄漏的情况 但是很多时候很难定位到是哪个指针出问题了 这时候就需要内存泄漏检查工具 其中比较好用的就是 VLD Visual Leak Detector 下载 VLD下载地址 安装完成后
  • 【华为OD机试c++/java/python】称砝码【 2023 Q1 A卷

    题目描述 现有n种砝码 重量互不相等 分别为 m1 m2 m3 mn 每种砝码对应的数量为 x1 x2 x3 xn 现在要用这些砝码去称物体的重量 放在同一侧 问能称出多少种不同的重量 注 称重重量包括 0 数据范围 每组输入数据满足 1
  • [机缘参悟-65]:《兵者,诡道也》-7-三十六计解读-败战计

    目录 前言 第1章 三十六计 概述 第六套 败战计 第三十一计 美人计 第三十二计 空城计 第三十三计 反间计 第三十四计 苦肉计 第三十五计 连环计 第三十六计 走为上计 前言 兵者 诡道也 兵者 道 的部分 是 道 的另一面 如果 天道
  • Box2D射线和AABB碰撞检测

    box2d使用了一种叫做slab的碰撞检测算法 所谓slab是指两个平行平面之间的空间 由此我们可以把3D空间中的AABB盒子看做是由AABB的3组平行面形成的3个方向的slab的交集 根据这个定义 我们可以得到以下两个结论 1 如果一个点
  • mysql启动报错:Starting MySQL... ERROR! The server quit without updating PID file

    mysql启动时报错 Starting MySQL ERROR The server quit without updating PID file opt mysql data mysql pid 的解决方法 1 可能是 opt mysql
  • [MySQL]一文带你学明白数据库控制语言——DCL

    前言 嗨咯 小伙伴大家好呀 好几天没见了 周末过得怎么样啊 之前学过的SQL语句不会都忘了吧 如果忘了的话大家可以看一下前几期的文章 本期要学习的是SQL语句中的数据库控制语句 DCL 学习完毕之后MySQL中的SQL语句也就结束了 数据库
  • [388]码云使用说明

    码云如何上传项目 码云上传项目 需要3个步骤 在码云网站建立一个空项目 把这个空项目拉到本地 把自己的项目放到这个空项目里面并提交 1 在码云的页面 点击右上角的加号 2 选择新建项目 3 在跳转的页面简要填写项目信息 除了名称和路径 其它
  • 使用HttpClient下载网页

    Httpclient是一个非常好用的第三方库 用于网络编程 可以用来做个爬虫程序什么之类的 安卓中内置的网络编程库就是httpclient 下面就可大家介绍介绍怎么使用httpclient下载新浪首页的源代码 其过程就是首先构建一个http
  • python怎么调用文件_Python如何调用m文件

    Python如何调用m文件 一 安装Python 并正确配置环境变量 matlab2016a只支持python2 7 python3 3 python3 4 python3 4以上版本不支持 推荐学习 Python教程 二 安装Matlab
  • CSS中如何实现一个自适应正方形(宽高相等)的元素?

    聚沙成塔 每天进步一点点 专栏简介 利用 padding 百分比 2 利用 before 伪元素 写在最后 专栏简介 前端入门之旅 探索Web开发的奇妙世界 记得点击上方或者右侧链接订阅本专栏哦 几何带你启航前端之旅 欢迎来到前端入门之旅
  • cocos2dx中的内存加载PLIST

    今天 加载图片时有问题 myButtonPList loadTextures jineng 02103 png jineng 02103 light png jineng 03101 png UI TEX TYPE PLIST myButt
  • 时间趋势可视化-柱形图

    第1关 大胃王 比赛数据柱形图绘制 绘制柱形图的基本步骤 本关任务 根据实训提供的 大胃王 比赛数据绘制柱形图 熟悉柱形图绘制的基本步骤 coding utf 8 import pandas as pd from matplotlib im
  • 利用CIBERSORT免疫细胞类群分析详细教程

    利用CIBERSORT免疫细胞类群分析详细教程 现在最火的组学技术是什么 无疑便是单细胞测序了 通过单细胞测序 科研人员可以获得比原来更为精细的细胞图谱 但是单细胞测序诸多限制条件 也是不能让大家很好地利用这项技术解决自己的科学问题 除了较