p-value,q-value,FDR

2023-11-11

  • 假阴性错误(false-negative errors): 高水平的基因可能偶尔没有检测到

  • 假阳性错误(false-positive errors): 低水平表达的基因由于扩增偏差,可能显得过于丰富,导致假阳性错误

  • 错误发现率(False Discovery Rate,FDR):事先犯I-型错误的最大概率,控制FDR值来决定p值的值域,FDR用比较温和的方法对p值进行了校正。其试图在假阳性和假阴性间达到平衡,将假/真阳性比例控制到一定范围之内https://www.omicsclass.com/article/28

  • P and q values in RNA Seq

    The q-value is an adjusted p-value, taking in to account the false discovery rate (FDR). Applying a FDR becomes necessary when we’re measuring thousands of variables (e.g. gene expression levels) from a small sample set (e.g. a couple of individuals). A p-value of 0.05 implies that we are willing to accept that 5% of all tests will be false positives. An FDR-adjusted p-value (aka a q-value) of 0.05 implies that we are willing to accept that 5% of the tests found to be statistically significant (e.g. by p-value) will be false positives. Such an adjustment is necessary when we’re making multiple tests on the same sample


一、P值和q值的定义

P值(P-value)
       即概率,反应某一事件发生的可能性大小。统计学根据显著性检验方法得到的P值,通常以P<0.05为显著,P<0.01为极显著,其含义为:抽样误差导致的样本间的差异的概率小于0.05或0.01。
     根据定义,P值可简单理解为判断结果的“出错率(即假阳性比率,假阳性:不是样本本身有差异,是其他原因(比如抽样)导致的检测结果有差异)”。

q值
       q值(q-value)是p值校正后的结果。可定义为:多重假设检验过程中,错误拒绝(拒绝真的原假设(零假设))的个数占所有拒绝的原假设个数的比例的期望值(也是代表出错率)。   

总结:   p-value和q-value是统计学检验变量,衡量“假阳性概率”,应用到基因检测结果中,可衡量“某个基因差异表达的假阳性概率”,代表差异显著性,小于0.05代表结果有差异。
        如果p-value或q-value/越低,那么“该基因差异结果”是假阳性的概率就越低,可靠性就越高。
        q-value相比于p-value更加严格,当差异基因结果较少时,可退而求其次根据p-value筛选。
        当然,用q值筛选可能会过滤掉少部分真的有差异的基因,所以,q值是个双刃剑。但,相比绝大部分基因的假阳性,以及真阳性被滤掉的小概率,这部分的真阳性的丢失也不是很重要了。
        https://zhuanlan.zhihu.com/p/59731307

二、 为什么差异结果可能存在假阳性?

 举个例子,如下:
        一个胖子一个瘦子,哪个更重?如果让普通人做判断:“这不废话吗,当然是胖子重了。”但,如果让一个严谨的统计学专家做判断,他会说,“这必须要有证据来做判断”。于是,统计学家拿来一个电子秤,把胖瘦两人各称了一遍。结果是:50kg vs 90kg。
        但,专家还是不放心:“虽然从检测结果来看两者有差异,但这个可能是真实差异,也可能是我看走眼、电子秤不稳定… …”。总之,必须要把误差因素考虑上才可以。
        于是,接下来就是多次测量求平均值、t检验,非把犯错的概率P value 算出来才放心。“90.3 > 50.0,P<1.0E-10,”这个结果的含义是:胖子重,而且我看走眼的概率是十亿份之一(假阳性的概率是1.0E-10)”。
        在任何一个严谨的科学测量中,判断两个数值是否有差异,必须要考虑这个差异可能来源两个方面:可能是真实的差异,也可能来自检测误差。
        一般的显著检验的目的,就是计算出观测到的差异来源于随机误差的概率,这样才能评判“结论是否可靠”。例如,通常说的P value(E value是blast中一种特殊的p value)小于1%,代表“做出的判断(胖子比瘦子重)是错误的概率是1%(即假阳性率,False positiverate)”。虽然可能犯错,但犯错是小概率事件,我们就忍了吧,于是接受了这个判断。(类似,上街都可能遭遇车祸,因为是小概率事件,所以,我们也就忍了……)。

三、为什么要进行校正?

        但是,在很多科学实验中,我们要做多次判断。例如,我们要判断两组样本的10000个基因的表达量是否存在组间差异:基因A是否有差异?基因B是否有差异?基因C是否有差异?….. ,如此下去,我们要进行10000次判断。如果以p value=1% (假阳性的概率是1%)作为阈值,并假设每次判断都是彼此独立的,那么即使这10000个基因实际上都没差异,也可能得出有100个差异基因的结论(100=10000*1%,阳性结果的错误率(FDR值)为100%,下文会讲到)。
        也就是说,一个小效率事件在多次反复尝试后,变成了一个多次出现的事件。也就是俗话说的,“常在河边走,哪有不湿鞋”。举个极端的例子,虽然扎针患艾滋病的概率很低,但是,普通人去医院检查偶尔扎针,和经常注射吸毒人相比,哪个感染艾滋病的概率更高?
        假如10000个基因中有100个基因是真正有差异的,在 p value=1%的阈值下,可能会得出199个基因有差异的结论(为什么是199个?真正有差异的100个基因 + 错误判断得出的99个假阳性基因。阳性结果的错误率,即FDR值约为50%(=99/199)。
        此结果表明,在进行多次检验后(即多重检验,multiple test),基于单次比较的检验标准变得过于宽松,使得阳性结果中的错误率(FDR值)已经大到令人不可忍受的地步。
        那怎么办?提高判断的标准(qvalue),单次判断的犯错概率就会下降,那么总体犯错的概率也将下降(类似,在多次相亲中,你可通过提高标准来减少看走眼的概率)。在多重检验中提高判断标准的方法,就是统计学里经常提到的“多重检验校正”。

四、 矫正方法

  1. 最简单严厉的方法要属Bonferroni校正。

      举例:判断10000个基因是否有差异时,单次比较判断的出错率p value=1 %,判断10000次,犯错的次数就是100次,将p value进行校正,提高其阈值,怎样提高?1% / 100000 = 10-6(10的负6次方)。即,用原来的P值除以比较的次数,1万个基因要比较1万次,就用1% 除以10000,整体假阳性次数被控制在0.01次(1×10-6✖️10000次),最终使得预期犯错误的次数不到1次,抹杀了一切假阳性的概率。
      Perfect,滴水不漏,管控够严了。但有一个问题,标准定太高了,导致最后找不到显著表达的蛋白,如果一些基因真的存在表达差异,也很有可能达不到我们的阈值标准,被误判为没有差异,这就是假阴性率提高了(类似如果相亲标准定太高了,也可能会导致我们错失本来合适的另一半)。
      其他参考资料:https://wenku.baidu.com/view/c0008226a58da0116d17492e.html
    
  2. 于是,各路统计学的大侠设计了各种折中的方案。

     目前在RNA-seq结果分析中,应用最广泛的是Benjamini andHochberg在1995年第一次提出的FDR(FalseDiscoveryRate)的概念以及相应的多重检验校正方法(这个非参数的方法简单、粗暴、实用,谷歌学术显示此文章被引用了21670次,神一般的文章)。
     其出发点就是基于Bonferroni的保守性,给出了控制FDR的方法(这是FDR控制方法的祖师爷了),努力在假阳性和假阴性间达到平衡。FDR本质是一种控制阳性结果中的假阳性率的思路,其将假/真阳性比例控制到一定范围之内。
     举例:判断10000个基因是否有差异,设定的阈值为FDR值<5%,意味着:无论得到多少个差异蛋白,这些差异蛋白中出现假阳性的概率保持在5%之内,这就叫FDR<5%。
     
    那么,怎么从p value 来估算FDR?
     举例:Benjamini andHochberg对p值进行多重检验校正的过程实际上非常简单,总结起来就2句话,如下:
     1.  当同一个数据集有n次(n>=2)假设检验时,要做多重假设检验(multipletesting)校正,改进其对假阳性估计的保守性。
     2. BH校正是对每个p-value做校正,转换为q-value。q=p*n/rank,其中rank是指p-value从小到大排序后的次序。(Bonferroni校正,是简单地将p-value的cutoff除以n,然后整体都采用这个标准,没有针对每一次比较的p值进行区分对待。)
    

举个具体的实例:

     检测了M个基因在A,B,C,D,E一共5个时间点的表达量,求其中的差异基因,具体做法:
     (1)首先做ANOVA,确定这M个基因中有哪些基因至少出现过差异
     (2)5个时间点之间两两比较,一共比较5*4/2=10次,则多重假设检验的比较次数n=10
     (3)每个基因做完10次假设检验后都有10个p-value,对这10个p值进行校正,得到q-value
     (4)根据q-value判断在哪两组之间存在差异
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

p-value,q-value,FDR 的相关文章

  • 统计学1:基本知识——均值、方差、标准差

    总体 Population 抽样 Sample 均值 mean i
  • 标准化与标准计分

    其实就是衡量 含金量 的一种方法 标准计分其实就是 距离 标准差 貌似和离差很像 离差就是 距离 标准差 10 50 对于分数来说 如果与平均分的距离越大 含金量就越高呢 在组数据中 可以求分均值 中位数以及标准差了 以考试成绩为例 现在
  • 参数显著性检验的p值小于显著性水平不等于其具有经济学意义

    在做简单线性回归或者多元线性回归时 如何评估参数的统计意义和经济意义是我们研究问题的两个重要方面 理论意义和经济意义是如何显示在数字上的呢 以下是笔者在做相关或者线性回归课题时学习整理出来的 在此分享记录 参数的t统计量足够大 或者p值足够
  • 期望、方差、协方差与相关系数

    1 利用切比雪夫不等式可以证明方差为0意味着随机变量的取值集中在一点上 2 从协方差可以得到两个变量增减的趋势 称为相关性 3 不相关 比 独立 更弱的概念 独立 必导致 不相关 不相关 不一定导致 独立 4 相关系数是相应标准化变量的协方
  • 什么是结构因果模型

    结构因果模型 结构因果模型简介 定义 历史 因果关系之梯 关联 干预 反事实 因果 因果和相关 类型 必要因 充分因 促成因 模型 因果图 模型元素 连接方式 链 叉 对撞 节点类型 中介变量 混杂因子 工具变量 孟德尔随机化 关联 独立性
  • 小白学统计

    小白学统计 面板数据分析与Stata应用笔记 一 文章首发于公众号 如风起 原文链接 小白学统计 面板数据分析与Stata应用笔记 一 面板数据分析与Stata应用笔记整理自慕课上浙江大学方红生教授的面板数据分析与Stata应用课程 笔记中
  • 对数学期望、方差、协方差、协方差矩阵的理解

    参考 概率论与数理统计 浙大 关键词 数学期望 数学期望的性质 方差 标准差 方差的性质 协方差 相关系数 协方差矩阵 数学期望 变量分布的中心 数学期望也叫期望 或者均值 E X 完全由X的概率分布决定 若X服从某一分布 也成E X 是该
  • shell中for循环变量常见使用场景

    shell中for循环变量常见使用场景 1 目的 在shell脚本for循环使用过程中经常出现非常规使用场景 如在awk的条件语句中 输出文本中变量后有字符等 这些场景中需要对for循环中的变量做处理 希望持续完善 2不同场景 2 1 变量
  • 混合模型简介与高斯混合模型

    高斯混合模型 混合模型概述 In statistics a mixture model is a probabilistic model for representing the presence of subpopulations wit
  • 权重确定方法之主成分分析法

    什么是权重呢 所谓权重 是指某指标在整体评价中的相对重要程度 权重越大则该指标的重要性越高 对整体的影响就越高 权重要满足两个条件 每个指标的权重在0 1之间 所有指标的权重和为1 权重的确定方法有很多 这里我们学习用主成分分析确定权重 一
  • 时间序列算法Prophet代码实现——以天气预测模型为例

    最近在做销售量预测模型相关的项目 重新拾起时间序列算法 包括AR 自回归模型 MA 移动平均模型 ARIMA 差分回归移动平均模型 等 综合预测效果想要特别记录时间序列中的Prophet算法 操作简单 效果显著 一 算法简介 Prophet
  • p-value,q-value,FDR

    假阴性错误 false negative errors 高水平的基因可能偶尔没有检测到 假阳性错误 false positive errors 低水平表达的基因由于扩增偏差 可能显得过于丰富 导致假阳性错误 错误发现率 False Disc
  • R数据分析:方法与案例详解--自学笔记

    TOC 目录 第二章 数据结构与基本运算 2 1 数据类型 数值型 numeric 整数 小数 科学数 字符型 character 夹杂单引号或者双引号之间 MR 逻辑型 只能读取T TRUE 或 F FALSE 值 复数型 a bi 原始
  • 样本的均值和方差的无偏估计与测试阶段均值方差的关系

    什么是无偏估计 估计是用样本统计量 可以理解为随机抽样 来估计总体参数时的一种无偏推断 无偏估计的要求就是 估计出来的参数的数学期望等于被估计参数的真实值 所以呢 可以看出 估计值也是一个变量 因为是随机的嘛 真实值谁也不知道啊 因为你不可
  • 如何判断一组数据是否符合正态分布呢?

    在很多模型及假设检验中都需要满足一个假设条件 数据需服从正态分布 这篇文章主要讲讲如何判断数据是否符合正态分布 主要分为两种方法 描述统计方法和统计检验方法 判断一组数据是否为正态分布的方法 描述统计方法 Q Q图 P P图 直方图 茎叶图
  • 高斯混合模型的终极理解

    高斯混合模型GMM是一个非常基础并且应用很广的模型 对于它的透彻理解非常重要 网上的关于GMM的大多资料介绍都是大段公式 而且符号表述不太清楚 或者文笔非常生硬 本文尝试用通俗的语言全面介绍一下GMM 不足之处还望各位指正 首先给出GMM的
  • 方差分析 / 主成分分析 / 因子分析 / 聚类分析

    一 方差分析 水平 因素的不同状态 分组是按照因素的不同水平划分的 因变量 在分组试验中 对试验对象所观测记录的变量 它是受各因素影响的变量 常见的方差分析类型 单因素方差分析 多因素方差分析 单因素方差分析 是指检验由单一因素影响一个因变
  • 【数学建模笔记 24】数学建模的时间序列模型

    24 时间序列模型 定义 时间序列是按时间顺序排列的 随时间变化且相互关联的数据序列 分析时间序列的方法构成数据分析的一个重要领域 即时间序列分析 一个时间序列往往是以下几类变化形式的叠加 长期趋势变动 T t T t Tt 朝一定方向的变
  • 2021-05-03

    一 R中安装 phyloseq 的方法 很多网上的教程使用的都是 source https bioconductor org biocLite R biocLite phyloseq 但是我尝试了很多次 最后还是没有成功 下面能成功安装 p
  • haiku定义简单的模型并初始化参数

    Haiku 是一个基于 JAX 的深度学习库 旨在提供简洁 灵活且易于使用的 API 以构建和训练神经网络模型 import haiku as hk import jax import jax numpy as jnp 1 定义简单的二层神

随机推荐

  • Sharding-JDBC分布式事务之(五)BASE事务(Seata框架——AT模式的启动)

    Seata框架启动 Seata框架 AT模式的启动 1 服务中心为nacos方式启动seata 1 1 nacos启动与建表 1 2 registry conf 1 3 客户端 TM RM 配置 2 服务中心为file 直连 方式启动sea
  • springCloud微服务系列——分布式日志采集

    目录 一 简介 二 思路 三 自定义Logback appender 属性注入 Logback标签注入属性 Spring配置信息注入属性 Logback代码注入属性 Elasticsearch模板设计 示例代码 一 简介 分布式应用必须有一
  • [附源码]SSM计算机毕业设计基于web场馆预约管理系统JAVA

    项目运行 环境配置 Jdk1 8 Tomcat7 0 Mysql HBuilderX Webstorm也行 Eclispe IntelliJ IDEA Eclispe MyEclispe Sts都支持 项目技术 SSM mybatis Ma
  • Java的HttpServletResponse对象使用(请求和响应)

    一 学习目标 1 HttpServletResponse对象 2 HttpServletResponse应用 3 RequestDispatcher接口 二 重点知识 Servlet最主要的作用就是处理客户端请求 并向客户端做出响应 为此
  • 2021-10-04

    Centos 7安装Notepad 安装snap sudo yum install epel release sudo yum install snapd sudo systemctl enable now snapd socket sud
  • 使用TWRP Recovery刷入CM13等第三方ROM教程

    http www miui com thread 4492914 1 1 html 首先 可以使用论坛里发布的中文TWRP或者我改的http www miui com forum php mo page 1 pid124770869里的中文
  • 巧解高并发之消息压缩

    随着互联网的发展 高并发问题几乎是每个企业都会面临的问题 而目前解决高并发最受欢迎的便是微服务 通过类似于增加服务器数量而达到一种 人多力量大的 效果 而解决这类问题除了增加 人 的数量 还可以精简任务 降低繁琐度 那么目标就到了消息上 既
  • 量化投资学习——一些牛比的量化投资公司

    Jane Street Jane Street是华尔街最神秘的交易公司 以关注科技和股票交易而闻名 去年他们总交易额达到了5万亿美元 Jane Street公司成立于2000年 目前拥有600多名员工 每天股权交易量高达130亿美元 有消息
  • 多线程造成的资源以及系统状态问题 ==> 多线程造成状态混乱 :参考文章

    为什么80 的码农都做不了架构师 gt gt gt 实战体会Java多线程编程精要 在 Java 程序中使用多线程要比在 C 或 C 中容易得多 这是因为 Java 编程语言提供了语言级的支持 本文通过简单的编程示例来说明 Java 程序中
  • jeesite图片上传并显示

    前几天大哥叫我搞个这的需求出来 上传图片并展示出来 并且后台对图片进行裁剪上传 前端传来的图片是个base64的编码 格式的图片 点击新增 点击上传图片 可进行裁剪 然后上传并且展示出来 前端form页面附上 记住 path路径一定要对上
  • jmeter

    我整理了一下性能测试的一些常见指标 大家看看还有没有需要完善的 性能测试是评估系统在特定工作负载下的能力和可靠性的过程 常见的性能测试指标包括以下几种 1 响应时间 Response Time 系统从接收请求到返回响应所需的时间 2 吞吐量
  • 一文读懂运放规格书参数(2)

    1 电源抑制比 Power supply rejection ratio PSRR 定义 双电源供电电路中 保持负电源电压不变 输入不变 而让正电源产生变化幅度为 VS 频率为 f 的波动 那么在输出端会产生变化幅度为 Vout 频率为 f
  • IEEEE trans模板中怎么使用algorithm2e

    IEEEE trans模板中怎么使用algorithm2e 本文主要记录如何在IEEEE trans模板中使用algorithm2e 避免踩坑 找不到解决方案 目录 IEEEE trans模板中怎么使用algorithm2e 1 注释掉该注
  • 2003系统internet信息服务器,WindowsServer2003创建和管理Internet信息服务器.docx

    F图 F图 Windows Server 2003 实训报告 班级 软件设计10 2姓名学号得分 实训九 创建和管理In ternet信息服务器 实训目的 掌握Web FTP服务器的配置 实训环境 1 装有 Windows Server 2
  • pssh远程批量执行命令

    Pssh pssh是python写的可以并发在多台机器上批量执行命令的工具 它的用法可以媲美ansible的一些简单用法 执行起来速度比ansible快它支持文件并行复制 远程命令执行 杀掉远程主机上的进程等等 杀手锏是文件并行复制 当进行
  • 【Spring Boot】详解restful api

    目录 1 restful api 1 1 历史 1 2 内容 1 3 传参 2 Spring Boot中的Restful Api 1 restful api 1 1 历史 RESTful API Representational State
  • netty入门实例

    Netty 5用户指南 http ifeve com netty5 user guide Netty是一个NIO框架 使用它可以简单快速地开发网络应用程序 比如客户端和服务端的协议 Netty大大简化了网络程序的开发过程比如TCP和UDP的
  • PCL 获取格网最低点(C++详细过程版)

    格网最低点 一 概述 二 代码实现 三 结果展示 1 原始点云 2 滤波结果 一 概述 获取格网最低点在PCL里有现成的调用函数 具体算法原理和实现代码见 PCL GridMinimum获取栅格最低点 为充分了解GridMinimum算法实
  • Mysql binlog 日志

    Mysql binlog 日志 一 Binlog格式介绍 模式1 Row 日志中会记录成每一行数据被修改的形式 然后在slave端再对相同的数据进行修改 优点 row level模式下 bin log中可以不记录执行的sql语句的上下文相关
  • p-value,q-value,FDR

    假阴性错误 false negative errors 高水平的基因可能偶尔没有检测到 假阳性错误 false positive errors 低水平表达的基因由于扩增偏差 可能显得过于丰富 导致假阳性错误 错误发现率 False Disc