LDSC:连锁不平衡回归分析

2023-11-19

欢迎关注”生信修炼手册”!

LDSC全称如下

linkage disequilibrium score regression

简称LDSR或者LDSC, 在维基百科中,对该技术进行了简单介绍。通过GWAS分析可以识别到与表型相关的SNP位点,然而严格来讲这个结果并不一定真实客观的描述遗传因素对表型的效应,因为其结果是由以下两个因素共同构成的

  1. polygenic effects, 基因对表型的效应

  2. confounding factors, 混淆因素,比如群落分层,样本间隐藏的亲缘关系等等

尽管我们在GWAS分析中,可以通过协变量来校正群落分层等因素,但是混淆因素是无法完全消除的。为了保证分析结果的准确性,我们就需要评估GWAS分析结果中以上两个因素的占比,只有当混淆因素占比很低时,才能说明我们的分析结果是可靠的,此时我们就可以通过LDSC来探究这个混淆因素的占比。

LDSC本质是一个线性回归,其输入数据为GWAS的分析结果,回归的自变量为SNP位点的LD score值,因变量是该算法的核心,自定义的一个符合卡方分布的统计量,通过线性回归拟合LD score和卡方统计量的关系,从而判断GWAS分析结果中是否存在混淆因素。

首先来看下自变量LD score, 对于一个SNP位点,其LD score定义该位点与其邻近位点的连锁不平衡R2的总和,公式如下

对于一个SNP位点j, 取其邻近位点,通常是指定一个固定窗口,比如1CM遗传距离,计算该窗口内的其他位点与该位点的连锁不平衡情况下,用R2相加即得到了该位点的LD  score。然后再来看下因变量,公式如下

其中N为样本总数,M为窗口内的其他SNP位点数,是遗传力,这几个值为常数,从公式可以看出,卡方统计量和LD  score之间是一个线性关系,而且对应到图像上,其截距为1。上述公式是只考虑遗传效应的前提下得到,如果存在混淆因素,那么最后的截距就不是1了。

通过LDSC回归分析的截距,可以判断GWAS结果中是否存在混淆因素。如果截距在1附近,说明没有混淆因素,如果解决超过这个范围,说明有混淆因素的存在。同时公式中涉及到了遗传力,通过LDSC也可以评估遗传力的大小。
在下面这篇文章中,对LDSC进行了详细介绍

https://www.nature.com/articles/ng.3211

文章中通过模拟数据演示了LDSC的作用,如下图所示,左侧为存在群体分层时的QQ图,右侧为不存在混淆因素的QQ图

对于这两个GWAS结果,分别进行LDSC回归分析,结果如下

可以看到,存在混淆因素时,截距在1.3左右,而不存在时的,截距在1左右。

针对单个表型的GWAS分析,LDSC可以鉴定是否存在混淆因素,估计遗传力的大小;对于多个表型,则可以根据对应的卡方统计量,计算表型间的遗传相似度。

关于LDSC的分析,有一个同名软件,网址如下

https://github.com/bulik/ldsc

后续会详细介绍其用法。

·end·

—如果喜欢,快分享给你的朋友们吧—

往期精彩

  GWAS meta分析

  基因型填充

  CNV分析

  TCGA

  生存分析

  肿瘤数据库

  肿瘤免疫和新抗原

  Hi-C数据分析

  chip_seq数据分析

  motif

  chip_seq数据库

  18年文章目录

扫描下方二维码,关注我们,解锁更多精彩内容!

生物信息入门

只差这一个

公众号

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

LDSC:连锁不平衡回归分析 的相关文章

随机推荐

  • Typora快捷键大全

    1 字体编辑 1 1 大小 大小 ctr 数字 或 ctr 加减号 或 1 2 加粗 加粗 ctr b 1 3 倾斜 倾斜 ctr i 1 4 下划线 下划线 ctr u 1 5 删除线 删除线 alt shift 5 1 6 上标 上标
  • YOLOv8改进开源

    大致介绍一下AI全栈技术社区的相关内容 主要涵盖了YOLO全系列模型的改进 量化 蒸馏 剪枝以及不同工具链的使用 同时也涵盖多目标跟踪 语义分割 3D目标检测 AI模型部署等内容 具体内容小伙伴们可以参考下面的目录部分 所有内容均有答疑服务
  • 学习-Python字符串之格式化

    第1关 学习 Python字符串之格式化 任务描述 本关任务 给定一个列表 计算列表内所有数据标准差 结果保留小数点后 2 位 相关知识 为了完成本关任务 你需要掌握 的使用 format 的使用 Template 的使用 在之前的实训中
  • 数据分析01——Anaconda安装/Anaconda中的pip换源/jupyter配置

    0 前言 数据分析三大模块知识 numpy 数组计算 pandas 基于numpy开发 用于数据清洗和数据分析 matplotlib 实现数据可视化 1 Anaconda安装 安装Anaconda 注意安装路径不一定是c盘 但是安装目录不要
  • Python Excel操作模块XlsxWriter之写入worksheet.write()

    worksheet write wirte row col args 向工作表单元格写入普通的数据 参数 row 单元格所在的行 索引从0开始计数 col 单元格所在的列 索引从0开始计数 args 传递到子方法的附加参数诸如数字 字符串
  • 端口介绍

    文章来源 https m toutiaocdn com group 6680437870504706572 app news article timestamp 1563010542 req id 201907131735410100230
  • Linux lvm管理讲解及命令

    作者 小刘在C站 个人主页 小刘主页 每天分享云计算网络运维课堂笔记 努力不一定有回报 但一定会有收获加油 一起努力 共赴美好人生 夕阳下 是最美的绽放 树高千尺 落叶归根人生不易 人间真情 前言 目录 一 lvm管理 1 Logical
  • mysql sql优化方法_一个MySql Sql 优化技巧分享

    有天发现一个带inner join的sql 执行速度虽然不是很慢 0 1 0 2 但是没有达到理想速度 两个表关联 且关联的字段都是主键 查询的字段是唯一索引 sql如下 SELECTp item token p item product
  • 如何在小程序实现人脸识别的方法

    1 获取用户授权 在小程序中实现人脸识别需要先获取用户的授权 用户需要允许小程序访问他们的摄像头和图像数据 这样才能进行人脸识别 2 采集图像数据 在获得用户授权后 小程序可以通过摄像头或者相册功能 采集用户的面部图像数据 3 使用图像处理
  • Java-private构造方法

    private 构造函数一般用于Singleton模式 指的是整个应用只有本类的一个对象 一般这种类都有一个类似getInstance 的方法 class A public String name 构造函数限定为private 不可以直接创
  • 标准差(Standard Deviation), 标准误差(Standard error),变异系数 (Coefficient of Variance )的区别与联系

    标准差 Standard Deviation 中文环境中又常称均方差 是离均差平方的算术平均数的平方根 用 表示 标准差是方差的算术平方根 标准差能反映一个数据集的离散程度 平均数相同的两组数据 标准差未必相同 标准误差 Standard
  • 学习Flask之Flask-Login 用户会话管理

    Flask Login 用户控制用户会话管理 简单点说 就是控制登录 如果是自己写的登录系统 一般都是通过操作session 然后后台根据session 来判断权限 Flask Login 就是负责这部分 直接开始 安装 pip insta
  • System.Data.OracleClient 需要 Oracle 客户端软件 version 8.1.7 或更高版本

    同学的电脑连接实验室的服务器时出现 System Data OracleClient 需要 Oracle 客户端软件 version 8 1 7 或更高版本 而我自己的电脑可以轻松连接服务器的数据库 首先 实验室用的是Oracle 12c
  • 力扣 942. 增减字符串匹配 双指针解法C++

    给定只含 I 增大 或 D 减小 的字符串 S 令 N S length 返回 0 1 N 的任意排列 A 使得对于所有 i 0 N 1 都有 如果 S i I 那么 A i lt A i 1 如果 S i D 那么 A i gt A i
  • TensorRT(11):python版本序列化保存与加载模型

    TensorRT系列传送门 不定期更新 深度框架 TensorRT 文章目录 一 序列化保存模型 二 反序列化加载模型 三 完整代码 楼主曾经在TensorRT 7 python版本使用入门一文中简要记录了python版本是序列化与反序列化
  • 成为编程高手的二十二条军规

    1 大学生活丰富多彩 会令你一生都难忘 但难忘有很多种 你可以学了很多东西而难忘 也会因为什么都没学到而难忘 2 计算机专业是一个很枯燥的专业 但即来之 则安之 只要你努力学 也会发现其中的乐趣的 3 记住 万丈高楼平地起 基础很重要 尤其
  • 数据挖掘:数据(数据对象与属性类型)

    一 概述 现实中的数据一般有噪声 数量庞大并且可能来自异种数据源 数据集由数据对象组成 一个数据对象代表一个实体 数据对象 又称样本 实例 数据点或对象 数据对象以数据元组的形式存放在数据库中 数据库的行对应于数据对象 列对应于属性 属性是
  • WIN10下怎么找到MYSQL数据库中存储数据的位置。

    版权声明 本文为博主原创文章 遵循 CC 4 0 BY SA 版权协议 转载请附上原文出处链接和本声明 本文链接 https blog csdn net qq 36098284 article details 79841920 今天我想找到
  • C++中Template的用法

    模板 Template 指C 程序设计设计语言中采用类型作为参数的程序设计 支持通用程序设计 C 的标准库提供许多有用的函数大多结合了模板的观念 如STL以及IO Stream 函数模板 函数模板定义一族函数 template1 cpp i
  • LDSC:连锁不平衡回归分析

    欢迎关注 生信修炼手册 LDSC全称如下 linkage disequilibrium score regression 简称LDSR或者LDSC 在维基百科中 对该技术进行了简单介绍 通过GWAS分析可以识别到与表型相关的SNP位点 然而