使用CNN预测基因可及性

2023-11-08

使用CNN预测基因可及性

对于要转录的基因,转录因子蛋白必须能够访问它们才能与DNA结合。遗传密码中的突变会极大地改变DNA的可及性,进而影响基因表达。了解这些突变如何扰乱遗传机制可以导致更有针对性的医学和个性化治疗。但是,当前无法有效解释基因组中的非编码变体减慢了这一进展。在“ Basset:使用深度卷积神经网络学习可访问基因组的调控代码”中,作者通过实现一个卷积神经网络来从序列数据中学习DNA的活性和可访问性,从而解决了这一挑战。

他们的CNN使用了三个卷积层,分别使用了整流线性单元(ReLU)和最大池,之后是两个完全连接的隐藏层。最后,单个S形变换层提供模型的输出。使用来自164个不同细胞系的DNAse-Seq数据训练模型。如“深度学习中的生物学数据”部分所述,DNAse-Seq数据通过用酶DNAse I裂解来捕获可访问的DNA。数据是从ENCODE项目联盟和路线图基因组学联盟收集的。输入由至少一个细胞系中出现的序列周围的600个碱基对组成。该序列以一键向量格式编码,并用于输入。输出是长度为164的向量,该向量预测在每个细胞系中可访问序列的可能性。

训练后,该模型的性能优于基于支持向量机模型的最新方法。当从DNA序列学习模式时,这支持了CNN模型的优势。

然后,作者试图通过分析第一卷积层的内核权重来解释其模型的各个部分。通过分析巴塞特第一卷积层的300个滤镜,作者注意到滤镜捕获了大量已知的带注释主题。这些特征图捕获的另一件事是高GC富集的许多区域,表明了潜在的CpG位点。基因的转录起始位点通常具有CpG位点来控制调控。当这些区域被高度甲基化时,DNA变得更难获得并且基因被下调。否则,如果该位点没有被高度甲基化,则转录因子可以与DNA结合并允许转录发生。这些特征图的另一个有趣发现是尚未注释的新型潜在图案。

作者通过采用训练有素的模型并将单个核苷酸更改为不同的核苷酸,从而观察DNA的可及性变化,从而扩大了这项研究的范围。基于可访问性的最大可能减少和最大可能增加,基于训练后的模型如何对更改后的序列评分,分配损失得分和收益得分。他们可以从这些数据中推断出单核苷酸多态性(SNP)突变对序列的影响。高增益得分可以表明,如果突变允许某个基因更易于访问,则该突变可能导致功能获得。另一方面,高丢失评分可能表明突变会导致功能丧失,从而使DNA的可及性降低,基因调控可能降低或消失。这个实验饱和诱变可能需要很长时间才能在湿实验室中进行,因为必须为每个位置的每个突变都制备一个寡核苷酸。他们的模型仅需几分钟即可进行计算机饱和诱变

作者使用获利和损失得分,整合了来自基因组广泛关联研究(GWAS)的数据,这些数据通常用于识别导致疾病或其他表型改变的非编码变异。他们相信,利用他们的预测,他们可以鉴定出GWAS发现的非编码DNA区域中的SNP,这些区域对于未来的研究最有希望。为了测试这一点,他们将模型的损失和收益得分与已经注释过的因果GWAS SNP进行了比较。特别是,他们表明已知的白癜风突变被赋予了非常高的增益分数,这种突变是在一个基因沙漠中发现的,该基因是来自受影响基因的数百万个碱基对。从T到C的突变为称为CTCF的主转录因子创造了一个基序。已知该转录因子用于改变基因组区域的物理结构。

最后,作者希望证明预训练的模型可以有效地预测新数据集。为此,他们从训练过程中删除了15个细胞系,并训练了CNN模型。然后,对于它们删除的其余15个数据集,从训练集中抽取了相等数量的样本作为负样本。他们表明,使用此预训练的模型作为起点,可以使用此数据对任何将来的CNN模型进行更快的训练(单次通过)。

在本文中,作者证明了CNN模型可以准确地预测DNA的可及性,并可以用来发现控制DNA的可及性的关键核苷酸。与以往任何方法相比,作者能够以更高的分辨率识别非编码变体和关键SNP,因此他们的模型可以导致对重要的非编码变体和所涉及的SNP进行更多的识别,并将这些非编码变体链接在一起。编码疾病或生理表型的变体。

 

参考

Kelley DR,Snoek J,Rinn JL。巴塞特(Basset):使用深度卷积神经网络学习可访问基因组的调控代码。基因组研究。2016; 26(7):990-999。doi:10.1101 / gr.200535.115。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用CNN预测基因可及性 的相关文章

随机推荐

  • URL地址 问号传参解析

    一 什么是URL参数 URL 参数是追加到 URL 上的一个名称 值对 参数以问号 开始并采用 name value 的格式 如果存在多个 URL 参数 则参数之间用一个 符隔开 有时还会有 二 为什么需要解析url的参数 面试问过 三 如
  • 在Matlab中安装LibSVM工具箱

    一 LibSVM工具箱下载 工具箱下载地址 https www csie ntu edu tw cjlin libsvm 往下拉找到Download LIBSVM 点击zip file下载压缩包 1 1 官网下载的数据包中没有Matlab对
  • @PutMapping、@PatchMapping、@DeleteMapping解析

    PutMapping PatchMapping DeleteMapping解析 1 PutMapping put请求是从客户端向服务端发送数据 但与post不同的是 put真正的目的其实是执行大规模的替换操作 而不是更新操作 假如 我们有一
  • [攻防世界]crypto新手练习区Caesar

    攻防世界 crypto新手练习区Caesar Caesar最佳Writeup由Um0 Umo 提供 难度系数 1 0 题目来源 poxlove3 题目描述 你成功的解出了来了灯谜 小鱼一脸的意想不到 没想到你懂得这么多啊 你心里面有点小得意
  • 数据结构常见算法可视化演示网站

    https www cs usfca edu galles visualization Algorithms html
  • MQ消息队列的重复消费问题的通用解决办法以及幂等性的原理

    详细介绍了MQ消息队列重复消费的原因 以及通过保证幂等性来避免重复消费带来的问题 文章目录 1 至少一次 2 重复消费的原因 3 幂等性处理重复消费 1 至少一次 消息领域有一个对消息投递的QoS定义 Quality of Service
  • elasticsearch 索引重命名

    参考 elasticsearch 索引重命名
  • linux内核的自旋锁spin_lock和互斥锁mutex_lock

    访问共享资源的代码区域称作临界区 自旋锁 spin lock 和互斥锁 mutex lock 是保护内核临界区的两种基本机制 我们逐个分析 自旋锁可以确保在同时只有一个线程进入临界区 其他想进入临界区的线程必须不停地原地打转 直到第1个线程
  • redis与Mysql数据同步

    把表中经常访问的记录放在了Redis中 然后用户查询时先去查询Redis再去查询MySQL 实现读写分离 也就是Redis只做读操作 由于缓存在内存中 所以查询会很快 对于一个sql语句格式的数据请求 首先计算该语句的MD5并据此得到结果集
  • 剑指 Offer 07. 重建二叉树 -- 递归

    0 题目描述 leetcode原题链接 剑指 Offer 07 重建二叉树 1 递归解法 二叉树前序遍历的顺序为 先遍历根节点 随后递归地遍历左子树 最后递归地遍历右子树 二叉树中序遍历的顺序为 先递归地遍历左子树 随后遍历根节点 最后递归
  • 一文讲清电商商品库存分析!

    来源 数据取经团 大家好 我是小z 本篇文章主要分享商品库存的一些方法 主要按照以下流程进行行文 阅读完本文大概需要15分钟 库存核心指标 库存结构分析 常见分析方法 特殊库存结构 背景 库存管理 是供应链管理的基础 是一个电商公司的核心能
  • 别只用UC浏览器了,这5款体验更好的浏览器,满足你的所有想象

    不知道大家都用什么手机浏览器 是自带的浏览器 还是UC浏览器 百度 谷歌等老牌浏览器 如果这些浏览器带来了体验感不佳 用的流量多 卡慢等问题 那么 你可以尝试一下接下来介绍的5款浏览器了 这5款浏览器能够满足你的所有想象 好用 速度快 无广
  • (14)树莓派B+使用L298N驱动控制四驱车并实现一个简单的web控制端

    在系列文章第12篇中提到了L298N 它是H桥双路直流电机驱动 可以使双路直流电机实现正转或者反转 并且通过ENDA和ENDB输入PWM信号 还可以实现加减速 本文用2块L298N驱动板成功驱动了4个直流电机 实现了4轮同时向前 向后以及前
  • HTML中文样式

    http jingyan baidu com article 915fc414f2d3e651384b204b html 例1 小米米官网 font family Arial Microsoft YaHei 黑体 宋体 sans serif
  • anaconda、python3.6、tensorflow1.13.0、cuda10.0和cudnn7.5.0的安装

    1 下载和安装anaconda 1 anaconda下载 从清华大学镜像下载 Tsinghua Open Source Mirror 2 anaconda安装 打开下载的 Anaconda 文件 如图 点击Next 点击 I Agree 选
  • [GCC学习]get the optimized function call graph

    当GCC以优化方式编译代码的时候 它会执行Dead Code Elimiation DCE 就是把那些源代码中定义但是却从未调用到的函数从中间目标文件中去掉 o文件 例如下面这段代码 include
  • QQ、手机号、微信、身份证、邮箱正则验证

    QQ正则验证 查了下 现在QQ的长度最长是10位数 验证格式为不以0开头的5 10位数字就可以了 var reg 1 9 d 4 9 reg test 0123456 false reg test 10000 true 手机号验证 验证第一
  • 教你一步步搞定win7环境下RobotFramework的环境搭建

    一 安装Python 官网 https www python org 因为Robot Framework框架是基于Python语言开发的 所以这个是前提 注意事项 1 需要选择Python2 2 安装Python2 7 9 Python3
  • XML中的Schema

    XML中的Schema 对于 Schma 这个词我们可能了解得很少 但其实我们经常会用到 比如在Spring的配置文件中 在SpringMVC的配置文件中 一般我们创建一个Spring的配置文件都会在文件头写一段配置 比如Spring的配置
  • 使用CNN预测基因可及性

    使用CNN预测基因可及性 对于要转录的基因 转录因子蛋白必须能够访问它们才能与DNA结合 遗传密码中的突变会极大地改变DNA的可及性 进而影响基因表达 了解这些突变如何扰乱遗传机制可以导致更有针对性的医学和个性化治疗 但是 当前无法有效解释