Journal of Proteome Research

2023-11-10

题目:Improving Silkworm Genome Annotation Using a Proteogenomics Approach

期刊:Journal of Proteome Research

发表时间:June 28, 2019

DOI:10.1021/acs.jproteome.8b00965

分享人:张霞

 

内容与观点:

1、 文章研究概述

桑蚕是一种重要的经济昆虫,并作为鳞翅目模式昆虫用于基础研究。作者通过以往的研究发现,目前对于桑蚕的基因测序和组装研究已基本解决,在基因注释研究方面,基于ESTs和基因序列鉴定了277可变剪接类型;基于RNA-seq鉴定了1923可变剪接,58反式剪接;基于转录蛋白组学分析,发现3247 基因可能存在可变剪接,可见对基因的注释并不完全,同时有研究表明注释误差较大,误差主要发生在阅读框架,外显子界线的确定,可变剪接额类型,使得基因模型难于预测。同时,目前的分析预测软件也存在一定的错误率。作者认为,基于质谱的蛋白数据可以为蛋白编码基因提供直接证据,所以本文欲以蛋白基因组学方法试图对桑蚕的基因进行注释研究,并辅以转录蛋白质组学进行加以验证。本文以桑蚕不同发育时期的不同组织进行质谱检测,获得980万张谱图,通过与数据库比对,经由软件分析,共鉴定了1838新转录本和1593可变剪接基因;证实了14个不确定基因和10个跳跃外显子;校正了5074个现有基因和2581非转录区。

2、 实验流程

2.1 MS 数据

选用培养和野生桑蚕不同发育阶段的不同组织(后部丝腺PSG,中部丝腺,卵巢,睾丸,头部,大脑,前胸腺,食管下神经节,血淋巴,脂肪和胚胎)进行bottom-up分析,先进行SDS-PAGE,对蛋白进行分离,接着胶内酶解,用0.1%甲酸重悬用于LC-MS/MS上机,使用iTRAQ对PSG组织进行标记定量。

 

2.2 数据库构建和肽段鉴定

从Silk Genome Database Website 上下载蛋白数据库Silk PDB(14623),从NCBI上下载BmPDB(7859),构建数据库SilkGDB(B.mori genome的六帧翻译数据库)和SilkASDB(外显子-外显子连接肽段数据库)以及混合数据库(Silk PDB+SilkGDB和Silk PDB+SilkASDB),质谱得到的数据通过以上数据库进行搜索鉴定。参数设置时注意以下五点:①trypsin酶切设置:允许一个missed cleavage。② 肽段谱图错误容忍度为20ppm。③片段谱图中iTRAQ容忍度为0.02Da,其他为0.6Da。④固定修饰为半胱氨酸的脲基化;可变修饰为N端乙酰化,甲硫氨酸的氧化,谷氨酰胺和天冬酰胺的脱酰胺。⑤通过decoy库比对,以FDR为1% 过滤肽段。

 

2.3 基因注释工作流程

通过数据库搜索,定义GSSP为仅存在于SilkGDB数据库,而不存在于Silk PDB数据库。以GSSP用来修正基因注释;以Silk PDB数据库和SilkASDB数据库搜索的肽段鉴定新的可变剪接。使用TBLASTN软件以GSSP获得相对应的ORF,若ORF与现有基因模型重叠,为固有基因;若ORF与基因间区域重叠,则为新基因。为确保结果可靠,ORF序列与EST序列进行比对鉴定单一基因,用BLAST搜索同源蛋白,以GSSP,单一基因和同源蛋白共同质控固有和新基因的鉴定。

 

2.4 RNA-seq分析

对桑蚕不同发育阶段的PSG进行RNA提取并测序,得9600万读数,与参考基因进行比对,鉴定可变剪接位点,校正基因模型,鉴定新基因。

 

2.5 GO和KEGG路径分析

以桑蚕全基因作为背景,用agriGO和Blast2GO软件对可变剪接和全基因进行GO注释。用线上KEGG进行路径注释。

 

3、 实验结果

3.1 传统蛋白组学

通过MS/MS谱图与参考蛋白数据库(Silk PDB和BmPDB)比对,去掉多余数据后,共鉴定4307蛋白,933个蛋白是两个数据库共有,不同的组织蛋白也不同。PSG为桑蚕中合成蛋白的主要器官,对比培养组和野生组,分别鉴定了3487和1957个蛋白,共享蛋白为1823个。结果如下表1和下图2所示。

 

 

 

 

 

 

 

3.2 GSSPs完善基因注释

质谱图通过与SilkGDB和SilkPDB的混合数据库的匹配对比,共鉴定14378肽段序列,其中1701个为新肽段。GSSP与基因相比对,找到了74个新ORF位置,根据上述流程中介绍,结合肽段,同源蛋白,单一基因的证据,当ORF与注释基因模式重叠时为固有基因,共鉴定3593个;与注释基因不重叠的为新基因,共1404个。结果如下表2所示。

 

 

 

 

 

3.3 新基因

74个新ORF中,53个有同源蛋白为支撑证据,1个有单一基因为支撑证据,20个除了至少有两个GSSP外没有其他支撑证据。很多新的ORF被注释为相同预测蛋白。例如,在18号染色体上大约50kbp基因内,在26个GSSPs中证实了10个新ORF。如下图3所示。

 

 

 

3.4 修正注释基因模型

使用GSSPs与SilkPDB数据库中固有基因进行比对,以重叠结果校正了121个基因模型,这些基因中的大部分(68个基因)是外显子延伸,其中37个为第一个外显子的5‘端延伸。例如下图4所示,两个特殊新肽段比对到一个固有基因的上游;再如下图5所示,12和13外显子之间的内含子区域鉴定了2个特有GSSP,新外显子序列与Danaus plexippus (EHJ72156.1) and Manduca sexta (AAF18300.1) 蛋白具有高度相似性。

基于核苷酸的传统基因注释很难鉴定读写框,但基于肽段的方法能特异证实对应基因的转录读写框并能对错误注释进行校正。如下图6所示,两个特异GSSP比对到该基因的最后外显子上,但注释外显子frame与肽段的不同,可进行校正。

 

 

 

 

 

 

 

 

 

3.5 可变剪接

由于可变剪接的表达不高,所以很难判断, 且一般从mRNA判定,容易包含可变剪接前体序列;基于蛋白质水平的质谱数据,可通过鉴定连接肽段,进而鉴定剪接连接以及发现新的剪接类型。可构建外显子跳跃数据库SilkASDB(一个基因中有两个外显子),搜索连接肽段,通过与质谱图进行比对,找到1330个剪接交界跨肽,从527个基因中找到1105个剪接位点,从148个剪接交界跨肽中找到132个已知剪接连接。下图7所示为5个剪接连接肽段鉴定了基因的多个跳跃外显子并发现了新的剪接类型。

 

 

 

 

3.6 通过RNA-seq提高基因注释

结合RNA-seq方法以提高蛋白基因组学的可靠性。得到的样品RNA序列与参考基因数据库SilkTransDB比对后发现1704个新转录本,1325个序列数>1000bp,1007个仅有一个外显子。除此之外,还在注释基因的内含子区发现11368个新外显子,在3482个基因模型中具有一定作用;在2153个基因中发现2581个UTRs。共鉴定2017个可变剪接,可分为四种不同类型:①1498为保留内含子,②514为跳跃外显子,③4个为5‘和3‘可变剪接位点,④一个为可变5’外显子。

 

3.7 蛋白基因组学和转录蛋白组学分析的比较

由蛋白基因组学鉴定的74个新ORFs中有39个可以从转录数据库中鉴定到,这39个外显子大多被注释为外显子,但两种方法的外显子鉴定界限不同。蛋白基因组学和转录组学对许多未发现基因具有更精确的注释。当前注释误差的主要来源为传统注释途径的不准确以及可变剪接的存在,发现的新基因可能是保留内含子,也可能是注释错误,很难区分。由蛋白基因组学鉴定的外显子结构和转录组学鉴定的外显子结构有很大的不同。由蛋白基因组学和转录组学共同鉴定1838个新转录本,1593个可变剪接;校正了5074个固有基因。

 

3.8 可变剪接和新转录本的GO和KEGG路径分析

用所有桑蚕基因作为背景,对1838个新转录本和1593个可变剪接基因做GO功能分类,1838个新转录本中仅350个在GO中被分类。在分子功能分类中,新转录本和全基因没有明显区别,值得注意的是,没有基因参与抗氧化过程,有一个新的转录本与蛋白辅助转导活性特异相关。大多数GO terms与细胞和代谢过程相关,Six GO terms 与多细胞有机体过程,生物调节,发育过程,色素沉着,细胞成分组织和位置相关。最终1593个可变剪接中有1074个被GO注释,大都包含于细胞,细胞器,结合,催化活性,细胞和代谢过程中。

KEGG的通路分析显示1024个可变剪接基因包含于285个KEGG通路中,46个可变剪接基因参与RNA传输通路,40个可变剪接基因参与于"剪接体通路"。共有40个可变剪接基因与内质蛋白处理有关,38个可变剪接基因参与核糖体,表明可变剪接基因的蛋白合成活性。

 

4、 结论

最终,共鉴定1838个新转录本,1593个可变剪接基因;使用蛋白基因组学和转录组学分析校正了5074个固有基因。

 

5、创新点

本文通过使用蛋白基因组学的方法对基因进行注释,扩大了鉴定范围并提高了注释准确度。

转载于:https://www.cnblogs.com/ilifeiscience/p/11490659.html

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Journal of Proteome Research 的相关文章

  • Taro编译微信小程序实现顶部自定义导航栏

    需求 使用taro开发微信小程序的过程中 涉及到小程序的需要自定义顶部导航栏 导航栏渐变色 微信小程序中只能够设置固定的颜色 渐变颜色以及添加其他按钮的操作就不能够通过小程序自带的api来实现 思路 配置自定义导航栏设置 获取顶部状态栏高度
  • 一个进程可以创建多少线程?

    理论上 一个进程可用虚拟空间是2G 默认情况下 线程的栈的大小是1MB 所以理论上一个进程可以创建2048个线程 当然更改编译器的设置可以创建多余2048个线程 因此 一个进程可以创建的线程数由可用虚拟空间和线程的栈的大小共同决定 只要虚拟

随机推荐

  • PTA Python习题 计算工资

    题目要求 编写函数pay 带两个输入参数 小时工资和上周员工工作了的小时数 函数计算并返回员工的工资 加班工资的计算方法如下 大于40小时但小于或等于60小时按平时小时薪酬的1 5倍给薪 大于60小时则按平时小时薪酬的2倍给薪 函数接口定义
  • 【恒指早盘分析】期货交易绝非你想的那么简单

    对期货而言 这个市场是绝对平等的 它不需要八面玲珑的关系 不靠权势 只凭借勤奋努力来实现梦想 实现真正的财务自由 因此 对每一位立志于靠智慧生活的人来说 期货投资是一个极好的发展领域 从平时的练习和实践中 可以得到身 心 技的全面塑造和修行
  • Google Mock - GoogleTest(九)

    本文翻译自 https github com google googletest blob master googlemock docs CheatSheet md 一 定义一个模拟类 1 模拟一个正常的类 就是接口类 给 1 2 3 4
  • 数字经济时代下的软硬件基础设施建设与发展

    随着全球数字化新时代的到来 软件正在被重新定义 程序员的世界的代码走向各行各业 智慧城市 载人航天 潜海探月 数字新时代的加快到来 也为开发者拥有无限想象力提供了新机遇 一 云计算 云计算 大数据和人工智能 这三个东西已非常火 并且它们之间
  • 【C++初阶】list的模拟实现 附源码

    一 list介绍 list底层是一个双向带头循环链表 这个我们以前用C语言模拟实现过 gt 双向带头循环链表 下面是list的文档介绍 list文档介绍 我们会根据 list 的文档来模拟实现 list 的增删查改及其它接口 二 list模
  • 【深入理解C++】三种继承方式、函数遮蔽

    文章目录 1 三种继承方式 2 函数遮蔽 1 三种继承方式 继承可以让子类拥有父类的所有成员 成员变量和成员函数 public继承 父类 继承方式 子类 public public public protected public prote
  • Ideal必备宝藏插件

    Ideal必备宝藏插件 1 CodeGlance 代码迷你缩放图插件 方便拉到对应的代码 2 Codota代码提示工具 3 Alibaba Java Coding Guidelines 阿里巴巴的编码规约检查插件 4 Lombok 实体类插
  • UmiJS学习

    UmiJS4学习笔记 起步 官网学习 https umijs org 开发环境 Umi js 需要使用 Node js来进行开发 因此请先确保电脑已经安装了 Node js 且版本在 14 以上 安装pnpm npm install pnp
  • mysql Using where; Using join buffer (Block Nested Loop)

    SELECT FROM t1 INNER JOIN t2 ON t1 id t2 CODE sql执行很慢 explain 发现Using join buffer Block Nested Loop 产生的原因有可能是 JOIN 的字段类型
  • JavaScript-MD5加密

    代码 或者 示例 var hash md5 value 2063c1608d6e0baf80249c42e2be5804 var hash md5 111111 96e79218965eb72c92a54
  • 精通CSS-添加样式

    精通CSS 添加样式 一 CSS 选择符 1 子选择符与同辈选择符 2 通用选择符 3 属性选择符 4 伪元素 5 伪类 6 结构化伪类 7 表单伪类 二 层叠 三 特殊性 1 利用层叠次序 四 继承 五 为文档应用样式 1 link 与
  • macOS下更改默认的Python版本

    本机环境 macOS11 6 macOS默认已经安装了python 只不过版本是Python2 7 其相比Python 3缺少了很多特性 而且速度也比Python 3慢 因此建议大家安装Python 3 python download 这里
  • 国内镜像下载Android10源码并编译(实测)

    1 安装ubuntu 不会的百度 一大把 2 安装编译环境必要软件 sudo apt get install git core gnupg flex bison build essential zip curl zlib1g dev gcc
  • unity 中带贴图以及动画的模型文件转为 lowpoly 风格的方法

    本篇讲述的是使用代码来修改的方法 其实unity已经给我们提供了设置的方法 Normals选择Calculate Smoothing Angle调整为0即可 这里的内容是在这篇文章的基础上进行的修改 https blog csdn net
  • winget安装提示:执行此命令时发生意外错误: InternetOpenUrl() failed. 0x80072efd

    问题 当我们使用 Winget 包管理器安装软件时总是提示以下错误 执行此命令时发生意外错误 InternetOpenUrl failed 0x80072efd unknown error 解决方法 DNS是一种将网址转化为IP地址的重要工
  • 蓝桥杯C/C++ 基础练习 矩阵乘法 C语言

    题目 思路分析 题目要求输入N阶矩阵 可以动态定义二维数组A N N 来存储该矩阵A 由于矩阵A的M次幂也是N阶矩阵 那么需要定义另一个数组B N N 来存储该矩阵 在继续分析之前需要明确矩阵的乘法规则 举例如下图图1 不清楚者可自行百度
  • Rockchip

    1 Graphics介绍 1 1 使用X11 Graphics Xserver 是在常规桌面 Linux 平台上使用的显示系统 Rockchip 有一个定制的 Xserver 可以实现 glamor 2D acceleration Xser
  • 《面向对象程序设计》授课计划2022-2023-02

    面向对象程序设计授课计划 可参照此计划 在课前预习 待完善 授课内容 课本章节 PPT 课堂 PPT 课本配套 一 课程介绍 课程要求 编程语言 面向对象简介 C 简介 实验环境 CH1 OOP00 BeforeTheClassStarts
  • BP神经网络公式推导及实现(MNIST)

    BP神经网络的基础介绍见 http blog csdn net fengbingchun article details 50274471 这里主要以公式推导为主 BP神经网络又称为误差反向传播网络 其结构如下图 这种网络实质是一种前向无反
  • Journal of Proteome Research

    题目 Improving Silkworm Genome Annotation Using a Proteogenomics Approach 期刊 Journal of Proteome Research 发表时间 June 28 201