教程:群体演化方法分析玉米的驯化与改良

2023-10-30

一般文章在筛选 正选择区间 时,大多 不考虑 群体的 演化历史,即不考虑 群体大小 的变化,只进行亚群之间各种群体遗传参数的对比,这可能会产生大量的假阳性。另一方面,研究一般也 不考虑 遗传信息的 迁移。所以作者希望将群体演化历史及遗传信息的迁移纳入选择区间的考量因素中,以提高结果的准确性。

值得注意的是,此方法误差的主要来源为 预测 的群体演化历史与 真实 历史间的差异。其中影响预测的因素众多,且较多因素 无法确定,如碱基突变率,有的研究预测结果为 3.3 × 1 0 − 8 3.3×10^{-8} 3.3×108,有的研究结果为 4.8 × 1 0 − 8 4.8×10^{-8} 4.8×108,而群体迁移率更是难以估计。所以,演化历史是在各种猜测的基础上推演出来,准确性难以保证。演化历史又是后续所有分析的基石,所以本方法建议用于 定性讨论,而非定量分析。


步骤

  1. SNP 过滤,本文先使用 LD 进行过滤,然后使用 等间距保留,形成了 密度均一(SNP 间隔约为 2 kb)的 SNP 集合。
  2. 样本集的 群体结构 分析(PCA、STRUCTURE)。
  3. 样本过滤,提高样本之间的 区分度。本文去除样本集中主成份(main membership probability)占比 < 0.6 的样本。
  4. 亚群遗传差异分析,使用 Fst、SNP 数量、SFS、群体特异性 SNP、MAF、LD。结果可用于进一步筛选样本及 SNP。
  5. 亚群演化历史分析,使用 MSMC、∂a∂i 和 中性 SNP 推算亚群的演化历史,然后再根据历史模型生成 模拟数据,与真实数据比对,验证 演化历史的准确性。
  6. 亚群遗传片段血统分析,通过 IBD 在群体中的频率间接表示驯化、改良过程中片段被选择的强度。IBD 频率越高,选择强度越大,作者使用 Top 5% 的 IBD 区间视为正选择区间。

PS:文章前后内容不一致,正文与附表也不一致,可能是文章投稿期间经历了反复的改动且改动篇幅较大。如 Table S1 中描述 MSMC 的输入样本中不包含 SS 亚群,但在文中图 2 中则包含了 SS 亚群。另一方面,文章各段落使用数据不一致,阅读的连续性较差。如推测群体演化是不考虑 SS,但讨论 IBD 时会考虑 SS。所以,更多的是学习本文的研究思路。


Li, X., Jian, Y., Xie, C. et al. Fast diffusion of domesticated maize to temperate zones. Sci Rep 7, 2077 (2017). https://doi.org/10.1038/s41598-017-02125-0



材料

本文数据使用 Fu 等人测定的 368 个玉米自交系(NSS、SS、TS、Mixed)的 RNA 序列数据,总共包含 102.6 w 个 SNP,样本集内存在清晰的群体结构。


368 群体详情参见:玉米关联群体:155、368、527 自交系群体简介(Yan Jianbing,2010、2013)


结果

1. 亚群遗传差异分析

Fst、SNP 数量、SFS、群体特异性 SNP、MAF、LD ,5 个角度观察 SS、NSS、TS 亚群之间差异。为保证数据具有可比性,作者每次从 3 个子群中各抽取 50 个个体,重复 10 次(图 1)。

  1. Fst 分布情况显示,温带亚群内 NSS-SS 差异小,温热亚群间 NSS-TS、SS-TS 差异大。
  2. SNP 数量 TS > NSS > SS,SS 中 SNP 数量最少,遗传多样性 最低。
  3. rare SNP 占比 SS > NSS > TS,可能是 SS 受到的 选择压力 较强,有害 SNP 频率升高较难。
  4. LD 衰减 到稳定 r 2 = 0.1 r^2=0.1 r2=0.1 的速度 TS > NSS > SS,平均距离分别是 170/186/224 bp 。衰减速度可能与 驯化时间有效群体大小 有关,如热带品系驯化改良完成较早或有效群体较大,历史上重组、突变积累较多。

在这里插入图片描述


2. 亚群演化历史分析

使用 MSMC 和 ∂a∂i 两种方法推断玉米从热带分化到温带。

  1. 使用 MSMC遗传背景差异清晰 的个体,推断 3 个亚群的群体大小变化。样本选自 Hapmap 3 的 916 个玉米自交系中遗传血统(genetic ancestry)大于 99% 的 TS、NSS、SS 品系。结果显示(图 2a),群体大小先下降后快速上升,其中驯化完成时间顺序为 TS > NSS ≈ SS,群体大小为 TS > NSS > SS;共祖率(coalescence rate,图 2b)在 3000-5000 年前大幅下降,遗传信息差异大幅增加,作者推测此时约为温热分化的时间节点。

    PS:MSMC 中突变率设定为 μ = 3 × 1 0 − 8 \mu=3×10^{-8} μ=3×108;因为是初步判断,所以作者没有对 SNP 数据进行筛选。

在这里插入图片描述

  1. 使用 ∂a∂i中性、密度均一 的 SNP、MSMC 结果,推断群体的演化历史,筛选 SNP 过程如下。最终,作者因为 SS 有效群体太小而将 SS 排除,仅使用 NSS 代表温带玉米群体。如果 SS 与 NSS 合并,可能会由于两者遗传多样性差异较大,统一分析产生大量的假阳性。

    1. 筛选 fastSTRUCTURE 中主要关系概率(main membership probability)> 0.6 的样本,同时,作者使用 R 中 SNPRelate 包的 snpgdsIBS 函数计算 IBS,进而估算个体之间的亲缘关系,随机剔除了亲缘关系大于 0.5 组合中的 1 个样本,;
    2. 使用 SnpEff 鉴定出的 24.7w 同义 SNP 进行分析,以排除驯化、改良等选择造成的影响;
    3. 使用 plink 的 --thin 参数随机采样 SNP 以确保它们之间 相距 > 2 kb,筛选后有 3.36 w(13.6%)SNP 被保留。

    PS:群体大小 N a Na Na 使用方程 θ   =   4 μ L N a \theta = 4μLNa θ=4μLNa 计算得到,其中 μ μ μ 是突变率, L L L 是有效序列长度。 L L L 的总长度是包含 SNP 的外显子长度的总和, L   =   3.8   M b L = 3.8 Mb L=3.8Mb ;突变率参考文献, μ = 4.8 × 1 0 − 8 μ = 4.8 × 10^{−8} μ=4.8×108,由于非同义词突变与同义突变的比值为 1.14,所以同义突变率 μ s   =   2.2   ×   1 0 − 8 μ_s = 2.2 × 10^{−8} μs=2.2×108

  2. 作者使用 3 种群体演化模型(中性平衡、两时期、三时期)与 ∂a∂i 的结果来模拟数据,通过标准似然比检验(standard likelihood-ratio test)评估 模拟群体真实群体 之间的差异,进而判断 ∂a∂i 结果的准确性。结果显示,两时期、三时期模型之间没有显著差异,都优于中性平衡模型,推测 TS 和 NSS 群体分别在 4000 和 3000 年前发生了一次群体收缩。

    PS:两时期是指群体发生了 1 次群体数量的瞬时改变,三时期是指发生了 2 次,一收一放,类似瓶颈模型。

  3. 因为考古和分子数据都表明玉米是 单一驯化(single domestication),所以作者假设 NSS 是直接从 TS 驯化得到。使用 ∂a∂i 预测群体演化历史。作者构建了 4 种模型(图 3)。作者以 AIC(Akaike information criterion)值作为模型评价标准,AIC 值越低,模型拟合的越好。因为模型 3、4 拟合相似,作者选择了较为简单的模型 3(迁移率对称,图 3c、图 4a),并展示了模型 3 下 ∂a∂i 推测的各参数的最适值(图 4b)。

在这里插入图片描述在这里插入图片描述
PS:Na(祖先种群大小)、nu1(分裂后 TS 种群大小)、nu2(分裂后 NSS 种群大小)、T1(驯化)、T2(亚群分离)、T3(亚群分化)和 m(种群之间的迁移率)。



3. 亚群遗传片段血统分析

作者计算了亚群之间 IBD 的情况,研究亚群之间的基因流动与选择区间。

  1. 作者使用 fastIBD 计算 IBD,然后剔除 IBD < 1cM 的片段,因为较小的 IBD 容易受到背景 LD 影响。结果显示, TS 群体内 IBD 片段较少,可能是 TS 驯化完成较早,群体内 IBD 片段被重组和突变破坏而无法识别。
  2. 作者讨论了人工选择使温热品系之间的基因 相互渗透 的情况。比如 Mixed 可能就是温带、热带相互杂交的结果。
  3. 作者认为具有广泛 IBD 共享的区间与驯化、改良中的正选择有关,IBD 共享比例越高,选择强度越大。据此,作者绘制了 IBD 频率图(图 5),选择频率 Top 5% 的 IBD 区间作为 驯化、改良 的候选区间。作者使用蛋白质结构域比对(pfam HMM),举例研究了 bin 3.08、bin 8.06 中的基因功能。

在这里插入图片描述



附录

硬粒玉米、马齿玉米、NSS、SS

Flint,硬粒玉米,籽粒 顶部四周 胚乳都是 角质 淀粉,仅 中心 近胚部分为 粉质 淀粉,外表半透明有光泽、坚硬饱满,主要用作粮食或饲料。

Dent,马齿玉米,籽粒 两侧 胚乳为 角质 淀粉,中间和顶部粉质 淀粉,籽粒成熟时顶部干燥凹陷呈马齿状。马齿玉米单产高,但对肥水要求也高,是大面积生产应用的主要品种。籽粒食味较差,多作 饲料 或作为淀粉、酒精等工业的 原料

温带玉米中 SS 与 NSS(Stiff Stalk Synthetic,SS,硬秆综合种;non-stiff stalk,NSS,非硬秆综合种)是被广泛用于杂交育种的两个群体。SS 和 NSS 起源相似,都是 Northern Flint(硬粒玉米)、Southern Dent(马齿玉米)、Tropical highland 的杂交后代。



群体演化历史推断方法简介

目前,各类推断群体演化历史的算法包括:

  1. 溯祖模拟(Coalescent)模拟
  2. 近似贝叶斯计算(approximate Bayesian computation,ABC)
  3. 复合似然法(composite likelihood approach),如 Diffusion Approximation for Demographic Inference(∂a∂i),扩散近似群体推断方法。
  4. 马尔可夫溯祖分析(Markovian coalescent analysis,MSMC)

相比于 ABC 方法,MSMC 与 ∂a∂i 更适合处理基因组数据,计算速度更快,本文使用这两种方法研究玉米群体演化历史,因为 ∂a∂i 需要提供一个预制的群体演变历史,而 MSMC 不需要,所以作者先用 MSMC 分析,MSNC 推断 TS 和 NSS 的分离时间约 3000-5000 年前。然后将 MSMC 输出的群体演变模型作为预制模型输入 ∂a∂i,推断瓶颈发生的持续时间与强度。最后挖掘可能与人工选择有关的同源片段(identical-by-descent tracts,IBD tracts),作为后续育种研究的目标。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

教程:群体演化方法分析玉米的驯化与改良 的相关文章

随机推荐

  • c语言入门----详解分支语句(if语句)

    文章目录 一 前言 二 顺序结构 三 为什么会有分支语句 四 if语句 五 if语句形式 1 if的基本形式 2 有关if的例子 3 有关if的易错提醒 六 if else语句 1 为什么会有if else语句 2 if else的基本形式
  • Canvas和SVG有什么区别

    在项目开发中也许会涉及到图形 经常用到的就是svg和canvas两种画图方式 下面就让我们看一看他们两者的区别 svg绘制出来的每一个图形的元素都是独立的DOM节点 能够方便的绑定事件或用来修改 canvas输出的是一整幅画布 svg输出的
  • RabbitMQ消息可靠性(二)-- 消费者消息确认

    一 消费者消息确认是什么 在这种机制下 消费者在接收到消息后 需要向 RabbitMQ 发送确认信息 告知 RabbitMQ 已经接收到该消息 并已经处理完毕 如果 RabbitMQ 没有接收到确认信息 则会将该消息重新加入队列 等待其他消
  • supervisor系列:2、运行supervisor

    supervisor系列 2 运行supervisor 文章目录 supervisor系列 2 运行supervisor 1 添加一个程序 2 运行supervisord 2 1 supervisord命令行配置 3 运行superviso
  • 【剑指Offer题解:java】二叉树的镜像

    文章目录 题目 分析 代码 题目 操作给定的二叉树 将其变换为源二叉树的镜像 二叉树的镜像定义 源二叉树 8 6 10 5 7 9 11 镜像二叉树 8 10 6 11 9 7 5 分析 递归交换左右子树即可 1 root null直接返回
  • 【环境配置】基于Docker配置Chisel-Bootcamp环境

    文章目录 Chisel是什么 Chisel Bootcamp是什么 基于Docker配置Chisel Bootcamp 官网下载Docker安装包 Docker换源 启动Bootcamp镜像 常用docker命令 可能产生的问题 Chise
  • Mysql获取数据库的所有表以及表所有字段信息

    mysql获取所有表以及表所有字段信息 SELECT TB TABLE SCHEMA 模式 TB TABLE NAME 表名 TB TABLE COMMENT 表名注释 COL COLUMN NAME 字段名 COL COLUMN TYPE
  • 风投与IT

    风投即风险投资 广义的风险投资泛指一切具有高风险 高潜在收益的投资 狭义的风险投资是指以高新技术为基础 生产与经营技术密集型产品的投资 根据美国全美风险投资协会的定义 风险投资是由职业金融家投入到新兴的 迅速发展的 具有巨大竞争潜力的企业中
  • vue设置不出现滚动条的全屏背景100%

    1 想在登录页面设置页面背景占比100 而且不出现滚动 首先给你所需要的元素设置好css 2 如果没生效 看下App vue中是否有定义 app的宽高 将其设置成100 3 如果综上两部设置完成还未生效 那就需要在index html文件中
  • kubernetes集群实战——资源限制(内存、CPU、NameSpace)

    1 k8s容器资源限制 Kubernetes采用request和limit两种限制类型来对资源进行分配 request 资源需求 即运行Pod的节点必须满足运行Pod的最基本需求才能 运行Pod limit 资源限额 即运行Pod期间 可能
  • MySQL必知必会 学习笔记 第一章 了解SQL

    数据库是保存有组织的数据的容器 通常是一个或一组文件 数据库软件称为DBMS 数据库管理系统 数据库是被DBMS创建和操纵的容器 数据库究竟是文件或其他东西并不重要 因为你不会直接访问数据库 而是间接通过DBMS替你访问数据库 表是某种特定
  • BootstrapTable checkbox默认选中

    BootstrapTable 在Web后台管理项目中对表格展示数据使用居多 主要是表格的多条件查询 分页 排序等功能 我们的项目中前端框架是Bootstrap 所以很多插件都是支持Bootstrap的 bootstrap table是一款非
  • 关于List的subList原理分析

    今天在看Java开发手册的时候看到这么一句话 如果需要对list某个范围内的元素进行操作 可以使用subList 任何对子列表的操作最终都会反映到原列表中 例如list subList 0 2 clear 这样的操作便会对原列表进行修改 修
  • SARScape中用sentinel-1数据做SBAS-InSAR完整流程(1/2)

    SARScape中用sentinel 1数据做SBAS InSAR完整流程 1 SABA InSAR原理简述 2 数据采集和预设 2 1 SAR数据采集 2 2 DEM数据下载与放置 2 3 精密轨道数据下载与放置 2 4 制作研究区范围矢
  • 三分钟教你小程序实现无感刷新!

    无感刷新 无感刷新对于前端来说是一项非常实用的技术 其本质是为了优化用户体验 让用户感受不到token已经过期 本质上就是登录时 储存token和refresh token 当token过期或错误时不需要用户跳回登录页重新登录 而是在响应拦
  • python读取文件名存到list_python读取文件名称生成list的方法

    下面为大家分享一篇python读取文件名称生成list的方法 具有很好的参考价值 希望对大家有所帮助 一起过来看看吧 经常需要读取某个文件夹下所有的图像文件 我使用python写了个简单的代码 读取某个文件夹下某个后缀的文件 将文件名生成为
  • 力扣 删除链表的节点

    给定单向链表的头指针和一个要删除的节点的值 定义一个函数删除该节点 返回删除后的链表的头节点 注意 此题对比原题有改动 示例 1 输入 head 4 5 1 9 val 5 输出 4 1 9 解释 给定你链表中值为 5 的第二个节点 那么在
  • 手动实现Spring IOC 跟 AOP 的雏形

    关注后回复 进群 拉你进程序员交流群 作者丨sowhat1412 来源丨sowhat1412 Spring Spring make java more simpleSpring make java more modernSpring mak
  • 在Linux下用C语言写贪吃蛇;

    项目思路 ncurses上下左右键的获得 gt 贪吃蛇地图的实现 gt 显示贪吃蛇的完整身子 gt 贪吃蛇向右移动 gt 贪吃蛇撞墙找死 gt 贪吃蛇自行向右行走与页面一起刷新 利用线程解决 gt 贪吃蛇四个方向的自由走位 gt 贪吃蛇吃饭
  • 教程:群体演化方法分析玉米的驯化与改良

    一般文章在筛选 正选择区间 时 大多 不考虑 群体的 演化历史 即不考虑 群体大小 的变化 只进行亚群之间各种群体遗传参数的对比 这可能会产生大量的假阳性 另一方面 研究一般也 不考虑 遗传信息的 迁移 所以作者希望将群体演化历史及遗传信息