hisat2-build

2023-05-16

 The hisat2-build indexer

使用dna文件构建索引,输出后缀为.1.ht2到.8.ht2的八个文件。如果索引较大,后缀改为ht2l。后续的比对需要这八个文件,并且一旦索引构建成功,就不在需要原始的dna文件。

使用Karkkainen的逐块算法可以使hisat2构建在运行时间和内存使用之间进行权衡。hisat2-build具有三种控制权衡的选项:[-p /-packed],-bmax /-bmaxdivn和--dcv。默认情况下,histat2-build将自动搜索设置,从而使用最佳运行时间但不会耗尽内存。也可以使用-a /-noauto选项禁用此行为

索引器提供与索引的“形状”相关的选项,例如,--offrate控制“标记”的Burrows-Wheeler行的分数(即后缀数组样本的密度;有关详细信息,请参见原始FM索引文件)。当然,可以根据实际应用修改参数。但根据我们的实验,已将它们设置为对于大多数情况都合理的默认值。 有关详细信息,请参见性能调整。

hisat2可以构建大的或者小的索引,封装好的软件将根据基因组的大小自动决定
如果引用不超过40亿个字符,但想构建大索引,则用户可以指定--large-index来强制hisat2-build来构建大索引。

HISAT2索引基于Ferragina和Manzini的FM索引,而FM索引又基于Burrows-Wheeler变换。 
用于建立索引的算法基于Karkkainen的分块算法。
Command Line
Usage:

hisat2-build [options]* <reference_in> <ht2_base>
Notes
If you use --snp, --ss, and/or --exon, hisat2-build will need about 200GB RAM for the human genome size as index building involves a graph construction. 
Otherwise, you will be able to build an index on your desktop with 8GB RAM.

Main arguments
<reference_in>
A comma-separated list of FASTA files containing the reference sequences to be aligned to, or, if -c is specified, the sequences themselves. E.g., <reference_in> might be chr1.fa,chr2.fa,chrX.fa,chrY.fa, or, if -c is specified, this might be GGTCATCCT,ACGGGTCGT,CCGTTCTATGCGGCTTA.

<ht2_base>
The basename of the index files to write. By default, hisat2-build writes files named NAME.1.ht2, NAME.2.ht2, NAME.3.ht2, NAME.4.ht2, NAME.5.ht2, NAME.6.ht2, NAME.7.ht2, and NAME.8.ht2 where NAME is <ht2_base>.

 

Options
-f
The reference input files (specified as <reference_in>) are FASTA files (usually having extension .fa, .mfa, .fna or similar).
需要写进去吗?不知道。。。。
-c
The reference sequences are given on the command line. I.e. <reference_in> is a comma-separated list of sequences rather than a list of FASTA files.
不写这个参数,一般用不到,意思是把参考续写直接写到命令行里,用逗号隔开?
--large-index
Force hisat2-build to build a large index, even if the reference is less than ~ 4 billion nucleotides long.
及时是小文件也要构建大索引,所以也不用管
-a/--noauto
Disable the default behavior whereby hisat2-build automatically selects values for the --bmax, --dcv and [--packed] parameters according to available memory. Instead, user may specify values for those parameters. If memory is exhausted during indexing, an error message will be printed; it is up to the user to try new parameters.
把自动设置的开关关掉。所以不能关,打开自动设置!
大部分都不用设置,不看了。

构建基因组索引之前需要提取.ss.exon

extract_exons.py Danio_rerio.GRCz10.90.gtf > genome.exon
extract_splice_sites.py Danio_rerio.GRCz10.90.gtf > genome.ss

提取snp的.py可能是基于Python2,运行老是报错,就不写了。
hisat2-build -p 4 Danio_rerio.GRCz10.dna.chromosome.1.fa --ss genome.ss --exon genome.exon genome

以斑马鱼基因组为例,运行内存不少于64gb

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

hisat2-build 的相关文章

随机推荐

  • Android的系统架构

    Android的系统架构采用了分层架构的思想 xff0c 如图1所示 从上层到底层共包括四层 xff0c 分别是应用程序程序层 应用框架层 系统库和Android运行时和Linux内核 图1 xff1a Android系统架构图 每层功能简
  • Java中 判断String 是否为空的几种方法(null 、== 、equals)

    一 基本知识 String str1 61 null str1引用为空 xff0c 它没有地址 xff0c 它是一个没有被实例化的对象 String str2 61 34 34 str2引用为空字符串 xff0c 它有地址 xff0c 它是
  • C_INCLUDES must be under the source or output directories:

    https blog csdn net cigogo article details 94546032 参考了上面大神的链接 xff0c 发现设置了绝对路径 xff0c 改为相对路径后 xff0c 正常 编译报错 xff1a LOCAL P
  • Failed to connect to raw.githubusercontent.com port 443

    Mac 安装 homebrew xff1a 1 usr bin ruby e 34 curl fsSL https raw githubusercontent com Homebrew install master install 34 报
  • NFS配置及使用

    什么是NFS NFS Network File System 即网络文件系统 xff0c 是FreeBSD支持的文件系统中的一种 xff0c 它允许网络中的计算机之间通过TCP IP网络共享存储 在NFS的应用中 xff0c 本地NFS的客
  • 在idea中配置maven(阿里云镜像)

    1 下载maven 要使用maven当然要去下载 xff0c 可以去官网下载 xff0c 去官网下载需要自己配置 xff0c 这里可以使用我配置好的maven xff1b 链接 xff1a https pan baidu com s 1Zn
  • MTK6582资料帖和问题帖集合

    MTK6582资料帖汇总 Driver All in One V1 0 MT6572 MT6582 AOSP 发给需要的 MT6582memorydevicelist MT6582完整版DATASHEET xff0c xff1e 50M x
  • MYSQL笔记1

    MYSQL笔记 参照 MySQL数据库原理 设计与应用 清华大学出版社 第二章 数据库基本操作 2 1数据库操作 2 1 1创建数据库 create database if not exists xxx 2 1 2查看数据库 1 查看存在的
  • JetBrains学生认证

    1 首先找到JetBrains官网 JetBrains官网链接 2 找到学生申请页面 学生申请页面链接 3 选择申请方式 xff1a 官方文件 选择方式一共有四种 xff0c 较简单的是其中两种 xff0c 分别是大学电子邮箱地址和官方文件
  • Ubuntun18.04下载微信

    1 下载Wine环境包 xff1a http archive ubuntukylin com software pool partner ukylin wine 70 6 3 25 amd64 deb 2 下载微信 xff08 wine x
  • Java8使用Stream流实现List列表的查询、统计、排序、分组

    Java8提供了Stream xff08 流 xff09 处理集合的关键抽象概念 xff0c 它可以对集合进行操作 xff0c 可以执行非常复杂的查找 过滤和映射数据等操作 Stream API 借助于同样新出现的Lambda表达式 xff
  • MySQL的COUNT语句,竟然都能被面试官虐的这么惨!?

    关于数据库中行数统计 xff0c 无论是MySQL还是Oracle xff0c 都有一个函数可以使用 xff0c 那就是COUNT 但是 xff0c 就是这个常用的COUNT函数 xff0c 却暗藏着很多玄机 xff0c 尤其是在面试的时候
  • git为什么要先commit,然后pull,最后再push?而不是commit完直接push?

    情况是这样的 xff0c 现在远程有一个仓库 xff0c 分支就一个 xff0c 是master 然后我本地的仓库是从远程的master上clone下来的 大家都是clone下来 xff0c 再在自己本地改好 xff0c 再commit然后
  • docker将镜像上传到阿里云镜像仓库

    1 登录阿里云 username参数是阿里云账号 xff0c 执行后输入密码 注意后面登录的地区 beijing hangzhou等 docker login username 61 阿里云账号 registry cn hangzhou a
  • docker进入容器的方式

    进入容器 使用 d 参数时 xff0c 容器启动后会进入后台 进入容器进行操作 xff0c 包括使用 docker attach 命令或 docker exec 命令 xff0c 推荐用 docker exec 命令 attach 命令 实
  • Docker Hub 镜像加速器

    国内从 Docker Hub 拉取镜像有时很慢 xff0c 此时可以配置镜像加速器 Docker 官方和国内很多云服务商都提供了国内加速器服务 版本号 Ubuntu 16 04 43 Debian 8 43 CentOS 7 43 配置加速
  • FFmpeg将多张图片合成视频

    FFmpeg将多张图片合成视频从不同目录下多张图合成视频 PipeConcat 容易误解的几个命令 FFmpeg将多张图片合成视频 首先要计算出视频的总帧数 xff1a 总帧数 61 duration fps duration是我们设定的视
  • 程序员读书啦!!!

    成为Java顶尖程序员 xff0c 看这11本书就够了 xff1a http blog csdn net u012410733 article details 51869105 编程科普书籍推荐 xff1a http blog csdn n
  • win10系统隐藏u盘EFI分区的方法

    打开cmd或powershell xff0c 按如下命令行操作 xff08 以powershell示例 xff0c 及后面文字为注释内容不需要输入 xff09 xff1a diskpart 运行diskpart工具 lis dis 列出所有
  • hisat2-build

    The hisat2 build indexer 使用dna文件构建索引 xff0c 输出后缀为 1 ht2到 8 ht2的八个文件 如果索引较大 xff0c 后缀改为ht2l 后续的比对需要这八个文件 xff0c 并且一旦索引构建成功 x