hisat2-build

2023-05-16

The hisat2-build indexer

使用dna文件构建索引，输出后缀为.1.ht2到.8.ht2的八个文件。如果索引较大，后缀改为ht2l。后续的比对需要这八个文件，并且一旦索引构建成功，就不在需要原始的dna文件。

使用Karkkainen的逐块算法可以使hisat2构建在运行时间和内存使用之间进行权衡。hisat2-build具有三种控制权衡的选项：[-p /-packed]，-bmax /-bmaxdivn和--dcv。默认情况下，histat2-build将自动搜索设置，从而使用最佳运行时间但不会耗尽内存。也可以使用-a /-noauto选项禁用此行为

索引器提供与索引的“形状”相关的选项，例如，--offrate控制“标记”的Burrows-Wheeler行的分数（即后缀数组样本的密度；有关详细信息，请参见原始FM索引文件）。当然，可以根据实际应用修改参数。但根据我们的实验，已将它们设置为对于大多数情况都合理的默认值。有关详细信息，请参见性能调整。

hisat2可以构建大的或者小的索引，封装好的软件将根据基因组的大小自动决定
如果引用不超过40亿个字符，但想构建大索引，则用户可以指定--large-index来强制hisat2-build来构建大索引。

HISAT2索引基于Ferragina和Manzini的FM索引，而FM索引又基于Burrows-Wheeler变换。
用于建立索引的算法基于Karkkainen的分块算法。
Command Line
Usage:

hisat2-build [options]* <reference_in> <ht2_base>
Notes
If you use --snp, --ss, and/or --exon, hisat2-build will need about 200GB RAM for the human genome size as index building involves a graph construction.
Otherwise, you will be able to build an index on your desktop with 8GB RAM.

Main arguments
<reference_in>
A comma-separated list of FASTA files containing the reference sequences to be aligned to, or, if -c is specified, the sequences themselves. E.g., <reference_in> might be chr1.fa,chr2.fa,chrX.fa,chrY.fa, or, if -c is specified, this might be GGTCATCCT,ACGGGTCGT,CCGTTCTATGCGGCTTA.

<ht2_base>
The basename of the index files to write. By default, hisat2-build writes files named NAME.1.ht2, NAME.2.ht2, NAME.3.ht2, NAME.4.ht2, NAME.5.ht2, NAME.6.ht2, NAME.7.ht2, and NAME.8.ht2 where NAME is <ht2_base>.

Options
-f
The reference input files (specified as <reference_in>) are FASTA files (usually having extension .fa, .mfa, .fna or similar).
需要写进去吗？不知道。。。。
-c
The reference sequences are given on the command line. I.e. <reference_in> is a comma-separated list of sequences rather than a list of FASTA files.
不写这个参数，一般用不到，意思是把参考续写直接写到命令行里，用逗号隔开？
--large-index
Force hisat2-build to build a large index, even if the reference is less than ~ 4 billion nucleotides long.
及时是小文件也要构建大索引，所以也不用管
-a/--noauto
Disable the default behavior whereby hisat2-build automatically selects values for the --bmax, --dcv and [--packed] parameters according to available memory. Instead, user may specify values for those parameters. If memory is exhausted during indexing, an error message will be printed; it is up to the user to try new parameters.
把自动设置的开关关掉。所以不能关，打开自动设置！
大部分都不用设置，不看了。

构建基因组索引之前需要提取.ss.exon

extract_exons.py Danio_rerio.GRCz10.90.gtf > genome.exon
extract_splice_sites.py Danio_rerio.GRCz10.90.gtf > genome.ss

提取snp的.py可能是基于Python2，运行老是报错，就不写了。
hisat2-build -p 4 Danio_rerio.GRCz10.dna.chromosome.1.fa --ss genome.ss --exon genome.exon genome

以斑马鱼基因组为例，运行内存不少于64gb

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

HISAT2

Build

hisat2-build 的相关文章

Slice签名与android studio默认运行不一致

我已经配置了 gradle 来进行签名 android signingConfigs debug storeFile file storePassword keyAlias keyPassword 现在当我运行 Gradle 任务 ins
Gradle 不包括 FXML 和图像

我一直在寻找将 FXML 和图像包含在build gradle以便将它们构建到罐子中我有看here https stackoverflow com questions 21128652 location is required in ja
应用程序未安装在 Android 11 中，但可以在以前的版本上运行

我有一个包含两个包的应用程序com example package and com other package 我在build gradle中的配置如下 android compileSdkVersion 30 defaultConfig
Gradle：战争任务有冲突的包含/排除

我正在尝试使用 Gradle 构建一个 war 文件但遇到了一个问题即排除一个目录并包含另一个恰好具有相同名称但父目录不同的目录请注意在下面的第一个代码示例中两者都没有css 目录将包含在最终版本中war文件我假设是因为 Gra
如何在 Windows 上安装 Boost.Build？

http www boost org boost build2 doc html bbv2 installation html http www boost org boost build2 doc html bbv2 installati
Maven 父项目自动化

我有这个结构 child C 家长 A child B 如果我尝试在没有父级的情况下安装子级 B maven 会抛出一个错误我知道按照惯例我应该将父级安装在我的存储库中但是有没有办法让某人拉取子级并在安装过程中安装自动父辈编辑我要尽
仅使用 RSA 和 AES 构建 openssl

我正在一个项目中使用 libcrypto a OpenSSL 默认情况下所有算法都在 libcrypto a 下可用对于该项目我只需要 RSA AES 和 SHA 如何仅使用这些算法构建 libcrypto a 如果您通过运行以下命令
生产构建中的错误：索引 html 生成失败 [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案升级了角10项目到角12 但现在在运行生产构建时出现错误索引 HTML 生成失败未定义 6 720366 缺少 n
Android Studio 2.1.3 中构建错误

我使用的是android studio 2 1 3 尽管清除了项目并再次重建重新启动等我还是收到以下错误如何解决错误任务执行失败 app transformClassesWithJavaResourcesVerifierForDe
Visual Studio 2010环境变量

我在 Windows 中设置了一个名为 SDK 的环境变量我可以在 csproj 文件中以某种方式使用它吗就像是
访问附加到 ELF 二进制文件的数据

我有一个静态 ELF 二进制文件它从 zip 文件中读取数据为了简化分发我想将 zip 文件附加到二进制文件中如下所示 cat mydata zip gt gt mybinary 我知道这样做不会损坏 mybinary 但我不知道如
csproj 文件中的项目顺序重要吗？

我想以编程方式管理整个团队解决方案中的 VS2008 csproj 文件我们偶尔会遇到合并问题在 Hg 中只是因为两个开发人员在项目中添加了不同的新文件但它们最终出现在 csproj 文件中的同一位置并触发了解决冲突的需要
除非我手动选择“重建”，否则 Visual Studio 2010 不会重建更改的代码

在过去一周左右的时间里我注意到 Visual Studio 2010 不会重新编译代码除非我强制这样做这是一个使用 WPF 的 C 4 0 项目我按了 F5 如果代码已更改它似乎使用了重建然后启动应用程序相反它现在在左下角状
Qt for Android：无法签署应用程序的发布版本

我正在使用 Qt 5 13 和 Qt Creator 4 9 2 我可以成功构建 Android 应用程序的调试版本但是当我尝试编译发布版本时我得到 16 57 35 过程 opt Qt 5 13 0 android armv7 bin
Webpack 的 sass-loader 构建时间较慢

Summary 当我们改用 Webpack 处理 SASS 文件时我们注意到在某些情况下构建时间变得非常慢使用以下方法测量构建的不同部分的性能后测速插件 https www npmjs com package speed measure
React Native iOS Release 构建停留在旧代码上，但 Debug 构建工作正常

当我尝试构建我的 React Native 应用程序时XCode in Release mode在将其投入生产之前进行检查它是否会陷入旧代码中无论我对 JS 文件进行什么更改它都不会执行此操作在调试模式下这种情况不会发生只是正常
Jenkins 多分支管道 - 在分支中配置属性？

我们已经使用 Jenkins 多分支管道插件成功设置了构建管道该插件在大多数情况下都运行良好但是我们遇到了一个困扰我们的问题 Jenkinsfile包含一组属性这些属性也显示在 UI 中但如何为各个分支设置默认值这就是我们的属性定
如何在 Ivy 中使用不同的分类器下载多个 Maven 依赖项？

我试图依靠Neo4j 服务器 jar http repo neo4j org content repositories snapshots org neo4j app neo4j server 1 5 SNAPSHOT neo4j serv
Android 构建签名 APK 时出错：找不到用于签名配置“externalOverride”的 keystore.jks

当我尝试构建签名 APK 时出现此错误我最近升级到 API 23 但之后成功生成了 APK s 我很困惑寻求帮助并建议如何解决这个问题这是错误 FAILURE Build failed with an exception What w
使用 Maven 配置文件进行工件版本控制

我希望项目的版本号采用以下格式进行正常发布版本控制

随机推荐

Android的系统架构

Android的系统架构采用了分层架构的思想 xff0c 如图1所示从上层到底层共包括四层 xff0c 分别是应用程序程序层应用框架层系统库和Android运行时和Linux内核图1 xff1a Android系统架构图每层功能简
Java中判断String 是否为空的几种方法（null 、== 、equals）

一基本知识 String str1 61 null str1引用为空 xff0c 它没有地址 xff0c 它是一个没有被实例化的对象 String str2 61 34 34 str2引用为空字符串 xff0c 它有地址 xff0c 它是
C_INCLUDES must be under the source or output directories:

https blog csdn net cigogo article details 94546032 参考了上面大神的链接 xff0c 发现设置了绝对路径 xff0c 改为相对路径后 xff0c 正常编译报错 xff1a LOCAL P
Failed to connect to raw.githubusercontent.com port 443

Mac 安装 homebrew xff1a 1 usr bin ruby e 34 curl fsSL https raw githubusercontent com Homebrew install master install 34 报
NFS配置及使用

什么是NFS NFS Network File System 即网络文件系统 xff0c 是FreeBSD支持的文件系统中的一种 xff0c 它允许网络中的计算机之间通过TCP IP网络共享存储在NFS的应用中 xff0c 本地NFS的客
在idea中配置maven(阿里云镜像)

1 下载maven 要使用maven当然要去下载 xff0c 可以去官网下载 xff0c 去官网下载需要自己配置 xff0c 这里可以使用我配置好的maven xff1b 链接 xff1a https pan baidu com s 1Zn
MTK6582资料帖和问题帖集合

MTK6582资料帖汇总 Driver All in One V1 0 MT6572 MT6582 AOSP 发给需要的 MT6582memorydevicelist MT6582完整版DATASHEET xff0c xff1e 50M x
MYSQL笔记1

MYSQL笔记参照 MySQL数据库原理设计与应用清华大学出版社第二章数据库基本操作 2 1数据库操作 2 1 1创建数据库 create database if not exists xxx 2 1 2查看数据库 1 查看存在的
JetBrains学生认证

1 首先找到JetBrains官网 JetBrains官网链接 2 找到学生申请页面学生申请页面链接 3 选择申请方式 xff1a 官方文件选择方式一共有四种 xff0c 较简单的是其中两种 xff0c 分别是大学电子邮箱地址和官方文件
Ubuntun18.04下载微信

1 下载Wine环境包 xff1a http archive ubuntukylin com software pool partner ukylin wine 70 6 3 25 amd64 deb 2 下载微信 xff08 wine x
Java8使用Stream流实现List列表的查询、统计、排序、分组

Java8提供了Stream xff08 流 xff09 处理集合的关键抽象概念 xff0c 它可以对集合进行操作 xff0c 可以执行非常复杂的查找过滤和映射数据等操作 Stream API 借助于同样新出现的Lambda表达式 xff
MySQL的COUNT语句，竟然都能被面试官虐的这么惨！？

关于数据库中行数统计 xff0c 无论是MySQL还是Oracle xff0c 都有一个函数可以使用 xff0c 那就是COUNT 但是 xff0c 就是这个常用的COUNT函数 xff0c 却暗藏着很多玄机 xff0c 尤其是在面试的时候
git为什么要先commit，然后pull，最后再push？而不是commit完直接push？

情况是这样的 xff0c 现在远程有一个仓库 xff0c 分支就一个 xff0c 是master 然后我本地的仓库是从远程的master上clone下来的大家都是clone下来 xff0c 再在自己本地改好 xff0c 再commit然后
docker将镜像上传到阿里云镜像仓库

1 登录阿里云 username参数是阿里云账号 xff0c 执行后输入密码注意后面登录的地区 beijing hangzhou等 docker login username 61 阿里云账号 registry cn hangzhou a
docker进入容器的方式

进入容器使用 d 参数时 xff0c 容器启动后会进入后台进入容器进行操作 xff0c 包括使用 docker attach 命令或 docker exec 命令 xff0c 推荐用 docker exec 命令 attach 命令实
Docker Hub 镜像加速器

国内从 Docker Hub 拉取镜像有时很慢 xff0c 此时可以配置镜像加速器 Docker 官方和国内很多云服务商都提供了国内加速器服务版本号 Ubuntu 16 04 43 Debian 8 43 CentOS 7 43 配置加速
FFmpeg将多张图片合成视频

FFmpeg将多张图片合成视频从不同目录下多张图合成视频 PipeConcat 容易误解的几个命令 FFmpeg将多张图片合成视频首先要计算出视频的总帧数 xff1a 总帧数 61 duration fps duration是我们设定的视
程序员读书啦！！！

成为Java顶尖程序员 xff0c 看这11本书就够了 xff1a http blog csdn net u012410733 article details 51869105 编程科普书籍推荐 xff1a http blog csdn n
win10系统隐藏u盘EFI分区的方法

打开cmd或powershell xff0c 按如下命令行操作 xff08 以powershell示例 xff0c 及后面文字为注释内容不需要输入 xff09 xff1a diskpart 运行diskpart工具 lis dis 列出所有
hisat2-build

The hisat2 build indexer 使用dna文件构建索引 xff0c 输出后缀为 1 ht2到 8 ht2的八个文件如果索引较大 xff0c 后缀改为ht2l 后续的比对需要这八个文件 xff0c 并且一旦索引构建成功 x

hisat2-build

hisat2-build 的相关文章

随机推荐

热门标签