我正在努力使用 R 读取变体调用格式 (VCF) 的表格。
每个文件都有一些以以下开头的注释行##
,然后是标题开头#
.
## contig=<ID=OTU1431,length=253>
## contig=<ID=OTU915,length=253>
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT /home/sega/data/bwa/reads/0015.2142.fastq.q10sorted.bam
Eubacterium_ruminantium_AB008552 56 . C T 228 . DP=212;AD=0,212;VDB=0;SGB=-0.693147;MQ0F=0;AC=2;AN=2;DP4=0,0,0,212;MQ=59 GT:PL 1/1:255,255,0
如何在不丢失标题的情况下读取这样的表?
使用read.table()
with comment.char = "##"
返回错误:"invalid 'comment.char' argument"
如果你想阅读VCF,你也可以尝试使用readVcf
from VariantAnnotation
在生物导体中。https://bioconductor.org/packages/release/bioc/html/VariantAnnotation.html https://bioconductor.org/packages/release/bioc/html/VariantAnnotation.html
否则,我强烈推荐fread
函数于data.table
包裹。
它允许您使用skip
参数以允许它在找到子字符串时开始导入。
e.g.
fread("test.vcf", skip = "CHROM")
应该管用。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)