我从事生物学研究,特别是 DNA,并且经常存在来自基因组测序的数据大小的问题。
对于那些没有生物学背景的人,我将快速概述 DNA 测序。 DNA 由四个字母组成:A、T、G 和 C,它们的具体顺序决定了细胞中发生的情况。
然而,DNA 测序技术的一个主要问题是产生的数据大小(对于整个基因组,通常远大于千兆字节)。
我知道 C 中 int 的大小因计算机而异,但它仍然比四种选择具有更多的信息存储可能性。有没有办法定义一个类型/方式来定义一个只占用 2 或 3 位的“基数”?我一直在寻找定义结构,但恐怕这不是我想要的。谢谢。
另外,这在其他语言中会更好吗(也许是像java这样的更高级别)?
那你就不能把两个 ATGC 集合塞到一个字节里吗?喜欢:
0 1 0 1 1 0 0 1
A T G C A T G C
那么这一字节代表TC,AC?
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)