Biopython SeqIO 到 Pandas Dataframe

2023-11-23

我有一个可以轻松解析的 FASTA 文件SeqIO.parse.

我对提取序列 ID 和序列长度感兴趣。我用这些行来做到这一点，但我觉得它太重了（两次迭代，转换等）

from Bio import SeqIO
import pandas as pd


# parse sequence fasta file
identifiers = [seq_record.id for seq_record in SeqIO.parse("sequence.fasta",
                                                           "fasta")]
lengths = [len(seq_record.seq) for seq_record in SeqIO.parse("sequence.fasta",
                                                             "fasta")]
#converting lists to pandas Series    
s1 = Series(identifiers, name='ID')
s2 = Series(lengths, name='length')
#Gathering Series into a pandas DataFrame and rename index as ID column
Qfasta = DataFrame(dict(ID=s1, length=s2)).set_index(['ID'])

我只需一次迭代就可以做到这一点，但我得到了一个字典：

records = SeqIO.parse(fastaFile, 'fasta')

我不知何故无法得到DataFrame.from_dict上班...

我的目标是迭代 FASTA 文件，并将 ids 和序列长度获取到DataFrame通过每次迭代。

这里有一个短 FASTA 文件对于那些想要提供帮助的人。

你说得对 - 你绝对不应该解析该文件twice，当您将数据转换为字典时，将数据存储在字典中会浪费计算资源numpy稍后数组。

SeqIO.parse()返回一个生成器，因此您可以逐条记录地迭代，构建一个列表，如下所示：

with open('sequences.fasta') as fasta_file:  # Will close handle cleanly
    identifiers = []
    lengths = []
    for seq_record in SeqIO.parse(fasta_file, 'fasta'):  # (generator)
        identifiers.append(seq_record.id)
        lengths.append(len(seq_record.seq))

See 彼得·科克的回答以更有效的方式从 FASTA 文件中解析 ID 和序列。

你的其余代码对我来说看起来相当不错。但是，如果您确实想优化使用pandas，您可以阅读以下内容：

关于最小化内存使用

咨询来源panda.Series，我们可以看到data内部存储为numpy ndarray:

class Series(np.ndarray, Picklable, Groupable):
    """Generic indexed series (time series or otherwise) object.

    Parameters
    ----------
    data:  array-like
        Underlying values of Series, preferably as numpy ndarray

如果你做identifiers an ndarray，它可以直接用于Series无需构造新数组（参数copy，默认False）将阻止新的ndarray如果不需要则创建。通过将序列存储在列表中，您将强制 Series 将所述列表强制转换为ndarray.

避免初始化列表

如果您事先确切知道您有多少个序列（以及最长的 ID 有多长），您可以初始化一个空的ndarray保存标识符，如下所示：

num_seqs = 50
max_id_len = 60
numpy.empty((num_seqs, 1), dtype='S{:d}'.format(max_id_len))

当然，很难确切地知道您将拥有多少个序列，或者最大的 ID 是多少，因此最简单的方法是让numpy从现有列表转换。然而，这是技术上存储数据以供使用的最快方法pandas.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

biopython

fasta