Biopython 成对比对导致循环运行时分段错误

2024-04-24

我正在尝试运行成对全局对齐方法biopython循环大约 10000 对字符串。每个字符串平均长度为 20 个字符。对一对序列运行该方法效果很好。但在循环中运行此操作(低至 4 对)会导致分段错误。如何解决这个问题?

from Bio import pairwise2
def myTrial(source,targ):

     if source == targ:
         return [source,targ,source]

     alignments = pairwise2.align.globalmx(source, targ,1,-0.5)
     return alignments
sour = ['najprzytulniejszy', 'sadystyczny', 'wyrzucić', 'świat']
targ = ['najprzytulniejszym', 'sadystycznemu', 'wyrzucisz', 'świat']
for i in range(4):
   a = myTrial(sour[i],targ[i])

分段错误不会发生,因为您正在使用循环,而是因为您提供非 ASCII 字符作为仅接受 ASCII 字符串输入的对齐模式的输入。幸运的是,Bio.pairwise2.align.globalmx还允许对齐包含任意 ASCII 和非 ASCII 字符字符串作为标记的列表(即对齐字符串列表,例如['ABC', 'ABD'] with ['ABC', 'GGG']产生像这样的对齐方式

['ABC', 'ABD', '-'  ]
['ABC', '-'  , 'GGG']

或者在您的情况下,对齐非 ASCII 字符列表,例如['ś', 'w', 'i', 'a', 't'] and ['w', 'y', 'r', 'z', 'u', 'c', 'i', 's', 'z']产生像这样的对齐方式

['ś', 'w', '-', '-', '-', '-', '-', 'i', 'a', 't', '-', '-']
['-', 'w', 'y', 'r', 'z', 'u', 'c', 'i', '-', '-', 's', 'z']

要使用 Biopython 完成此操作,请在代码中替换

alignments = pairwise2.align.globalmx(source, targ,1,-0.5)

with

alignments = pairwise2.align.globalmx(list(source), list(targ), 1, -0.5, gap_char=['-'])

所以对于输入

source = 'świat'
targ = 'wyrzucisz'

修改后的代码将产生

[(['ś', 'w', '-', '-', '-', '-', '-', 'i', 'a', 't', '-', '-'],
  ['-', 'w', 'y', 'r', 'z', 'u', 'c', 'i', '-', '-', 's', 'z'],
  2.0,
  0,
  12)]

而不是分段错误。

由于列表中的每个标记只有一个字符长,因此您还可以使用以下方法将生成的对齐列表转换回字符串:

new_alignment = []

for aln in alignment:
    # Convert lists back into strings
    a = ''.join(aln[0])
    b = ''.join(aln[1])

    new_aln = (a, b) + aln[2:]
    new_alignment.append(new_aln)

在上面的例子中,new_alignment那么就会是

[('św-----iat--', '-wyrzuci--sz', 2.0, 0, 12)]

如预期的。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Biopython 成对比对导致循环运行时分段错误 的相关文章

随机推荐