蛋白质序列编码

2024-02-06

我正在开发一个Python程序来计算一组字符串（蛋白质序列）的突变残基和位置的数字编码，存储在fasta格式文件中，每个蛋白质序列用逗号分隔。我正在尝试找到突变的位置和序列。

我的fasta文件如下：

MTAQDDSYSDGKGDYNTIYLGAVFQLN,MTAQDDSYSDGRGDYNTIYLGAVFQLN,MTSQEDSYSDGKGNYNTIMPGAVFQLN,MTAQDDSYSDGRGDYNTIMPGAVFQLN,MKAQDDSYSDGRGNYNTIYLGAVFQLQ,MKSQEDSYSDGRGDYNTIYLGAVFQLN,MTAQDDSYSDGRGDYNTIYPGAVFQLN,MTAQEDSYSDGRGEYNTIYLGAVFQLQ,MTAQDDSYSDGKGDYNTIMLGAVFQLN,MTAQDDSYSDGRGEYNTIYLGAVFQLN

Example:
下图（基于另一组fasta文件）将解释这背后的算法。在此图中，第一个框表示输入文件序列的对齐。最后一个框代表输出文件。如何使用 Python 中的 fasta 文件执行此操作？

输入文件示例：

MTAQDD,MTAQDD,MTSQED,MTAQDD,MKAQHD


        positions  1  2  3  4  5  6                  1  2  3  4  5  6    
protein sequence1  M  T  A  Q  D  D                     T  A     D
protein sequence2  M  T  A  Q  D  D                     T  A     D    
protein sequence3  M  T  S  Q  E  D                     T  S     E    
protein sequence4  M  T  A  Q  D  D                     T  A     D    
protein sequence5  M  K  A  Q  H  D                     K  A     H

     PROTEIN SEQUENCE ALIGNMENT                   DISCARD NON-VARIABLE REGION    

        positions  2  2  3  3  5  5  5    
protein sequence1  T     A     D       
protein sequence2  T     A     D       
protein sequence3  T        S     E    
protein sequence4  T     A     D       
protein sequence5     K  A           H

突变残基被分成单独的列

输出文件应该是这样的：

position+residue   2T  2K  3A  3S  5D  5E  5H    
       sequence1   1   0   1   0   1   0   0    
       sequence2   1   0   1   0   1   0   0    
       sequence3   1   0   0   1   0   1   0    
       sequence4   1   0   1   0   1   0   0    
       sequence5   0   1   1   0   0   0   1

    (RESIDUES ARE CODED 1 IF PRESENT, 0 IF ABSENT)

我尝试过以下两种方法：

ls= 'MTAQDDSYSDGKGDYNTIYLGAVFQLN,MTAQDDSYSDGRGDYNTIYLGAVFQLN,MTSQEDSYSDGKGNYNTIMPGAVFQLN,MTAQDDSYSDGRGDYNTIMPGAVFQLN,MKAQDDSYSDGRGNYNTIYLGAVFQLQ,MKSQEDSYSDGRGDYNTIYLGAVFQLN,MTAQDDSYSDGRGDYNTIYPGAVFQLN,MTAQEDSYSDGRGEYNTIYLGAVFQLQ,MTAQDDSYSDGKGDYNTIMLGAVFQLN,MTAQDDSYSDGRGEYNTIYLGAVFQLN'.split(',')
pos = [set(enumerate(x, 1)) for x in ls]
a=set().union(*pos)
alle = sorted(set().union(*pos))
print '\t'.join(str(x) + y for x, y in alle)
for p in pos:
    print '\t'.join('1' if key in p else '0' for key in alle)

（这里我得到了突变和非突变残基的列，但我只想要突变残基的列）

from pandas import *
data = 'MTAQDDSYSDGKGDYNTIYLGAVFQLN,MTAQDDSYSDGRGDYNTIYLGAVFQLN,MTSQEDSYSDGKGNYNTIMPGAVFQLN,MTAQDDSYSDGRGDYNTIMPGAVFQLN,MKAQDDSYSDGRGNYNTIYLGAVFQLQ,MKSQEDSYSDGRGDYNTIYLGAVFQLN,MTAQDDSYSDGRGDYNTIYPGAVFQLN,MTAQEDSYSDGRGEYNTIYLGAVFQLQ,MTAQDDSYSDGKGDYNTIMLGAVFQLN,MTAQDDSYSDGRGEYNTIYLGAVFQLN'  
df = DataFrame([list(row) for row in data.split(',')])
df = DataFrame({str(col+1)+val:(df[col]==val).apply(int) for col in df.columns for val in set(df[col])})
print df.select(lambda x: not df[x].all(), axis = 1)

（这里它给出输出，但不是按顺序排列的，即先是 2K，然后是 2T，然后是 3A，这样。）

我应该怎么做？

功能get_dummies为您提供大部分帮助：

In [11]: s
Out[11]: 
0    T
1    T
2    T
3    T
4    K
Name: 1

In [12]: pd.get_dummies(s, prefix=s.name, prefix_sep='')
Out[12]: 
   1K  1T
0   0   1
1   0   1
2   0   1
3   0   1
4   1   0

以及那些具有不同值的列：

In [21]: (df.ix[0] != df).any()
Out[21]: 
0    False
1     True
2     True
3    False
4     True
5    False

将这些放在一起：

In [31]: I = df.columns[(df.ix[0] != df).any()]

In [32]: J = [pd.get_dummies(df[i], prefix=df[i].name, prefix_sep='') for i in I]

In [33]: df[[]].join(J)
Out[33]: 
   1K  1T  2A  2S  4D  4E  4H
0   0   1   1   0   1   0   0
1   0   1   1   0   1   0   0
2   0   1   0   1   0   1   0
3   0   1   1   0   1   0   0
4   1   0   1   0   0   0   1

注意：我创建了初始 DataFrame，如下所示，但是根据您的情况，这可能会更有效：

df = pd.DataFrame(map(list, 'MTAQDD,MTAQDD,MTSQED,MTAQDD,MKAQHD'.split(',')))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

蛋白质序列编码的相关文章

Virtualenv 在 OS X Yosemite 上失败并出现 OSError

我最近更新到 OSX Yosemite 现在无法使用virtualenv pip 每当我执行 virtualenv env 它抛出一个 OSError Command Users administrator ux env bin pytho
使用 django-rest-framework 设置对象级权限

尝试使用 django rest framework 最干净最规范地管理 django guardian 对象级权限我想将对象的读取权限 module view object 分配给在执行 POST 时发出请求的用户我的基于阶级的观点
按边距（“全部”）值列对 Pandas 数据透视表进行排序

我试图根据 pandas 数据透视表中的行总和对最后一列边距 aggrfunc 进行降序排序我知道我在这里错过了一些简单的东西但我无法弄清楚数据框数据透视表 WIDGETS DATE 2 1 16 2 2 16 2 3 16 Al
从 Azure ML 实验中访问 Azure Blob 存储

Azure ML 实验提供了通过以下方式读取 CSV 文件并将其写入 Azure Blob 存储的方法 Reader and Writer模块但是我需要将 JSON 文件写入 blob 存储由于没有模块可以执行此操作因此我尝试在Ex
无法在 selenium 和 requests 之间传递 cookie，以便使用后者进行抓取

我用 python 结合 selenium 编写了一个脚本来登录网站然后从driver to requests这样我就可以继续使用requests进行进一步的活动 I used item soup select one div class
如何过滤 Pandas GroupBy 对象并获取 GroupBy 对象？

当对 Pandas groupby 操作的结果执行过滤时它返回一个数据帧但假设我想执行进一步的分组计算我必须再次调用 groupby 这似乎有点绕有更惯用的方法吗 EDIT 为了说明我在说什么我们无耻地从 Pandas 文档中窃取
创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp
python 中的 <> 运算符有什么作用？

我刚刚遇到这个here http www feedparser org feedparser py 总是这样使用 if string1 find string2 lt gt 1 pass 什么是 lt gt 运算符这样做为什么不使用通常的
运行 Python 单元测试，以便成功时不打印任何内容，失败时仅打印 AssertionError()

我有一个标准单元测试格式的测试模块 class my test unittest TestCase def test 1 self tests def test 2 self tests etc 我的公司有一个专有的测试工具它将作为命令行
Python将文本文件解析为嵌套字典

考虑以下数据结构 HEADER1 key value key value HEADER2 key value key value HEADER3 key value HEADER4 key value key value 原始数据中没有缩进
给定一个排序数组，就地删除重复项，使每个元素仅出现一次并返回新长度

完整的问题我开始在线学习 python 但对这个标记为简单的问题有疑问给定一个排序数组就地删除重复项使得每个元素只出现一次并返回新的长度不分配另一个数组的额外空间您必须通过修改输入来完成此操作数组就地具有 O 1 额外内
是否需要关闭没有引用它们的文件？

作为一个完全的编程初学者我试图理解打开和关闭文件的基本概念我正在做的一项练习是创建一个脚本允许我将内容从一个文件复制到另一个文件 in file open from file indata in file read out file
Python 中维基百科 API 中的 DisambiguationError 和 GuessedAtParserWarning

我想获得维基百科与搜索词相关的可能且可接受的名称列表在这种情况下是电晕当输入以下内容时 print wikipedia summary Corona 这给出了以下输出 home virej local lib python3 8 si
使用 PIL 在 Tkinter 中显示动画 GIF

我正在尝试制作一个程序来使用 Tkinter 显示动画 GIF 这是我最初使用的代码 from future import division Just because division doesn t work right in 2 7 4
无法通过 Python 子进程进行 SSH

我需要通过堡垒 ssh 进入机器因此该命令相当长 ssh i
AWS Lambda 不读取环境变量

我正在编写一个 python 脚本来查询 Qualys API 中的漏洞元数据我在 AWS 中将其作为 lambda 函数执行我已经在控制台中设置了环境变量但是当我执行函数时出现以下错误 module initialization
pandas 中数据帧中的随机/洗牌行

我目前正在尝试找到一种方法来按行随机化数据框中的项目我在 pandas 中按列洗牌排列找到了这个线程在 pandas 中对 DataFrame 进行改组排列 https stackoverflow com questions 157
IndexError - 具有匀称形状的笛卡尔 PolygonPatch

我曾经使用 shapely 制作一个圆圈并将其绘制在之前填充的图上这曾经工作得很好最近我收到索引错误我将代码分解为最简单的操作但它甚至无法执行最简单的循环 import descartes import shapely geome
python从二进制文件中读取16字节长的双精度值

我找到了蟒蛇struct unpack 读取其他程序生成的二进制数据非常方便问题如何阅读16 字节长双精度数出二进制文件以下 C 代码将 1 01 写入二进制文件三次分别使用 4 字节浮点型 8 字节双精度型和 16 字节长双精度型
用于插入或替换 URL 参数的 Django 模板标签

有人知道 Django 模板标签可以获取当前路径和查询字符串并插入或替换查询字符串值吗例如向 some custom path q how now brown cow page 3 filter person 发出请求电话 urlpar

随机推荐

JSON.parse() 是如何工作的？

我没有在 javascript 上做太多工作而且我需要解析一个 JSON 字符串所以我想知道 JSON parse 到底做了什么例如如果我将 json 字符串分配给这样的变量 var ab name abcd details a
（为什么）移动构造函数或移动赋值运算符应该清除其参数？

我正在学习的 C 课程中的移动构造函数实现示例看起来有点像这样 Move constructor Motorcycle Motorcycle Motorcycle ori m wheels std move ori m wheels m s
React Native 中的 PhaseScriptExecution [CP-User] 错误

现在每次我创建一个新项目react native init ProjectName创建后我做npx pod install进而react native run ios它给了我错误我创建的每个新项目都会发生这种情况我不确定是否需要进行更新
长赋值和双赋值不是原子的 - 这有什么关系？

我们知道 long 和 double 赋值在 Java 中不是原子的除非它们被声明为 volatile 我的问题是它在我们的编程实践中到底有多重要例如如果您看到下面的类其对象在多个线程之间共享 The below class is
Facebook向多个朋友“发送”对话

这个想法是用户可以请求几个朋友对他们所做的事情提供反馈我有一个朋友选择器效果很好从这里我得到用户 ID 然后我调用发送对话框结果有多个收件人而只有一个有谁知道为什么 FB ui method send name Test to
Blazor WebAssembly：同一组件渲染上的多个路由

我实际上正在试验 Blazor WebAssembly 除了一件事之外一切都很好我的想法是我想共享相同的组件来创建或编辑项目组件的名称是 CreateOrEdit razor 我有两条路线 page master maker crea
单击注销按钮后终止会话并重定向到登录页面

我在JSP中有以下代码
Sass 加载器和 webpack 4

如何在 webpack 4 中使用 sass 加载器我读了很多关于这方面的内容大多数网站建议使用 ExtractTextPlugin 但 ExtractTextPlugin 不适用于 webpack 4 我写了以下内容webpack c
将 IplImage IPL_DEPTH_32S 转换为 QImage Format_RGB32 的最快方法

将 IplImage IPL DEPTH 32S 转换为 QImage Format RGB32 最快的方法是什么我需要从摄像头捕捉图片并将其显示在表格上频率为每秒 30 帧我尝试使用 QImage 构造函数 QImage qImag
jquery触发事件

我们如何在活动对象上调用触发单击事件 continue live keypress function if e which 32 e which 13 this trigger click 当我按按钮上的 Enter 时它会进入 if 块
Xcode 4.5 + UIScrollView：看不到支柱和弹簧（OSX 10.8 Mountain Lion）

免责声明 iOS 开发全新对我轻松一些在 Xcode 4 5 中遇到了一个有趣的情况我的尺寸检查器看起来像这样和我根本看不到支柱和弹簧区域真正奇怪的部分是当我点击连接检查器之类的东西时我确实看到了支柱和弹簧区域但只看到了一瞬
如何在不同存储库中的多个解决方案之间共享源代码库？

我有一个公共库我想在几个解决方案之间共享该库存储在不同的 github 存储库中我们将共享库放在单独的 GitHub 存储库中并创建了 nuget 包可以将其安装在每个所需的项目解决方案中缺点是更改库中的代码涉及几个步骤更改代
HTML5 Web 存储抽象库

根据我对 HTML5 中 Web 存储的了解有许多不同的存储选项不同浏览器的支持也不同是否有任何流行的库用于在 HTML5 应用程序中抽象 Web 存储有几个基于 YUI 的库用于抽象底层存储 YUI 2 存储实用程序 http d
以编程方式获取 ec2 定价？

有没有办法以编程方式获取 AWS 定价每种实例类型的每小时成本 S3 上每月每 GB 存储的成本等另外有成本监控工具吗例如是否有一种工具可以按小时报告您的 EC2 实例使用情况而不是每月亚马逊就是这么做的提前致谢 UPDAT
在 WebRequest 中强制进行基本身份验证

我正在集成将使用的网络服务 HTTP POST 用于请求和检索数据远程服务器需要根据 RFC 2617 进行基本身份验证我的身份验证尝试失败了它失败的原因是即使我将 NetworkCredential 对象附加到 HttpWebR
Angular 6 ng build --prod 错误“错误错误：ngIfElse 必须是 TemplateRef，但收到‘true’。”

ERROR 错误 ngIfElse 必须是 TemplateRef 但收到 true HTML 文件
每行显示 3 个项目 - while 循环 - php/mysql [重复]

这个问题在这里已经有答案了我目前正在开发一个循环来显示 mysql 表中的项目有没有一种简单的方法可以每行显示 3 个项目到目前为止我设法在 html 表格内的一行中显示所有项目我将不胜感激任何帮助代码不带 html 表标签
自动刷新网页

我有一个网页允许用户执行各种操作进而修改数据库此外此 Web 应用程序需要跟踪数据库中随时间不断变化的各个字段每隔几秒刷新一次页面是实现此目的的最佳方法吗例如如果页面上有一个很长的列表需要滚动则由于刷新导致页面不断重置因此
Android：如何录制视频并实时处理其帧？

我有一个 SurfaceView 和一个 MediaRecorder 我用它来显示和录制视频现在我想实时访问该视频上的各个帧以对其进行一些处理我可以通过 MediaRecorder 对象访问帧吗或者我必须添加一个监听器 None
蛋白质序列编码

我正在开发一个Python程序来计算一组字符串蛋白质序列的突变残基和位置的数字编码存储在fasta格式文件中每个蛋白质序列用逗号分隔我正在尝试找到突变的位置和序列我的fasta文件如下 MTAQDDSYSDGKGDYNTIYLG

蛋白质序列编码

蛋白质序列编码 的相关文章

随机推荐

热门标签

蛋白质序列编码的相关文章