如何合并两个fasta文件并删除重复信息？

2023-12-25

我想合并两个 fasta 文件并删除重复信息。

这是一些例子

>Symbiotaphrina_buchneri|DQ248313|SH1641879.08FU|reps|k__Fungi;p__Ascomycota;c__Xylonomycetes;o__Symbiotaphrinales;f__Symbiotaphrinaceae;g__Symbiotaphrina;s__Symbiotaphrina_buchneri
ACGATTTTGACCCTTCGGGGTCGATCTCCAACCCTTTGTCTACCTTCCTTGTTGCTTTGGCGGGCCGATGTTCGTTCTCGCGAACGACACCGCTGGCCTGACGGCTGGTGCGCGCCCGCCAGAGTCCACCAAAACTCTGATTCAAACCTACAGTCTGAGTATATATTATATTAAAACTTTCAACAACGGATCTCTTGGTTCTGGCATCGATGAAGAACGCAGCGAAATGCGATAAGTAATGTGAATTGCAGAATTCAGTGAATCATCGAATCTTTGAACGCACATTGCGCCCCTTGGTATTCCGAGGGGCATGCCTGTTCGAGCGTCATTTCACCACTCAAGCTCAGCTTGGTATTGGGTCATCGTCTGGTCACACAGGCGTGCCTGAAAATCAGTGGCGGTGCCCATCCGGCTTCAAGCATAGTAATTTCTATCTTGCTTTGGAAGTCTCCGGAGGGTTACACCGGCCAACAACCCCAATTTTCTATG
>Dactylonectria_anthuriicola|JF735302|SH1546329.08FU|refs|k__Fungi;p__Ascomycota;c__Sordariomycetes;o__Hypocreales;f__Nectriaceae;g__Dactylonectria;s__Dactylonectria_anthuriicola
CCGAGTTTTCAACTCCCAAACCCCTGTGAACATACCATTTTGTTGCCTCGGCGGTGCCTGTTCCGACAGCCCGCCAGAGGACCCCAAACCCAAATTTCCTTGAGTGAGTCTTCTGAGTAACCGATTAAATAAATCAAAACTTTCAACAACGGATCTCTTGGTTCTGGCATCGATGAAGAACGCAGCGAAATGCGATAAGTAATGTGAATTGCAGAATTCAGTGAATCATCGAATCTTTGAACGCACATTGCGCCCGCCAGTATTCTGGCGGGCATGCCTGTTCGAGCGTCATTTCAACCCTCAAGCCCCCGGGCTTGGTGTTGGGGATCGGCGAGCCTCTGCGCCCGCCGTCCCCTAAATTGAGTGGCGGTCACGTTGTAACTTCCTCTGCGTAGTAGCACACTTAGCACTGGGAAACAGCGCGGCCACGCCGTAAAACCCCCAACTTTGAACG
>Ilyonectria_robusta|JF735264|SH1546327.08FU|refs|k__Fungi;p__Ascomycota;c__Sordariomycetes;o__Hypocreales;f__Nectriaceae;g__Ilyonectria;s__Ilyonectria_robusta
CCGAGTTTACAACTCCCAAACCCCTGTGAACATACCATATTGTTGCCTCGGCGGTGTCTGTTTCGGCAGCCCGCCAGAGGACCCAAACCCTAGATTACATTAAAGCATTTTCTGAGTCAATGATTAAATCAATCAAAACTTTCAACAACGGATCTCTTGGTTCTGGCATCGATGAAGAACGCAGCGAAATGCGATAAGTAATGTGAATTGCAGAATTCAGTGAATCATCGAATCTTTGAACGCACATTGCGCCCGCCAGTATTCTGGCGGGCATGCCTGTCCGAGCGTCATTTCAACCCTCAAGCCCCCGGGCTTGGTGTTGGAGATCGGCGAGCCCCCCGGGGCGCGCCGTCTCCCAAATATAGTGGCGGTCCCGCTGTAGCTTCCTCTGCGTAGTAGCACACCTCGCACTGGGAAACAGCGTGGCCACGCCGTAAAACCCCCCACTTCTGAAAG
>Symbiotaphrina_buchneri|DQ248313|SH1641879.08FU|reps|k__Fungi;p__Ascomycota;c__Xylonomycetes;o__Symbiotaphrinales;f__Symbiotaphrinaceae;g__Symbiotaphrina;s__Symbiotaphrina_buchneri
ACGATTTTGACCCTTCGGGGTCGATCTCCAACCCTTTGTCTACCTTCCTTGTTGCTTTGGCGGGCCGATGTTCGTTCTCGCGAACGACACCGCTGGCCTGACGGCTGGTGCGCGCCCGCCAGAGTCCACCAAAACTCTGATTCAAACCTACAGTCTGAGTATATATTATATTAAAACTTTCAACAACGGATCTCTTGGTTCTGGCATCGATGAAGAACGCAGCGAAATGCGATAAGTAATGTGAATTGCAGAATTCAGTGAATCATCGAATCTTTGAACGCACATTGCGCCCCTTGGTATTCCGAGGGGCATGCCTGTTCGAGCGTCATTTCACCACTCAAGCTCAGCTTGGTATTGGGTCATCGTCTGGTCACACAGGCGTGCCTGAAAATCAGTGGCGGTGCCCATCCGGCTTCAAGCATAGTAATTTCTATCTTGCTTTGGAAGTCTCCGGAGGGTTACACCGGCCAACAACCCCAATTTTCTATG

我努力了

$ cat Unite/sh_general_release_dynamic_02.02.2019.fasta \
  Unite_61635/sh_general_release_dynamic_s_02.02.2019.fasta \
  > mergeUnite/MergeUnite.temp.fasta

合并文件后，我使用fastx_collapser折叠重复信息。然而，使用fastx_collapser后，我会丢失分类信息并变成：

>1-234
ATCG........

预期输出应该是：

>Symbiotaphrina_buchneri|DQ248313|SH1641879.08FU|reps|k__Fungi;p__Ascomycota;c__Xylonomycetes;o__Symbiotaphrinales;f__Symbiotaphrinaceae;g__Symbiotaphrina;s__Symbiotaphrina_buchneri
ACGATTTTGACCCTTCGGGGTCGATCTCCAACCCTTTGTCTACCTTCCTTGTTGCTTTGGCGGGCCGATGTTCGTTCTCGCGAACGACACCGCTGGCCTGACGGCTGGTGCGCGCCCGCCAGAGTCCACCAAAACTCTGATTCAAACCTACAGTCTGAGTATATATTATATTAAAACTTTCAACAACGGATCTCTTGGTTCTGGCATCGATGAAGAACGCAGCGAAATGCGATAAGTAATGTGAATTGCAGAATTCAGTGAATCATCGAATCTTTGAACGCACATTGCGCCCCTTGGTATTCCGAGGGGCATGCCTGTTCGAGCGTCATTTCACCACTCAAGCTCAGCTTGGTATTGGGTCATCGTCTGGTCACACAGGCGTGCCTGAAAATCAGTGGCGGTGCCCATCCGGCTTCAAGCATAGTAATTTCTATCTTGCTTTGGAAGTCTCCGGAGGGTTACACCGGCCAACAACCCCAATTTTCTATG
>Dactylonectria_anthuriicola|JF735302|SH1546329.08FU|refs|k__Fungi;p__Ascomycota;c__Sordariomycetes;o__Hypocreales;f__Nectriaceae;g__Dactylonectria;s__Dactylonectria_anthuriicola
CCGAGTTTTCAACTCCCAAACCCCTGTGAACATACCATTTTGTTGCCTCGGCGGTGCCTGTTCCGACAGCCCGCCAGAGGACCCCAAACCCAAATTTCCTTGAGTGAGTCTTCTGAGTAACCGATTAAATAAATCAAAACTTTCAACAACGGATCTCTTGGTTCTGGCATCGATGAAGAACGCAGCGAAATGCGATAAGTAATGTGAATTGCAGAATTCAGTGAATCATCGAATCTTTGAACGCACATTGCGCCCGCCAGTATTCTGGCGGGCATGCCTGTTCGAGCGTCATTTCAACCCTCAAGCCCCCGGGCTTGGTGTTGGGGATCGGCGAGCCTCTGCGCCCGCCGTCCCCTAAATTGAGTGGCGGTCACGTTGTAACTTCCTCTGCGTAGTAGCACACTTAGCACTGGGAAACAGCGCGGCCACGCCGTAAAACCCCCAACTTTGAACG
>Ilyonectria_robusta|JF735264|SH1546327.08FU|refs|k__Fungi;p__Ascomycota;c__Sordariomycetes;o__Hypocreales;f__Nectriaceae;g__Ilyonectria;s__Ilyonectria_robusta
CCGAGTTTACAACTCCCAAACCCCTGTGAACATACCATATTGTTGCCTCGGCGGTGTCTGTTTCGGCAGCCCGCCAGAGGACCCAAACCCTAGATTACATTAAAGCATTTTCTGAGTCAATGATTAAATCAATCAAAACTTTCAACAACGGATCTCTTGGTTCTGGCATCGATGAAGAACGCAGCGAAATGCGATAAGTAATGTGAATTGCAGAATTCAGTGAATCATCGAATCTTTGAACGCACATTGCGCCCGCCAGTATTCTGGCGGGCATGCCTGTCCGAGCGTCATTTCAACCCTCAAGCCCCCGGGCTTGGTGTTGGAGATCGGCGAGCCCCCCGGGGCGCGCCGTCTCCCAAATATAGTGGCGGTCCCGCTGTAGCTTCCTCTGCGTAGTAGCACACCTCGCACTGGGAAACAGCGTGGCCACGCCGTAAAACCCCCCACTTCTGAAAG

是否有另一种方法可以在不丢失分类信息的情况下执行此操作？

以下 awk 行将删除重复信息。我可以通过 3 种方式查看如何检测重复项：

序列名称相同：

简短的版本是：

$ awk '/^>/{p=seen[$0]++}!p' file1.fasta file2.fasta file3.fasta ...

然而，以下版本引入了更多的清晰度，并允许任何用户快速适应他的需求：

$ awk 'BEGIN{RS=">"; FS="\n"; ORS=""}
       (FNR==1){next}
       { name=$1; seq=$0; gsub(/(^[^\n]*|)\n/,"",seq) }
       !(seen[name]++){ print ">" $0 }' file1.fasta file2.fasta file3.fasta ...

这里我们引入了变量name它保存序列名称和变量seq保存序列本身。多行序列被移动到变量中的单行。

如前所述，当使用其他指标来确定重复时，这很容易适应。例如。

序列名称的第一部分相同：

$ awk 'BEGIN{RS=">"; FS="\n"; ORS=""}
       (FNR==1){next}
       { name=$1; seq=$0; gsub(/(^[^\n]*|)\n/,"",seq) }
       { key=substr(name,1,index(s,"|")) }
       !(seen[key]++){ print ">" $0 }' file1.fasta file2.fasta file3.fasta ...

序列相同：

$ awk 'BEGIN{RS=">"; FS="\n"; ORS=""}
       (FNR==1){next}
       { name=$1; seq=$0; gsub(/(^[^\n]*|)\n/,"",seq) }
       !(seen[seq]++){ print ">" $0 }' file1.fasta file2.fasta file3.fasta ...

序列名称和序列相同：

$ awk 'BEGIN{RS=">"; FS="\n"; ORS=""}
       (FNR==1){next}
       { name=$1; seq=$0; gsub(/(^[^\n]*|)\n/,"",seq) }
       !(seen[name,seq]++){ print ">" $0 }' file1.fasta file2.fasta file3.fasta ...

在某些部分你当然可以清理。您并不总是需要name确定重复项（参见序列相同）或者你并不总是需要seq (see 序列名称相同）。这允许您删除代码的某些部分。我只是保持这种方式，没有清理，以展示您可以使用的方法。

note:上面利用了如果字段重复则删除行 https://stackoverflow.com/questions/2604088/remove-line-if-field-is-duplicate

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

cat

fasta

如何合并两个fasta文件并删除重复信息？的相关文章

如何找到表列数据中最长的字符串

我有一个表包含类似的列 Prefix CR g WR 1 WR 2 WR 3 WR 4 v WR 3 WR 4 j WR 2 m WR 1 d WR 3 WR 4 f9 WR 3 我想从中检索数据CR列其中具有最长的文本字符串即在当前表中

随机推荐

Ionic 4 从历史记录中删除页面 (Android)

Android 设备的菜单工具栏上有后退按钮当我登录我的应用程序并单击后退按钮在登录页面上路由时我想禁用这种可能性我希望如果用户在登录后单击后退按钮那么我会关闭应用程序下面是我的初始路由代码 if token this route
如何在从“超级”接口扩展的接口方法上创建方面

我有一个从基本接口扩展的服务层接口我想围绕我的服务层接口创建一个切入点但在基本接口中定义的方法之一上例如我的基本接口中有一个名为 save 的方法我将其放入我的基本接口中因为我的所有子接口都会提供保存功能我想仅在我的
读取java源文件时使用什么字符集？

我正在读这个源代码是否应该以 UTF 8 格式保存 https stackoverflow com questions 2178348 should source code be saved in utf 8 format 我正在使用 e
过滤 SQL 连接中的重复项

使用 SQL 连接时是否可以仅保留左表中只有一行的行例如 select from A B where A id B a id a1 b1 a2 b1 a2 b2 在本例中我想删除除第一行之外的所有行其中 A 中的一行与 B 中的 1
导入 postgres 数字类型的 csv 文件

我需要将文件导入到 Postgres 数据库并收到此错误 Fabrica 中整数的输入语法无效 1 SQL状态 22P02 我的命令是 copy trazabilidade fabrica integer idChapa integer d
配置 Equinox 修改“本地捆绑包缓存”的管理

关于之前的一个问题如何让 OSGi 通过 Config Admin 重用您的配置 https stackoverflow com questions 1221951 how let osgi config admin persist re
如何在没有来源的情况下删除图像周围的边框？

我有一个图像但尚未定义来源它有一个边框 eg img src 如果我给它一个源边框就会消失由于 css border none 当图像没有来源时如何删除图像周围的边框我可以建议的是如果没有 src 将其删除您可以 img d
为什么 void_t 在 SFINAE 中不起作用，但 enable_if 可以

我试图理解如何SFINAE有效我正在尝试这段代码 include
如何为新的 SDK csproj 文件添加 resx 文件的 glob

如果我将一个新的 resx 文件添加到 VS2017 中的新 dotnet standard 2 0 SDK 项目中的属性文件夹中我会看到
将子域映射到 Google App Engine 项目中的服务

我有一个带有以下 yaml 文件的 Google App Engine 项目 handlers url web script web server app url api script rest server app 如何确保我拥有的域的子
识别多个文件上传中的每个字段

当尝试使用 Struts 2 上传多个文件时ArrayList 如何识别各个字段例如如果我有两个文件字段 File1 and File2在客户端我选择仅上传File2 Struts 2 仅在列表中创建一个元素我无法正确映射File1
Vue js 作为另一个网站上的小部件

我想知道是否可以构建一个可以嵌入到另一个站点的 vuejs 组件问题是该组件会在网站上多次显示因此我无法访问根元素我知道一种方法可以在 React 中做到这一点但我宁愿在 Vue 中做到这一点对的这是可能的我很久以前创建了这个
使用支持库中的 GridLayout 会导致“NoSuchMethodError：android.support.v4.view.ViewCompat.getLayoutDirection”

我在我的应用程序中使用 GridLayout 并且它工作得很好现在我还必须支持 android 3 xx 所以我包含了 android support library v7 我刚刚更改了所有地方的 GridLayout 和 LayoutP
我可以更改 ASP.Net MVC 3 应用程序物理视图的搜索顺序吗

我注意到 Asp net MVC 3 在 cshtml 文件之前搜索 aspx 文件我可以更改此搜索顺序吗以及如何做到这一点背景资料调试时我得到以下异常 The view Reset or its master was not fo
我们可以在Java中制作无符号字节吗

我正在尝试将有符号字节转换为无符号字节问题是我收到的数据是无符号的而Java不支持无符号字节因此当它读取数据时它会将其视为有符号的我尝试通过从 Stack Overflow 获得的以下解决方案来转换它 public static
是否可以以正确的比例渲染两种尺寸的图像

我有一个网站其中的产品只有一张与之相关的图片图片尺寸一般为 200 200 在一个地方我想以 100X100 的分辨率显示图像而在另一个地方则以 75X75 的分辨率显示图像是否可以按相同比例正确显示图像现在图像在某些地方看起
ModuleNotFoundError：没有名为“app”的模块 fastapi docker

FROM python 3 8 WORKDIR app COPY requirements txt RUN pip install requirement requirements txt COPY app app EXPOSE 8000
由简单的for循环引起的javascript无限循环

由于这一小段代码我得到了无限循环如果我在循环之前将 var i 声明为任何值即 var i 0 它就会变得固定我不确定为什么熟悉 javascript 复杂性的人可以向我解释一下这里发生了什么吗 for num 1 num lt
使用 Google 标签管理器跟踪 ID 和客户端 ID

使用analytics js 我可以使用以下函数访问trackingId或clientId ga getAll 0 get trackingId ga getAll 0 get clientId 使用 Google 标签管理器没有 ga
如何合并两个fasta文件并删除重复信息？

我想合并两个 fasta 文件并删除重复信息这是一些例子 gt Symbiotaphrina buchneri DQ248313 SH1641879 08FU reps k Fungi p Ascomycota c Xylonomycet

如何合并两个fasta文件并删除重复信息？

如何合并两个fasta文件并删除重复信息？ 的相关文章

随机推荐

热门标签

如何合并两个fasta文件并删除重复信息？的相关文章