寻找连续重复序列的算法

2024-04-09

我正在寻找一种算法，可以在基因组序列中找到短串联重复。

基本上，给定一个非常长的字符串，它只能包含 4 个字符“ATCG”，我需要找到彼此相邻的 2-5 个字符长之间的短重复。

前任： TACATGAGATCATGATGATGATGATGGAGCTGTGAGATC 会给嘎嘎嘎嘎或 ATG 重复 3 次

该算法需要扩展到 100 万个字符的字符串，因此我试图尽可能接近线性运行时间。

我当前的算法：由于重复长度可以是 2-5 个字符，因此我逐个字符检查字符串，看看第 N 个字符是否与第 N+X 个字符相同，其中 X 为 2 到 5。每个 X 都有一个按顺序计数的计数器匹配并在不匹配时重置，当 X = 计数器时我们知道是否有重复。然后可以手动检查后续重复。

你正在看着每一个给你的角色O(n)，因为您比较每个字符的下一个 (maximum) 五个字符，这给你一个常数c:

var data    = get_input();
var compare = { `A`, `T`, `G`, `A`, `T` }         // or whatever
var MAX_LOOKAHEAD = compare.length
var n
var c

for(n = data_array.length; n < size; i++) {       // Has runtime O(n)

  for(c = 0; c < MAX_LOOKAHEAD; c++) {            // Maximum O(c)

    if( compare[c] != data[i+c] ) {
      break;
    } else {
      report( "found match at position " + i )
    }

  }
}

很容易看出这个运行O(n*c)次。自从c非常小，可以忽略 - 而且我认为无法摆脱该常量 - 这导致总运行时间为O(n).

好消息：

您可以通过并行化来加快速度。例如。你可以把它分成k间隔并让多个线程通过给它们适当的开始和结束索引来为您完成工作。这可以给你一个线性加速比.

如果您这样做，请确保将交叉点视为特殊情况，因为如果您的间隔将一场比赛分成两部分，您可能会错过一场比赛。

E.g. n = 50000:

4个线程的分区：(n/10000) - 1 = 4。第 5 个线程不会有很多事情要做，因为它只是处理交叉点，这就是为什么我们不需要考虑它的 (在我们的例子中很小）高架。

1                 10000               20000               40000               50000
|-------------------|-------------------|-------------------|-------------------|
| <-   thread 1  -> | <-   thread 2  -> | <-   thread 3  -> | <-   thread 4  -> |
                  |---|               |---|               |---|              
                    |___________________|___________________|
                                        |
                                     thread 5

它可能是这样的：

var data;
var compare = { `A`, `T`, `G`, `A`, `T` };
var MAX_LOOKAHEAD = compare.length;

thread_function(args[]) {

    var from = args[0];
    var to   = args[1];

    for(n = from ; n < to ; i++) {

      for(c = 0; c < MAX_LOOKAHEAD; c++) {
        if( compare[c] != data[i+c] ) {
          break;
        } else {
          report( "found match at position " + i )
        }
      }
    }
}

main() {
    var data_size     = 50000;
    var thread_count  = 4;
    var interval_size = data_size / ( thread_count + 1) ;

    var tid[]

    // This loop starts the threads for us:

    for( var i = 0; i < thread_count; i++ ) {
        var args = { interval_size * i, (interval_size * i) + interval_size };

        tid.add( create_thread( thread_function, args ) );
    }

    // And this handles the intersections:

    for( var i = 1; i < thread_count - 1; i++ ) {
        var args = { interval_size * i, (interval_size * i) + interval_size };

        from = (interval_size * i) - compare.length + 1;
        to   = (interval_size * i) + compare.length - 1;

        for(j = from; j < to ; j++) {

            for(k = 0; k < MAX_LOOKAHEAD; k++) {
                if( compare[k] != data[j+k] ) {
                    break;
                } else {
                    report( "found match at position " + j )
                }
            }
        }
    }

    wait_for_multiple_threads( tid );
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

string

Algorithm

Sequence

寻找连续重复序列的算法的相关文章

最慢的计算复杂度（Big-O）

在这些算法中我知道 Alg1 是最快的因为它是 n 平方的接下来是 Alg4 因为它是 n 的立方然后 Alg2 可能是最慢的因为它是 2 n 这应该具有非常差的性能然而Alg3和Alg5在我的阅读速度方面还没有遇到过这两种算
为什么你可以在字符串上重载 __radd__ 而不是 __rmod__ ？

在Python中您可以覆盖右和左加法运算符
寻找将集合映射到整数的双射函数

对于任意两个序列 a b 其中 a a1 a2 an 且 b b1 b2 bn 0a b具有相同的元素而不关心它们的顺序例如如果 a 1 1 2 3 b 2 1 3 1 c 3 2 1 3 则 f a f b f a f b 我知道有
从 PHP 中的字符串中删除转义序列

我正在使用一个已转义字符序列的 mysqldump 文件我需要知道字符串的长度作为其数据库值但转储中包含转义字符这会增加字符串的长度我用过stripslashes 它正确地取消转义单引号和双引号但它不会触及 r n 我担心其中还有
如何快速防止标签中出现孤儿？

我有一个可以有一两行的标签如果它有两行我希望第二行至少有两个或者可能三个单词而不仅仅是一个关于如何使用 swift 实现这一点有什么想法吗提前致谢 Daniel 编辑我删除了我愚蠢的第一个想法这些想法并没有真正的帮助好吧
为什么该字符串的长度比其中的字符数长？

这段代码 string a abc string b A C Console WriteLine Length a 0 a Length Console WriteLine Length b 0 b Length outputs Lengt
Objective-C 使用字符串池吗？

我知道Java https stackoverflow com questions 3801343 what is string pool in java and C http msdn microsoft com en us librar
C# 中单个 & 符号的第二个含义是什么？

我在 C 中使用了单个与号来表示检查second条件语句即使第一个是false 但以下似乎是不同的意思 of 总而言之谁能解释一下如何i 1在下面的例子中有效吗 List
将字符串中的“奇怪”字符转换为罗马字符

我需要能够将用户输入仅转换为 a z 罗马字符不区分大小写所以我感兴趣的角色只有26个然而用户可以输入他们想要的任何形式的字符西班牙语 n 法语 e 和德语 u 都可以包含用户输入中的重音符号这些重音符号会被程序删除我已
0-1背包算法

以下 0 1 背包问题是否可解浮动正值和浮动权重可以是正数或负数背包的浮动容量 gt 0 我平均有这是一个相对简单的二进制程序我建议用蛮力进行修剪如果任何时候你超过了允许的重量你不需要尝试其他物品的组合你可以丢弃整
关于在字典中查找所有有效单词的算法问题

给定一个字典只是一个字符串列表您收到来自外部来源的未知数量的信件给定字母串您将如何列出您可以通过这些字母的任意组合组成的所有有效单词来自字典因此如果您收到 applead 你应该找到apple bad pad lead等我知
URL路径相似度/字符串相似度算法

我的问题是我需要比较 URL 路径并推断它们是否相似下面我提供了要处理的示例数据 GROUP 1 robots txt GROUP 2 bot html GROUP 3 phpMyAdmin 2 5 6 rc1 scripts setup
为什么 Java 11 中对于空白字符串 String.strip() 比 String.trim() 快 5 倍

我遇到过一个有趣的场景因为某些原因strip 针对空白字符串仅包含空格明显快于trim 在Java 11中基准 public class Test public static final String TEST STRING 3 w
7 张牌扑克手牌评估器

有谁知道评估 7 张牌扑克牌的快速算法吗这比简单地暴力检查 7 张牌中每 21 个 5 张牌的组合更有效 Cheers Pete 我写了一篇JavaScript 核心评估方法仅使用位操作因此速度非常快考虑到这一点查看 21 种组合还
如何成功地用 XML 中的批处理替换文本

我尝试使用批处理在 XML 页面中替换字符串但无法成功完全替换它我有这个批处理代码 echo off setlocal EnableDelayedExpansion set search logLevel 3 set replace l
更改特定字符串的颜色

有谁知道如果将特定单词输入文本区域我如何更改它的颜色例如如果用户输入你好我的朋友它会动态地将你好更改为绿色在google上花了很多时间找不到任何相关的东西谢谢 textareas 的设计目的不是选择性着色
从另一列的子字符串创建列

我有一个 Pandas 数据框对象我想从现有列的子字符串创建新列我的数据如下所示 Date variable want1 want2 want3 0 02 01 08 Australia Sydney A Australia Sydne
清理 .txt 并计算最常见的单词

我需要 1 从停用词列表中清除 txt 我将其放在单独的 txt中 2 之后我需要统计最常见的 25 个单词这是我为第一部分想到的 usr bin python coding iso 8859 15 import re from coll
为什么在 C# 中使用 String.Concat()？

我想知道这个问题有一段时间了为什么使用String Concat 而不是使用操作员我明白了String Format因为它是一个空洞使用运算符并使您的代码看起来更好例如 string one bob string two jim
toUpperCase() 方法什么时候创建一个新对象？

public class Child public static void main String args String x new String ABC String y x toUpperCase System out println

随机推荐

更改平板电脑视口以准确显示固定尺寸元素

我有一个宽度恰好为 1000 像素高度为 850 像素的 HTML 元素它实际上是一个在画布标记上包含 HTML5 游戏的 iFrame 但我希望这并不重要我希望元素呈现在平板电脑上以便视口缩放以始终显示整个元素仅此而已因此当
docker context create ecs myecs - 只需要一个参数

我正在尝试创建一个将自动与 AWS 的 ECS 集成的 Docker 上下文我正在关注这个教程 https aws amazon com blogs containers deploy applications on amazon ecs
完全可折叠 div 的问题

我正在尝试创建一个在单击时打开和隐藏 div 的按钮我一直在参考以下内容codepen https codepen io dangvanthanh pen BsDbg关于如何开始但想要一些稍微不同的东西在引用的 codepen 中 d
存储在 iOS 应用程序的 XCode 项目文件中的配置文件

我以为我已经弄清楚如何在源代码管理中存储 XCode 项目我只对 pbxproject 文件进行版本控制这似乎效果很好但后来我注意到配置文件也保存在那里这看起来不太好我正在与另一位开发人员远程工作我们都有单独的配置文件每次我们
从右上角增长div？

我有一个需要交互的元素网格当其中一个 div 被点击时它会变大对于大多数元素来说从右下角生长一个 div 是可以接受的 my div animate width 379px height 204px 但是在某些情况下从右下角
输入字段中的文本无法删除

我有一个输入字段例如
返回视图中两列之一 - 以不为空的一列为准

我有一个包含三列的表 ColumnA ColumnB ColumnC AAA NULL 123 BBB 222 NULL CCC NULL NULL 我想创建一个 SELECT 语句该语句将返回 ColumnA 然后创建第二列该列将显示
在 Django 中格式化日期时如何使用本地化的“短格式”？

我需要显示本地化的格式化日期如果我使用 django utils formats localize 则日期返回为 2012 年 6 月 11 日如何将日期格式化为返回 06 11 2012 并进行适当的本地化例如 11 06 2012
如何在 Laravel Blade 中将多个子行数据与父行一起添加

我一直在尝试通过刀片添加多个数据在我的刀片形式中我使用克隆添加行例如一份请购单有许多项目 My blade view 刀片视图代码
Clojure 和 scala 互操作

我熟悉 scala 类对象可以从 clojure 调用因为 scala 编译为字节码并且 clojure 对此很满意然而调用 clojure 函数和从 scala 导入命名空间是否一样轻松我想将优秀的 lift 框架和 cloj
Visual Studio 扩展来执行 SQL

我的 Visual Studio 2010 项目中有几个 sql 文件我正在寻找一个扩展或添加我可以右键单击 sql 文件并针对 sql server 数据库执行其内容有人知道这样的扩展是否存在吗从 SQL Server Denal
如何将 p 值注释到 R 上的分面条形图上？

我想知道是否可以在图表顶部和两个条形图之间注释 p 值就我而言使用 ggplot2 我有一个具有 2 个条件传代和分离的多面图并且在每个条件下有 3 个级别 3 个条形图 GA CH KO 如果可能的话我有一些来自成对比较的
扩展图块尾随图标会更新与一个图块交互时列表中的所有内容。如何只更改展开磁贴的图标？

如何才能使图标仅针对单击的图块进行更新现在的行为是all单击一个图块时图标会更新这是代码修剪为仅包含相关部分 Column children List generate filteredFAQ length index gt Colu
Gson POJO 映射丢失自定义字段值

我正在尝试使用 Gson 将 JSON 映射到 POJO 其中 POJO 包含不属于 JSON 的自定义字段当调用其他字段的 setter 将要更新的字段的名称添加到列表时该字段就会更新 POJO 类看起来像这样 public clas
为 postgresql 全文搜索添加新语言

有没有办法向 postgresql 全文搜索添加新语言我可以从哪里阅读或从哪里开始你可以看看这个a link http www postgresql org docs 9 4 static textsearch dictionaries
尝试使用 INET 引用创建新项目，在 .msg 文件中得到：“unexpected NAME, waiting $end”

我创建了一个项目其中包含我的链路层和模拟源代码该项目以 INET 作为项目参考在构建时我收到此错误错误语法错误意外的名称期望 end 它来自消息文件包含消息类型 import inet common INETDefs 我的
Silverlight - 史诗般的图形失败（由两个三角形组成的矩形）:(

我想用两个三角形绘制矩形非常简单的任务但Silverlight无法处理它
多个函数的指针

是否可以保证仅名称不同的函数也不是参数和返回类型不能共享 C 和 C 中的相同地址我在标准中没有看到任何相关内容 include
如何开发具有登录功能的基于 TabBar 的应用程序？

我正在开发一个应用程序我需要向用户显示一个列表作为菜单课程课程成绩注销所以在此之前我需要显示一个登录屏幕仅在成功且有效的登录后我才需要将用户重定向到菜单所以我计划开发一个基于 tabBar 的应用程序有 4 个选项卡在
寻找连续重复序列的算法

我正在寻找一种算法可以在基因组序列中找到短串联重复基本上给定一个非常长的字符串它只能包含 4 个字符 ATCG 我需要找到彼此相邻的 2 5 个字符长之间的短重复前任 TACATGAGATCATGATGATGATGATGGAGCT

寻找连续重复序列的算法

寻找连续重复序列的算法 的相关文章

随机推荐

热门标签

寻找连续重复序列的算法的相关文章