找到到任何子串的最小汉明距离的最快方法？

2023-11-26

给定一个长字符串L和一个较短的字符串S（约束条件是L.length 必须 >=S.length)，我想找到之间的最小汉明距离S和任意子串L长度等于S。长度。让我们为此调用该函数minHamming()。例如，

minHamming(ABCDEFGHIJ, CDEFGG) == 1.

minHamming(ABCDEFGHIJ, BCDGHI) == 3.

以显而易见的方式做到这一点（枚举 L 的每个子串）需要 O(S。长度 *L.长度）时间。有什么聪明的方法可以在亚线性时间内做到这一点吗？我搜索同样的L与几个不同的S字符串，因此需要进行一些复杂的预处理L一次是可以接受的。

编辑：修改后的 Boyer-Moore 将是一个好主意，除了我的字母表只有 4 个字母（DNA）。

也许令人惊讶的是，这个问题确实可以解决只需 O(|A|nlog n) 时间使用快速傅立叶变换 (FFT)，其中 n 是较大序列的长度L and |A|是字母表的大小。

以下是 Donald Benson 撰写的一篇论文的免费 PDF 文件，描述了它的工作原理：

用于生物序列分析的傅里叶方法（唐纳德·本森，核酸研究1990年卷。 18，第 3001-3006 页）

Summary:转换每个字符串S and L分成几个指示向量（每个字符一个，因此在 DNA 的情况下为 4），然后convolve相应的向量来确定每个可能的比对的匹配计数。诀窍在于，“时间”域中的卷积通常需要 O(n^2) 时间，可以使用“频率”域中的乘法来实现，这仅需要 O(n) 时间，加上转换所需的时间域之间并再次返回。使用 FFT，每次转换只需 O(nlog n) 时间，因此总体时间复杂度为 O(|A|nlog n)。为了获得最大速度，有限域使用 FFT，只需要整数运算。

Note:对于任意S and L与简单的 O(mn) 算法相比，该算法显然具有巨大的性能优势：|S| and |L|变大，但是 OTOH 如果S通常短于log|L|（例如，当使用小序列查询大数据库时），显然这种方法没有提供加速。

更新 21/7/2009：更新指出时间复杂度还线性取决于字母表的大小，因为字母表中的每个字符必须使用一对单独的指示向量。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

找到到任何子串的最小汉明距离的最快方法？的相关文章

为什么 Web Worker 性能在 30 秒后急剧下降？

我正在尝试提高在网络工作人员中执行时脚本的性能它旨在解析浏览器中的大型文本文件而不会崩溃一切都运行得很好但我注意到使用网络工作者时大文件的性能存在严重差异于是我做了一个简单的实验我在同一输入上运行脚本两次第一次运行在页面的主线程
两组点之间的最佳匹配

I ve got two lists of points let s call them L1 P1 x1 y1 Pn xn yn and L2 P 1 x 1 y 1 P n x n y n 我的任务是找到它们点之间的最佳匹配以最小化它
过度使用委托对性能来说是一个坏主意吗？ [复制]

这个问题在这里已经有答案了考虑以下代码 if IsDebuggingEnabled instance Log GetDetailedDebugInfo GetDetailedDebugInfo 可能是一个昂贵的方法因此我们只想在调试模式
python 日志记录会刷新每个日志吗？

当我使用标准模块将日志写入文件时logging 每个日志会分别刷新到磁盘吗例如下面的代码会将日志刷新 10 次吗 logging basicConfig level logging DEBUG filename debug log fo
文件修改时间检查的成本

对于Linux下包含少量字节的文件我只需要处理自上次处理以来发生更改的时间我通过调用 PHP 检查文件是否被更改clearstatcache filemtime 定期由于整个文件总是很小因此删除对 filemtime 的调用并通过将
C 中的指针、数组、字符串和 Malloc

我目前正在学习 C 语言中的字符串指针和数组我尝试编写一个程序其中数组保存三个指向字符串地址的指针这一切似乎都有效但程序的行为很奇怪这是代码 char getUserDetails char host localhost cha
添加冗余赋值可以在未经优化的情况下编译时加快代码速度

我发现一个有趣的现象 include
如何将字符串日期转换为 NSDate？

我想转换字符串 2014 07 15 06 55 14 198000 00 00 to an NSDate在斯威夫特尝试这个 let dateFormatter NSDateFormatter dateFormatter dateForm
PLSql 返回值

我再次使用一些 PLSql 我想知道是否有任何方法可以像选择一样使用以下函数而不必将其转换为函数或过程这样我就可以从包含它的脚本中看到代码代码如下 DECLARE outpt VARCHAR2 1000 flow rI VARCHA
检查两个数是否是彼此的排列？

给定两个数字 a b 使得 1 例如 123 是 312 的有效排列我也不想对数字中的数字进行排序如果您指的是数字的字符例如 1927 和 9721 则至少有几种方法如果允许排序一种方法是简单地sprintf将它们放入两个缓冲
vector 超出范围后不清除内存

我遇到了以下问题我不确定我是否错了或者它是一个非常奇怪的错误我填充了一个巨大的字符串数组并希望在某个点将其清除这是一个最小的例子 include
为什么列表理解在数组相乘方面比 numpy 快得多？

最近我回答了THIS https stackoverflow com questions 31596979 multiplication between 2 lists 31597029 31597029想要两个列表相乘的问题一些用户建议
清洁琴弦的更好方法？

我正在使用这种方法来清理字符串 public static string CleanString string dirtyString string removeChars lt gt string result dirtyString f
执行 Boyer-Moore 模式匹配时是否必须考虑编码？

我即将实现 Boyer Moore 模式匹配算法的变体具体来说是星期日算法我问自己我的字母表大小是多少它是否取决于编码可能的字符数或者我可以假设我的字母表由 256 个符号组成一个字节可以表示的符号数在许多其他情况下将字符
模块化算术和 NTT（有限域 DFT）优化

我想使用 NTT 进行快速平方参见快速大数平方计算 https stackoverflow com q 18465326 2521214 但即使对于非常大的数字结果也很慢超过 12000 位所以我的问题是有没有办法优化我的 NTT
getItem 与 getItemAtPosition

有两种方法可以获取列表视图中的选定项目 list getAdapter getItem position list getItemAtPosition position 我的问题是哪一种是首选的做法我见过人们同时使用这两种方法您可以使
为什么在连接两个字符串时 Python 比 C 更快？

目前我想比较 Python 和 C 用来处理字符串的速度我认为 C 应该比 Python 提供更好的性能然而我得到了完全相反的结果这是 C 程序 include
Prim 的迷宫生成算法：获取相邻单元格

我基于 Prim 算法编写了一个迷宫生成器程序该算法是 Prim 算法的随机版本从充满墙壁的网格开始选择一个单元格将其标记为迷宫的一部分将单元格的墙壁添加到墙壁列表中 While there are walls in the li
为什么 re.findall 在查找字符串中的三元组项时不具体。 Python

所以我有四行代码 seq ATGGAAGTTGGATGAAAGTGGAGGTAAAGAGAAGACGTTTGA OR 0 re findall r ATG 9 TAA TAG TGA seq 首先让我解释一下我正在尝试做什么如果这令人困惑
如何展平解析树并存储在字符串中以进行进一步的字符串操作 python nltk

我正在尝试从树结构中获取扁平树如下所示我想将整个树放在一个字符串中就像没有检测到坏树错误一样 S NP SBJ NP DT The JJ high JJ seven day PP IN of NP DT the CD 400 NNS

随机推荐

Python - 正确终止/退出期货线程？

我之前使用的是threading Thread模块现在我正在使用concurrent futures gt ThreadPoolExecutor 以前我使用以下代码来退出终止完成线程 def terminate thread thr
如何将枚举值传递给 wcf webservice

ksoap2 可以将枚举传递给 web 服务吗有一个wcf网络服务 OperationContract string TestEnum CodeType code CodeType 是 dotnet 枚举 public enum Code
通过单击按钮更改 viewpager 片段

我试图通过单击按钮来更改 viewpager 片段我有 5 个片段每个片段都有自己的 xml 文件 frag1 xml frag2 xml 等每个片段都有 5 个按钮可以转到 viewpager 的其他页面但问题是如何在 Frag
无法通过 PuTTY 连接到亚马逊 EC2 实例

我在 Amazon Web Services AWS 中创建了一个新的 Amazon EC2 实例参考文档我什至添加了这样的 SSH 规则 Port 22 Type SSH Source
Calendar.Month 给出错误的输出

我一直在使用java util对于所有日期和日历表示但我在这里面临一个奇怪的问题 Calendar MONTH Calendar DAY OF MONTH等都给出错误的输出但是当我使用Calendar getTime 我得到了正确的输出
Go 中的 Marshall 映射到 XML

我尝试将地图输出为 XML 数据但收到以下错误 xml unsupported type map string int 编组映射对于 JSON 工作得很好所以我不明白为什么它对于 XML 不能同样工作使用 Struct 真的是唯一的方
Git - 删除 Blob

有没有一种方法或命令可以使用 ID 从 git 中删除 blob 我使用了命令 git rev list objects all git cat file batch check objectname objecttype rest gre
Ember：如何将 TinyMCE 文本区域字段值绑定到模型

我在模板中嵌入了 TinyMCE 现在我想对 TinyMCE 编辑器实际上是一个文本区域的内容进行值绑定 See http jsfiddle net cyclomarc wtktK 10 在文本字段中输入文本时 bodyText 中的
嵌入式 HSQLDB 将数据保存到文件中

我正在创建一个基于 spring 的 Web 应用程序该应用程序使用嵌入式 hsqldb 我的 spring 配置非常简单
Xamarin 在 Android 中形成 Shadow on Frame

Xamarin Forms 中的 Frame 类非常有限不允许我在 Frame 后面获得阴影我使用以下代码为 iOS 制作了一个自定义渲染器 public class RatingInfoFrameRenderer FrameRende
Azure Blob 存储的事务访问

我想将文件存储在 Azure Blob 存储中到目前为止一切都很好我还想存储有关该文件的附加元数据为此我使用 Azure SQL 数据库因此我可以轻松查询 Blob 存储上的文件因此当我向存储添加新文件时我想确保 blob
单行嵌套 For 循环[重复]

这个问题在这里已经有答案了用Python编写这个转置矩阵的函数 def transpose m height len m width len m 0 return m i j for i in range 0 height for j i
设计问题：电话拨打电话号码，还是电话号码在电话上拨打自己？

这是从我在 DDD Yahoo 上发布的内容重新发布的团体在所有条件相同的情况下您是写phone dial phoneNumber 还是phoneNumber dialOn phone 请记住未来可能的需求除了电话号码之外的帐号除
密码中是否应该允许使用空格字符？

我尝试过不同的网站产品这似乎分配得相当均匀 Windows 7 和 Gmail 允许您在密码中插入空格 Hotmail 和 Twitter 则不然虽然在密码中允许空格会增加密码的复杂性但似乎许多网站程序不允许它们是否有充分的理由
如何在 SPSS 中循环变量？我想避免代码重复

是否有原生 SPSS 方法来循环某些变量名称我想做的就是获取变量列表我定义的并为它们运行相同的过程伪代码这不是一个很好的例子但很能说明问题 for i in varlist a b c do FREQUENCIES VARIA
CLI/C++ 到底是什么？它与“普通”c++ 有什么不同？

首先让我澄清一下普通 C 的含义我目前正在阅读 Walter Savitch 的 C 中的问题解决据我所知这不是专门为 Microsoft 或 Unix 编写的所以我的问题是我在这本书中学到的内容我用它来获取 C 的通用知识
旋转下拉列表在滚动时跳跃

为什么我的旋转器在滚动时会跳跃我只是做以下事情 ArrayAdapter
为什么可以等待 Rx observable？ [复制]

这个问题在这里已经有答案了我刚刚注意到await关键字可以与 Rx Observable 一起使用例如 await Observable Interval TimeSpan FromHours 1 我非常确定它只能与任务结合使用那么是
如何刷新数据网格

我创建 dojox grid datagrid 并填充数组中的内容如示例所示页面上的最后一个示例在一段时间内我在代码中更改了该数组的值如何刷新该网格的内容如何从更改的数组加载新数据要更改网格中的值您需要更改网格存储中的值网格
找到到任何子串的最小汉明距离的最快方法？

给定一个长字符串L和一个较短的字符串S 约束条件是L length 必须 gt S length 我想找到之间的最小汉明距离S和任意子串L长度等于S 长度让我们为此调用该函数minHamming 例如 minHamming ABCDEFG

找到到任何子串的最小汉明距离的最快方法？

找到到任何子串的最小汉明距离的最快方法？ 的相关文章

随机推荐

热门标签

找到到任何子串的最小汉明距离的最快方法？的相关文章