查找字符串中最常见的子字符串的算法

2024-06-19

是否有任何算法可用于查找字符串中最常见的短语（或子字符串）？例如，以下字符串将“hello world”作为其最常见的两个单词短语：

"hello world this is hello world. hello world repeats three times in this string!"

在上面的字符串中，最常见的字符串（在空字符串字符之后，重复无限次）将是空格字符.

有什么方法可以生成此字符串中的常见子字符串列表（从最常见到最不常见）？

这是类似于 Nussinov 算法的任务，实际上甚至更简单，因为我们不允许对齐中出现任何间隙、插入或不匹配。

对于长度为N的字符串A，定义一个F[-1 .. N, -1 .. N]表并按照以下规则填写：

  for i = 0 to N
    for j = 0 to N
      if i != j
        {
          if A[i] == A[j]
            F[i,j] = F [i-1,j-1] + 1;
          else
            F[i,j] = 0;
        }

例如，对于B A O B A B:

这运行在O(n^2)时间。表中的最大值现在指向最长自匹配子序列的结束位置（i - 一次出现的结束，j - 另一次出现的结束）。一开始，假设数组是零初始化的。我添加了条件来排除最长但可能不有趣的自匹配对角线。

再想一想，这个表在对角线上是对称的，所以只需要计算它的一半就足够了。此外，该数组是零初始化的，因此分配零是多余的。剩下的就是

  for i = 0 to N
    for j = i + 1 to N
      if A[i] == A[j]
         F[i,j] = F [i-1,j-1] + 1;

更短但可能更难理解。计算表包含所有匹配项，无论是短匹配还是长匹配。您可以根据需要添加进一步的过滤。

在下一步中，您需要恢复字符串，从非零单元格开始向左沿对角线排列。在此步骤中，使用一些哈希图来计算同一字符串的自相似匹配数也很简单。对于正常字符串和正常最小长度，只有少量表格单元格将通过此映射进行处理。

我认为直接使用 hashmap 实际上需要 O(n^3)，因为访问结束时的关键字符串必须以某种方式进行比较以确保相等。这种比较可能是 O(n)。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

查找字符串中最常见的子字符串的算法的相关文章

如何找到最大。和分钟。在数组中使用最小比较？

这是一道面试题给定一个整数数组找出其中的最大值和分钟使用最小比较显然我可以循环数组两次并使用 2n在最坏的情况下进行比较但我想做得更好 1 Pick 2 elements a b compare them say a gt b
以最少插入次数将字符串转换为回文

这是一个来自日常编码问题 https www dailycodingproblem com 给定一个字符串找到可以通过插入来组成的回文数单词中任何位置的字符数尽可能少如果有大于一个可以制作的最小长度的回文返回字典顺序最早的一个
查找 int 中的第 n 个 SET 位

我想要找到的位置不仅仅是最低设置位n最低的设置但是我是NOT谈论价值n第位位置例如假设我有 0000 1101 1000 0100 1100 1000 1010 0000 我想找到设置的第四位然后我希望它返回 0000 0000
查找top-k元素的平均时间复杂度

考虑在一组 N 个独立且同分布的浮点值中查找前 k 个元素的任务通过使用优先级队列堆我们可以对所有 N 个元素进行一次迭代并通过以下操作维护一个 top k 集合如果元素 x 比堆头更差丢弃 x 复杂度 O 1 如果元素 x
需要创建一个“选择你自己的冒险”类型的指南 - 最佳使用方法

基本上需要询问用户一系列问题并收集信息每个问题都可能对以后的不同问题产生影响另一个例子是涡轮税的网络界面在某些上回答是可能会引发未来的问题似乎这在软件中是一个相当常见的问题所以我想我是在问是否有任何现有的解决方案设计模式可
ASM 中从小端到大端的快速转换

我在 C 中有一个 uint 类型数组在检查程序是否在小端机器上运行后我想将数据转换为大端类型因为数据量可能会变得非常大但总是均匀的所以我想考虑将两个 uint 类型作为 ulong 类型以获得更好的性能并在 ASM 中对其进行
Lamport 的 Paxos 中的矛盾做了简单的论文

阶段 2 a 如果提议者收到大多数接受者对其准备请求编号为 n 的响应则它向每个接受者发送一个接受请求以获取编号为 n 且值为 v 的提案其中 v 是响应中编号最高的提案的值或者如果响应未报告任何提案则为任意值正如论文中提到的
运动结构，根据 2D 图像点对应关系重建 3D 点云

Use case 物体绕其中心以不同的速度旋转固定摄像机正在观察物体给定 2D 图像点对应关系重建 3D 点云当物体旋转时相机可以看到它的不同部分从而检测到不同的点和对应关系 Scene A N 张图片b N 1 图像对C N 1
查找邻接表中所有连接的节点

我有一个 DAG 的邻接列表我需要从所有节点中找到所有连接的节点例如对于下面的 DAG 1 gt 3 gt 4 2 gt 4 3 gt 2 4 gt 5 5 gt NULL 我需要这个 1 gt 2 3 4 5 2 gt 4 5 3
使用 O(1) 辅助空间迭代二叉树

是否可以在 O 1 辅助空间中迭代二叉树不使用堆栈队列等或者这已被证明是不可能的如果可以的话怎样才能做到呢编辑我得到的关于如果有指向父节点的指针就可能实现这一点的响应很有趣我不知道可以做到这一点但取决于您如何看待它这可以
使用 Office Automation 时检查挂起的 Office 进程

有没有办法在使用 Office Automation 时检查 Microsoft Office 进程即 Word Excel 是否挂起另外如果进程挂起有没有办法终止它首先我要说的是我不建议在服务器上的服务中执行此操作但我会尽力
位图中连续区域的计数是否可以比 O(r * c) 改进？

您将获得一张由卫星拍摄的表面图像该图像是一个位图其中水用标记土地标记为相邻组形成一个岛屿二如果它们水平垂直或对角相邻则它们是相邻的您的任务是打印位图中岛屿的数量输入示例输出 5 这是我的实现需要O r c 空间和
OOP：什么时候它是一个对象？

我正在尝试理解面向对象我当然明白一点但有时我并不是百分百清楚你如何决定什么应该变成一个对象另一个大的整个对象的小对象部分或者什么不值得成为一个对象或者也许它应该只是那个大的整个对象的属性对于一扇门来说我猜门把手应该是一个独立
无限循环：确定并打破无限循环

你如何判断一个循环是无限循环并且会跳出它有没有人有算法或者可以帮助我解决这个问题 Thanks 没有通用的算法可以确定程序是否处于无限循环中图灵完备 http en wikipedia org wiki Turing completene
递归分层父子

我有一个来自数据库的项目集合该数据库具有parentid值或空这是我的班级设计 public class Item public int id get set public string Name get set public int
JavaScript 中多个数组的笛卡尔积

如何在 JavaScript 中实现多个数组的笛卡尔积举个例子 cartesian 1 2 10 20 100 200 300 应该返回 1 10 100 1 10 200 1 10 300 2 10 100 2 10 200 2020
哪种算法可以解决我的婚礼餐桌问题？

我的婚礼有 x 位客人有 y 张桌子有 z 个座位客人A可以与客人B同桌客人C不能与客人D同桌给定所有客人之间所有连接的数据集是否有已知的算法可以解决此类问题我确信这种问题有一个抽象的父问题称为问题 x 或其他问题或者它
将数字 1 排列在二维矩阵中

给定二维矩阵的行数和列数初始矩阵所有元素均为0 给定每行中应该出现的 1 的数量给定每列中应该出现的 1 的数量确定是否可以形成这样的矩阵例子 Input r 3 c 2 no of rows and columns 2 1 0 n
如何使用 C 中的 Banker's Rounding 将 double 舍入为 int

我想编写一个函数使用银行家的舍入方法将双精度数舍入为整数将一半舍入为偶数 http en wikipedia org wiki Rounding Round half to even http en wikipedia org wiki
如何规划庭院灯最有效的路线

我正在尝试挂一些庭院灯基于另一个问题 https cs stackexchange com questions 80134 christmas light route efficiency我问我意识到我需要一种算法来解决路由检查问题 h

随机推荐

Richfaces a4j:loadScript 清除 ajax 调用上的 jQuery 插件

我正在加载嵌入到 RichFaces 中的 jQuery
最新的反应式扩展 (Rx) 教程

我对反应式扩展非常感兴趣但我找不到最新的教程我开始于使用 NET 响应式扩展消除异步忧郁症 http go microsoft com fwlink LinkId 208528但它已经过时了我可以找出一些改变但我无法让很多例子发挥作
如何使用 log4j 自定义附加程序在 HDFS 上创建日志？

Overview 我们希望使用 log4j 记录 Spark 作业活动并将日志文件写入 HDFS Java 8 Spark 2 4 6 Scala 2 1 2 Hadoop 3 2 1 我们无法找到本地 apache log4j 附加程序
使用 CLR 返回表

我想编写一个 CLR 过程它接受一个文本并返回一个包含该文本中所有单词的表但我不知道如何返回一张桌子你能告诉我吗 Microsoft SqlServer Server SqlFunction public static WhatTyp
SAS-压缩多行，保持最高值

我正在努力完成以下任务我尝试过使用数组和排序但似乎没有任何效果任何帮助将不胜感激 Acct Score1 Score2 9999 45 78 9999 58 65 8888 43 80 8888 43 90 8888 31 70 Th
Linq To SQL - 拥有和分组依据

我下面这个查询工作正常不过我想使用 Linq 来实现它 select u ID u NAME from Task t join BuildingUser bu ON bu ID BUILDING t ID BUILDING join Us
如何在 MVC 控制器中获取 unmask 值

我在我的项目中使用 jquery inputmask js 作为 SSN inputmask mask 999 99 9999 autoUnmask true onUnMask function value return value rep
ruby 管道、IO 和 stderr 重定向

我希望有一个 ruby 程序一个 rake 任务观察另一个 rake 任务的输出输出写入器输出到 stderr 我想读一下这些行我很难设置它如果我有一个作家 stdout writer rb 不断打印一些东西 usr bin en
消息：函数在 5000 毫秒后超时 - Protractor & CucumberJS

cucumberjs version 1 2 2 protractor version 4 0 1 Both installed globally via npm 升级到上面的 cucumberJs 版本后我不断收到此错误 Failure
使用 QNetworkAccessManager 的 Qt 控制台应用程序

我正在尝试写一个Qt调用网络服务的应用程序这是一个控制台应用程序 url 将作为命令行参数传入我搜索了例如http程序在Qt并找到这个链接 http qt project org doc qt 5 qnetworkaccessmanag
Dart - 抽象构造函数

假设我有抽象类 A abstract class A A someConstructor Foo foo A 的所有子类都应该实现这样的构造函数 class B extends A override B someConstructor Fo
使用edge.js .Net C# 模块是否可以调用进程的node.js 部分，即进行反向调用？

您可以看到从 Node js gt C 的互操作模型 here http tjanczuk github io edge 7 我想知道的是 C 代码可以在返回之前从 C 调用进程的 Node js 部分中的方法吗想象一下如果你接到一个电
安装 Productivity Power Tools 2012 后，在哪里可以找到解决方案导航器？

阅读有关的文章后我对使用解决方案导航器非常感兴趣生产力电动工具 2012 https visualstudiogallery msdn microsoft com d0d33361 18e2 46c0 8ff2 4adea1e34fef
生成源映射时出错 - grunt 和 sass 配置

我正在尝试将 sass 与 grunt 一起使用我已经在我的路径中安装了 ruby sass 和 grunt 版本是节点 0 10 20npm 11 3 1grunt cli 0 1 13咕噜声 0 4 5萨斯 3 4 4 我的包 js
需要帮助选择开源 GIS [已关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我需要一个开源 GIS 它允许人们使用 Web 浏览器查看缩放单击地图并且应该兼容 Java 可部
查找 Shadow DOM 中的元素

Protractor 1 7 0 引入了一个新功能新的定位器by deepCss https github com angular protractor commit d220ecf5ebc7ba023eab728d4a684e978ff
可变参数模板initializer_list技巧

我在 Visual Studio 2017 RC 上用 C 17 编写了 for each tuple 我对该实现感到震惊查看 template
可以声明对 Rust 中未使用的结果发出警告的函数吗？ [复制]

这个问题在这里已经有答案了 Rust 是否有办法声明一个函数对于任何类型不使用其结果都会发出警告类似于 GCC 的东西 attribute warn unused result 自 1 27 起 must use 也适用于函数看来
错误域=NSURLErrorDomain代码=-1017“该操作无法

我刚刚开始 ios 开发我正在尝试与我的 api 交换数据当我执行 POST 请求时一切正常但当我尝试执行 GET 请求时出现以下错误错误域 NSURLErrorDomain代码 1017 该操作无法完全的 NSURLErro
查找字符串中最常见的子字符串的算法

是否有任何算法可用于查找字符串中最常见的短语或子字符串例如以下字符串将 hello world 作为其最常见的两个单词短语 hello world this is hello world hello world repeats thr

查找字符串中最常见的子字符串的算法

查找字符串中最常见的子字符串的算法 的相关文章

随机推荐

热门标签

查找字符串中最常见的子字符串的算法的相关文章