有没有快速的算法来删除字符串中的重复子串？

2024-02-04

有一个类似的字符串

"dxabcabcyyyydxycxcxz"

我想将它合并到

"dxabcydxycxz"

其他例子：“ddxddx”->“dxdx”，“abbab”->“abab”。

规则是：

if (adjacent and same): merge

# Such as 'abc', they are same, so delete one of them
# Although 'dx' is same as 'dx', they are nonadjacent, so do not delete any of them
# If one character has been deleted, don't delete any substring, include it

我已经用 Python 完成了它，但是应用于长字符串时速度很慢。

# Original string
mystr = "dxabcabcyyyydxycxcxz"
str_len = len(mystr)
vis = [1] * str_len  # Use a list to mark which char is deleted

# Enumerate the size of substring
for i in range(1,str_len):
    # Enumerate the begin of the substring
    for j in range(0, str_len):
        offset = 2 #the size of sub-str + 1
        current_sub_str = mystr[j:j+i]
        s_begin = j+i*(offset-1)
        s_end = j+(i*offset)
        # Delete all of the same char
        while((j+(i*offset) <= str_len) and current_sub_str == mystr[s_begin:s_end]
              and 0  not in vis[s_begin:s_end] and 0  not in vis[j:j+i]):
            vis[s_begin:s_end] = [0] * (s_end - s_begin)  # If it was deleted, mark it as 0
            offset += 1
            s_begin = j + i * (offset - 1)
            s_end = j + (i * offset)

res = []
for i in range(0,str_len):
    if(vis[i]!=0): res.append(mystr[i])

print "".join(res)

有没有更快的方法可以解决呢？

2017 年 4 月 29 日更新

抱歉，这似乎是一个 XY 问题。另一方面，也可能不是。我正在为网络蜘蛛编写内容，并得到许多像这样的“标签路径”：

ul/li/a
ul/li/div/div/div/a/span
ul/li/div/div/div/a/span 
ul/li/a
ul/li/ul/li/a
ul/li/ul/li/a
ul/li/ul/li/a
ul/li/ul/li/a
ul/li/ul/li/a
ul/li/ul/li/a
ul/li/ul/li/a
ul/li/ul/li/a
ul/li/a
ul/li/ul/li/a
ul/li/ul/li/a
ul/li/ul/li/a
ul/li/ul/li/a
ul/li/ul/li/a
ul/li/a
ul/li/ul/li/a
ul/li/ul/li/a
ul/li/ul/li/a
ul/li/ul/li/a
ul/li/ul/li/a
ul/li/ul/li/a

正如您所看到的，一些“标签路径”是相同的，因此我想折叠它们以找出是否有任何其他具有相同结构的“标签路径”。

崩溃后，我得到这样的“标签路径”。

ul/li/a
ul/li/div/div/div/a/span
ul/li/a
ul/li/ul/li/a
ul/li/a
ul/li/ul/li/a
ul/li/a
ul/li/ul/li/a

这只是我的想法，我不知道这样做是否合适。（经过尝试，我选择了另一种方式来做到这一点）。

然而有一个有趣的问题，比如 ACM 问题。

因此，我将一个“标签路径”简化为一个角色并寻求帮助。因为我自己没有做快速的方法。实际上，这个问题有很多我不介意的极端情况，感谢大家帮助我完成它。

谢谢大家。

看看正则表达式的威力：

>>> import re

>>> re.sub(r"(.+?)\1+", r"\1", "dxabcabcyyyydxycxcxz")
'dxabcydxycxz'

>>> re.sub(r"(.+?)\1+", r"\1", "ddxddx")
'dxdx'

>>> re.sub(r"(.+?)\1+", r"\1", "abbab")
'abab'

这会查找 1 个或多个任意字符的序列(.+?)（作为非贪婪匹配，因此它首先尝试较短的序列），然后是匹配序列的 1 次或多次重复\1+，并将其全部替换为匹配的序列\1.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

string

Algorithm

有没有快速的算法来删除字符串中的重复子串？的相关文章

在python中将文本文件解析为列表

我对 Python 完全陌生我正在尝试读取包含单词和数字组合的 txt 文件我可以很好地读取 txt 文件但我正在努力将字符串转换为我可以使用的格式 import matplotlib pyplot as plt import num
python 中分割字符串以获得一个值？

需要帮助假设我在名为 input 的变量中有一个字符串 Sam Person name kind input split 通过执行上述操作我得到两个具有不同字符串 Sam 和 Person 的变量有没有办法只获取第一个值 name S
SQL Server 转换选择一列并将其转换为字符串

是否可以编写一条从表中选择列并将结果转换为字符串的语句理想情况下我希望有逗号分隔的值例如假设 SELECT 语句看起来像这样 SELECT column FROM table WHERE column lt 10 结果是一列包含值的
Java替换特定字符

这是我在这个网站上的第一个问题所以我会尽量不要成为一个十足的菜鸟我目前正在用java 创建刽子手游戏所以我问你的问题是我们是否被赋予了幽灵这个词并将 Ghost 替换为 hiddenWord ghost length for i
如果字段值在外部列表中，Django 会注释布尔值

想象一下我有这个 Django 模型 class Letter models Model name models CharField max length 1 unique True 还有这个列表 vowels a e i o u 我想查询
创建一个类似于 Tkinter 的表

我希望创建类似于 Tkinter 中的表格的东西但它不一定是这样的例如我想创建标题 Name1 Name2 Value 并在每个标题下面有几个空白行然后我希望稍后用我计算的值或名称的字符串值填充这些行因此是标签对于 Name2
获取列表中倒数第二个元素[重复]

这个问题在这里已经有答案了我可以通过以下方式获取列表的倒数第二个元素 gt gt gt lst a b c d e f gt gt gt print lst len lst 2 e 有没有比使用更好的方法print lst len lst
如何使用Python的super()来更新父值？

我对继承很陌生之前所有关于继承和 Python 的 super 函数的讨论都有点超出我的理解我当前使用以下代码来更新父对象的值 usr bin env python test py class Master object mydata
如何在Python和Selenium中通过标签名称或id获取元素[重复]

这个问题在这里已经有答案了我正在尝试使用 Python 和 Selenium 获取输入但它向我显示错误我该如何解决这个错误 inputElement send keys getStock getStocklFunc 0 Error i
在可编辑的QSqlQueryModel中实现setEditStrategy

这是后续这个问题 https stackoverflow com questions 49752388 editable qtableview of complex sql query 在那里我们创建了 QSqlQueryModel 的可
将 Pandas 列中的列表拆分为单独的列

这是我在 pandas 数据框中的特征列 Feature Cricket 82379 Kabaddi 255 Reality 4751 Cricket 15640 Wildlife 730 LiveTV 13 Football 4129
使用安全函数在 C 中将字符串添加到字符串

我想将文件名复制到字符串并附加 cpt 但我无法使用安全函数 strcat s 来做到这一点错误字符串不是空终止的我确实设置了 0 如何使用安全函数修复此问题 size strlen locatie size nieuw char m
无法截取宽度为 0 的屏幕截图

我正在尝试截取 Bootstrap 模态内元素的屏幕截图经过一番努力我终于想出了这段代码 driver get https enlinea sunedu gob pe driver find element by xpath div c
select() 可以在 Windows 下使用 Python 中的文件吗？

我正在尝试在 Windows 下运行以下 python 服务器 An echo server that uses select to handle multiple clients at a time Entering any line o
如何有效地从 loadmat 函数生成的嵌套 numpy 数组中提取值？

python中是否有更有效的方法从嵌套的python列表中提取数据例如A array array 12000000 dtype object 我一直在使用A 0 0 0 0 当你有很多像 A 这样的数据时这似乎不是一个有效的方法我也用
在 MacO 和 Linux 上安装 win32com [重复]

这个问题在这里已经有答案了我的问题很简单我可以安装吗win32com蟒蛇API pywin32特别是在非 Windows 操作系统上我一直在Mac上尝试多个版本pip install pywin32 都失败了下面是一个例子如果你
Java中获取集合的幂集

的幂集为 1 2 3 is 2 3 2 3 1 2 1 3 1 2 3 1 假设我有一个Set在爪哇中 Set
如何在sphinx中启用数学？

我在用sphinx http sphinx pocoo org index html与pngmath http sphinx pocoo org ext math html module sphinx ext pngmath扩展来记录我的代
使用 Python 生成类似于 Messenger 或 kik 代码的圆形二维码

我可以使用 Python 生成圆形 QR 码就像 Facebook Messenger 或 kik 使用的那样吗我访问了很多网站但找不到这种类型的二维码默认情况下 Python 生成方形 QR 码但在我的项目中我想要圆形 QR 码
如何连接字符串和常量字符？

我需要将 hello world 放入c中我怎样才能做到这一点 string a hello const char b world const char C string a hello const char b world a b co

随机推荐

Python安装编译错误

我希望有人可以帮助我因为我已经被困在这个问题上有一段时间了而且我对编译包不太熟悉尝试安装以下软件包 https github com jhkorhonen MOODS wiki Installation https github co
强制关闭 COM 端口

我正在开发一个使用 COM 端口与外部控制器通信的应用程序当我在连接通信电缆的情况下重新启动电脑时 Windows 7 打开该端口但没有运行任何应用程序因此我无法再访问它我尝试以编程方式关闭它但它仍然被占用任何人都知道如何强制它
“VisualTree”被设置多次

我在这个 xaml 文件中不断收到错误属性 VisualTree 被设置多次
两个视图多个 UIPickerViews 单个出口

我的应用程序有两个视图具体取决于它决定加载哪个视图的方向但是IB不允许我将两个PickerView连接到同一个OUTLET 有没有一种方法可以在代码中分配连接以便在加载视图时将连接分配给outlet 或者我应该为每个视图做两次或者我
异常：ASP.NET MVC 控制器中的“值不在预期范围内”[重复]

这个问题在这里已经有答案了我有这个字符串要格式化并且该部分抛出异常字符串主体 private Task SendEmailConfirmation UserModel user var emailService new EmailUn
执行特定的 Maven 阶段

有没有办法执行 Maven 构建中的特定阶段例如如果我只想运行那些在预集成阶段执行的插件 Maven 是否提供了一种方法来做到这一点 e g mvn pre integration phase 您不能调用生命周期阶段本身但可以调用绑定
如何在后面的代码中添加两个CSS Class来控制？

我在 ASP NET 后面的代码中设置 2 个 css 类我可以这样做 txtBox Attributes Add class myClass1 txtBox Attributes Add class myClass2 它总是应用一个类
无法更新 RVM - “致命：无法找到‘http’的远程帮助程序”

我在 Ubuntu 8 04 上运行 RVM 1 1 6 突然无法再更新到最新版本 rvm get head Original installed RVM version rvm 1 1 6 by Wayne E Seguin email
如何在 Matplotlib 中的绘图内绘制轴线？

当我使用 Matplotlib 绘制数据时默认情况下轴始终绘制为框架图的框假设我正在轴限制内绘制数据 2 lt x lt 2 and 2 lt y lt 2 但我想通过原点在该绘图区域内绘制轴线最好沿着这些轴线绘制刻度线和刻度标签
AutoMapper null 源值和自定义类型转换器，无法映射？

当将自定义类型转换器 ITypeConverter 与 AutoMapper 一起使用时如果源值为null e g Mapper CreateMap
Python 类型在方法中暗示自己的类

Edit 我注意到人们评论说类型提示不应该与 eq 当然不应该但这不是我问题的重点我的问题是why该类不能用作方法中的类型提示参数但可以在方法中使用itself 事实证明 Python 类型提示对我使用 PyCharm 时非常有用
java中这个说法正确吗？

我想使用数据报套接字在两台计算机之间进行数据传输我使用以下行 host InetAddress getByAddress mypc new byte 192 168 1 110 但是当我使用上述语句时我收到此错误可能会损失精度所以我
相当于： git log --exclude-author?

在工作中我们有一个 git 存储库其中大部分提交都是机器人用户自动提交的有时我更喜欢查看该存储库中的 git 日志但看不到自动提交我想它可以被描述为倒置的 git log author 或 git log exclude auth
从 iPhone 上的视频输出获取静态图像？

我正在编写一个应用程序来显示 iPhone 相机所看到的光照条件的统计数据我每秒拍摄一张图像并对其进行计算为了捕获图像我使用以下方法 void captureNow AVCaptureConnection videoConnecti
使用 hiera 设置类参数？

我试图弄清楚如何使用 hiera 设置类参数的值我正在使用两个简单的类进行测试 testhiera 和 testhiera2 以下是这些课程 root puppet el7 001 modules cat testhiera manife
Xcode 上 Playground 的默认目录

当我使用 Xcode 10 1 创建新的 Playground 时它始终默认为 Library Autosave Information 我有什么办法可以改变这个吗解决方法与symlink Close XCode gt 在终端中输入 m
Android Room类型转换多种枚举类型

我正在为我的 Room 数据库编写一个类型转换器我有几个自定义枚举类我想在存储在数据库中时将它们全部转换为其序数那么有没有办法简化它例如传递通用枚举类型而不是为每个单独的类编写以下内容 class Converter TypeC
哪个 ember.js 组件负责将模板插入到 DOM 中？

我正在构建ember js rails应用程序所有车把模板都存储在 js 文件中我想了解当路由器更改状态时它们如何插入到 DOM 中 Ember 的哪一部分执行此操作我如何告诉 ember 放置模板现在我只能将我的模板附加到我有一个
Angular 4未加载组件

我尝试在 Angular 4 应用程序中使用 Angular 路由但该应用程序无法加载与请求的路由匹配的组件 Here is app routing module ts import NgModule from angular core
有没有快速的算法来删除字符串中的重复子串？

有一个类似的字符串 dxabcabcyyyydxycxcxz 我想将它合并到 dxabcydxycxz 其他例子 ddxddx gt dxdx abbab gt abab 规则是 if adjacent and same merge Suc

有没有快速的算法来删除字符串中的重复子串？

有没有快速的算法来删除字符串中的重复子串？ 的相关文章

随机推荐

热门标签

有没有快速的算法来删除字符串中的重复子串？的相关文章