过滤字符串列表，忽略其他项目的子字符串

2023-12-29

如何过滤包含字符串和子字符串的列表以仅返回最长的字符串。（如果列表中的任何项目是另一个项目的子字符串，则仅返回较长的字符串。）

我有这个功能。有更快的方法吗？

def filterSublist(lst):
    uniq = lst
    for elem in lst:
        uniq = [x for x in uniq if (x == elem) or (x not in elem)]
    return uniq

lst = ["a", "abc", "b", "d", "xy", "xyz"]
print filterSublist(lst)

> ['abc', 'd', 'xyz']
> Function time: 0.000011

一个简单的二次时间解是这样的：

res = []
n = len(lst)
for i in xrange(n):
    if not any(i != j and lst[i] in lst[j] for j in xrange(n)):
        res.append(lst[i])

但我们可以做得更好：

Let $是一个未出现在任何字符串中的字符，并且其值低于所有实际字符。

Let S是所有字符串的串联，$之间。在你的例子中，S = a$abc$b$d$xy$xyz.

您可以构建后缀数组 http://en.wikipedia.org/wiki/Suffix_array of S在线性时间内。您还可以使用我描述的更简单的 O(n log^2 n) 构造算法在另一个答案中 https://stackoverflow.com/questions/21220150/rank-the-suffix-of-a-list.

现在对于每个字符串lst，检查它是否在后缀数组中恰好出现一次。您可以进行两次二分搜索来查找子字符串的位置，它们在后缀数组中形成一个连续的范围。如果该字符串出现多次，则将其删除。

通过预先计算 LCP 信息，这也可以在线性时间内完成。

O(n log^2 n) 实现示例，改编自我的后缀数组答案 https://stackoverflow.com/a/21342145/916657:

def findFirst(lo, hi, pred):
  """ Find the first i in range(lo, hi) with pred(i) == True.
  Requires pred to be a monotone. If there is no such i, return hi. """
  while lo < hi:
    mid = (lo + hi) // 2
    if pred(mid): hi = mid;
    else: lo = mid + 1
  return lo

# uses the algorithm described in https://stackoverflow.com/a/21342145/916657
class SuffixArray(object):
  def __init__(self, s):
    """ build the suffix array of s in O(n log^2 n) where n = len(s). """
    n = len(s)
    log2 = 0
    while (1<<log2) < n:
      log2 += 1
    rank = [[0]*n for _ in xrange(log2)]
    for i in xrange(n):
      rank[0][i] = s[i]
    L = [0]*n
    for step in xrange(1, log2):
      length = 1 << step
      for i in xrange(n):
        L[i] = (rank[step - 1][i],
                rank[step - 1][i + length // 2] if i + length // 2 < n else -1,
                i)
      L.sort()
      for i in xrange(n):
        rank[step][L[i][2]] = \
          rank[step][L[i - 1][2]] if i > 0 and L[i][:2] == L[i-1][:2] else i
    self.log2 = log2
    self.rank = rank
    self.sa = [l[2] for l in L]
    self.s = s
    self.rev = [0]*n
    for i, j in enumerate(self.sa):
      self.rev[j] = i

  def lcp(self, x, y):
    """ compute the longest common prefix of s[x:] and s[y:] in O(log n). """
    n = len(self.s)
    if x == y:
      return n - x
    ret = 0
    for k in xrange(self.log2 - 1, -1, -1):
      if x >= n or y >= n:
        break
      if self.rank[k][x] == self.rank[k][y]:
        x += 1<<k
        y += 1<<k
        ret += 1<<k
    return ret

  def compareSubstrings(self, x, lx, y, ly):
    """ compare substrings s[x:x+lx] and s[y:y+yl] in O(log n). """
    l = min((self.lcp(x, y), lx, ly))
    if l == lx == ly: return 0
    if l == lx: return -1
    if l == ly: return 1
    return cmp(self.s[x + l], self.s[y + l])

  def count(self, x, l):
    """ count occurences of substring s[x:x+l] in O(log n). """
    n = len(self.s)
    cs = self.compareSubstrings
    lo = findFirst(0, n, lambda i: cs(self.sa[i], min(l, n - self.sa[i]), x, l) >= 0)
    hi = findFirst(0, n, lambda i: cs(self.sa[i], min(l, n - self.sa[i]), x, l) > 0)
    return hi - lo

  def debug(self):
    """ print the suffix array for debugging purposes. """
    for i, j in enumerate(self.sa):
      print str(i).ljust(4), self.s[j:], self.lcp(self.sa[i], self.sa[i-1]) if i >0 else "n/a"

def filterSublist(lst):
  splitter = "\x00"
  s = splitter.join(lst) + splitter
  sa = SuffixArray(s)
  res = []
  offset = 0
  for x in lst:
    if sa.count(offset, len(x)) == 1:
      res.append(x)
    offset += len(x) + 1
  return res

然而，解释开销可能会导致它比 O(n^2) 方法慢，除非S非常大（大约 10^5 个字符或更多）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

string

Algorithm

过滤字符串列表，忽略其他项目的子字符串的相关文章

硒网格监听节点端口而不是集线器端口

对于我的测试我在不同的端口上本地运行网格和节点 java jar usr bin selenium server jar port 4444 role hub java jar usr bin selenium server jar ro
如何在Python中检查UDF函数中pyspark数据帧列的单元格值为none或NaN以实现前向填充？

我基本上是在尝试进行前向填充插补下面是代码 df spark createDataFrame 1 1 None 1 2 5 1 3 None 1 4 None 1 5 10 1 6 None session timestamp id PR
将字符串转换为整数数组 String at = "1 2 3 4 5" 转换为 ar=[1,2,3,4,5]

我正在读取一个字符串作为一整行数字用空格分隔即1 2 3 4 5 我想将它们转换为整数数组以便我可以操作它们但这段代码不起作用它说不兼容的类型 String str br readLine int array new int 4
Pandas cut 方法不包括下限

我正在尝试对包含 0 到 100 范围内的年龄的数据帧列进行分箱当我尝试使用垃圾箱来包含零年龄时它不起作用这是一个使用包含我的数据范围的列表的演示 pd cut pd Series range 101 0 24 49 74 100 范
将Python嵌入到C中——导入模块

我在使用嵌入式 Python for C 时遇到问题文档 http docs python org extending embedding html 每当我尝试使用导入的模块时我都会得到 PythonIncl exe 中 0x1e089e
如果工作表不存在，Pandas 将工作表附加到工作簿，否则覆盖工作表

我正在使用 pandas 更新现有的 Excel 工作簿当使用ExcelWriter对象我可以覆盖工作表如果存在否则创建一个新工作表吗我的代码附加了新工作表但是当我尝试覆盖现有工作表时它会附加一个名称略有不同的新工作表例如
如何在Python中重命名virtualenv？

我拼错了名字virtualenv使用以下方法初始化它 virtualenv vnev 我实际上打算创建一个名为的环境venv 尝试重命名后vnev文件夹到venv 我发现这并没有提供太多帮助激活环境的名称仍然重命名旧的vnev mv vn
如何在Python中比较列表列表中的元素以及比较列表列表中的键？

我有以下顺序 seq ATG ATG ATG ATG GAC GAT GAA CCT GCC GCG GCA GCT 这是一个字典键用于存储每个密码子的氨基酸值三联碱基例如ATG GCT etc aminoacid TTT F TTC
并行磁盘 I/O

我有几个想要阅读的日志文件不失一般性假设日志文件处理如下 def process infilepath answer 0 with open infilepath as infile for line in infile if line
Python 日志记录 - 如何检查记录器是否为空

我刚刚在我的应用程序中实现了日志记录我想知道是否有一种方法可以检查记录器是否为空我的想法是在我的脚本中设置两个处理程序一个用于带水平仪的控制台WARNING 一个用于带级别的文件DEBUG 在脚本的最后我需要检查是否CONSOLE记
使用字体模块的 Tkinter 代码无法从命令行运行？

我有使用 tkinter 的代码我可以从 IDLE 运行得很好但会引发异常AttributeError module object has no attribute font 当它从命令行运行时其他 tkinter 程序工作正常但任
Kivy错误（python 2.7）：sdl2导入错误

我尝试在我的 Python 2 7 项目在 PyCharm Windows 10 环境中上使用 kivy 但出现以下错误如果有人可以帮助我吗谢谢 PS 我多次尝试卸载重新安装库等并按照像这样的帖子上的建议进行操作但它不起作用
Python 宏：用例？

如果 Python 有一个类似于 Lisp Scheme 的宏工具比如元Python https code google com p metapython 你会如何使用它如果您是一名 Lisp Scheme 程序员您会使用宏来做什么
pygame.image.load 不工作

我正在尝试为游戏创建世界地图但是当我尝试将世界地图加载到屏幕上时命令行告诉我无法执行此操作这是代码 import sys import pygame from pygame locals import pygame init Surf
在 CSV 文件的最上面一行写入

我有这个sample csv 文件 a 1 apple b 2 banana c 3 cranberry d 4 durian e 5 eggplant 并有以下代码 samplefile open sample csv rb rows s
如何使 cx-oracle 将查询结果绑定到字典而不是元组？

这是我的代码我想找到一种方法将查询结果作为字典列表而不是元组列表返回看起来 cx oracle 通过部分文档讨论绑定来支持这一点虽然我不知道它是如何工作的 def connect dsn cx Oracle makedsn hos
按键合并的两个字典的值的并集

我有两本词典 d1 a x y b k l d2 a m n c p r 如何合并这两个字典以获得这样的结果 d3 a x y m n b k l c p r 当字典的值是简单类型如 int 或 str 时这有效 d3 dict i a
添加条件计数器：基于其他列的值的计数器列

我有一张这样的桌子 id id2 val a red apple a red orange b blue fish c violet beef a yellow banana a black pork 我想根据 id 和 id2 的值创建一
PyQt 和 QSignalMapper/lambdas - 多个信号，单槽

我在 PyQt 的菜单上有一个操作列表每个操作对应我想要显示的每个不同的提要所以我有一个 Y 将活动源设置为 Y Z 将其设置为 Z 等等对于网络漫画阅读程序我的菜单上都有并且觉得自动化方法可能更好而不是每次都打字类似于将其添
Django Python - LDAP 身份验证

我目前正在研究 Django Python 我的目标是从 Ldap 目录对用户进行身份验证我确实有 python 代码来访问 ldap 目录并检索信息 Code import ldap try l ldap open ldap forum

随机推荐

Angular 2 - 获取 Observable 中已更改的 FormControl 的值

我有一个简单的表单FormBuilder this contactForm formBuilder group name email phone 我想观察每个控件的更改并在发生这种情况时使用更新后的值运行函数 getContacts va
如何在 Visual Studio 2010 中添加 ASP.NET MVC 3 Web 应用程序？

我的VS 2010如下微软视觉工作室 2010 版本 10 0 30319 1 RTMRel Microsoft NET Framework 版本 4 0 30319 RTMRel 安装版本旗舰版 ASP NET MVC 3 Web 应
如何从 IntelliJ IDEA 内部重命名本地 Git 分支？

您可以使用 IntelliJ IDEA 的 Git 插件做很多事情但我还没有找到重命名分支的方法有吗我知道我总是可以打开终端并执行git branch m source target 但我也希望找到一个 GUI 解决方案此功能有几个
Spring Boot计划任务不适用于docker容器

我的 Spring Boot 项目在 docker 容器上运行时遇到问题如果我以恶魔化方式运行容器 docker run d 当我在后台运行非图像时一切正常不幸的是我必须将其作为妖魔化来运行并且我不知道如何解决该问题感谢您提供任
使用“this->”的性能损失？

考虑 C 类中两个类似的 C 成员函数的示例 void C function Foo new f f new f and void C function Foo new f this gt f new f 这些函数的编译方式是否相同使用是
释放内存的重要性？ [复制]

这个问题在这里已经有答案了可能的重复当 malloc 之后不释放时到底会发生什么 https stackoverflow com questions 654754 what really happens when you dont f
MASM：在 .data 声明中使用当前位置计数器 ($)

我遇到了有关 MASM 中当前位置计数器的问题这是我的汇编代码我使用 Visual Studio 2013 Express 进行汇编 386 model flat stdcall stack 8192 ExitProcess proto
使用 JavaScript 读取 CSS 值

这有效 div style width 100 div 这确实not work div div 我也尝试过将 css 样
如何避免重复将大文件加载到Python脚本中？

我编写了一个 python 脚本来获取一个大文件一个矩阵 50k 行 X 500 列并将其用作数据集来训练随机森林模型我的脚本有两个函数一个用于加载数据集另一个用于使用所述数据训练随机森林模型这些都工作得很好但文件上传大约需要
使用 Node.js 设置 SSL

我在 GoDaddy 购买了 SSL 证书并使用以下 node js 服务器尝试设置它 var https require https module for https fs require fs required to read cer
使用 Oracle 客户端 64 位和 Visual Studio 2010 时出现 BadImageFormatException！

我们的一名开发团队成员遇到了错误尝试加载 Oracle 客户端库抛出 BadImageFormatException 它似乎当在 64 位模式下运行并安装了 32 位 Oracle 客户端组件时会出现此问题但配置系统的是我以下是规
点击事件被列表视图父项捕获

我正在编写一个在 Firemonkey 中使用的自定义开关对象TListView每个项目的控制除了一个奇怪的故障之外一切都按预期进行当用户单击其中一项而不是特定的开关对象时它无论如何都会切换开关我假设MouseDown当用户单击列
R 数据帧聚合列表

我确实有 53 个数据框 purchase01 到purchase53 的列表按日期排序有 18 个变量和不同的行数已尝试但无法在下面粘贴示例我想要总计的每个不同的数据帧通过其重复值 V9 因子与列 V2 数字相加我还没找到答
AFHTTPRequestOperationManager 返回块中的数据

我在我的应用程序中创建了一个 APIController 它有几个方法可以调用特定的 api url 并返回一个用 api 调用结果填充的模型对象该 API 使用 json 到目前为止我的代码如下所示 Definition MyModel
自定义单元格：致命错误：在展开可选值时意外发现 nil

我有一个带有创建为 xib 的自定义单元格的表格视图我没有使用故事板我有一个问题我无法用来自网络服务结果的数据填充我的表另外我在自定义单元格中有 4 个标签在我的自定义单元类中当我尝试为每个项目设置标签时它给了我如上所述的致
Django从apache获取环境变量

我似乎无法让 Django 读取我从环境变量中配置的设置我遵循了一些在线指南并发现了一些其他问题因此尝试配置如下阿帕奇配置 WSGIScriptAlias v4 usr local myproject4 myproject4 wsg
如何在 ASP.NET DataRepeater 控件中执行条件逻辑？

我将 DataRepeater 控件绑定到具有许多列的表我只想显示其中的一个子集具体取决于填充的内容我应该如何在哪里进行数据中继器中的条件测试这是我的 itemtemplate 中的代码我得到的错误是 CS0103 名称容器
尝试从 python 写入 cassandra 时 CQL 查询中出现语法错误

因此我正在用 python 构建一个应用程序该应用程序从 twitter 获取数据然后将其保存到 cassandra 我当前的问题在于一个从kafka读取数据并尝试将其写入cassandra的脚本如下所示 import thread
scala会自动关闭InputStream吗？

我是 scala 的新手不熟悉流关闭机制我写了一些这样的代码 def loadResourceAsString path String val is this getClass getResourceAsStream path Sour
过滤字符串列表，忽略其他项目的子字符串

如何过滤包含字符串和子字符串的列表以仅返回最长的字符串如果列表中的任何项目是另一个项目的子字符串则仅返回较长的字符串我有这个功能有更快的方法吗 def filterSublist lst uniq lst for elem in l

过滤字符串列表，忽略其他项目的子字符串

过滤字符串列表，忽略其他项目的子字符串 的相关文章

随机推荐

热门标签

过滤字符串列表，忽略其他项目的子字符串的相关文章