查找字符串的最常见前缀 - 更好的方法吗？

2024-04-15

我有一个钥匙列表['foo_a','foo_b','foo_c','fnord']

这里所有类似的解决方案都假设您没有fnord在你的文字中。

我有这个代码可以完成这项工作：

def detect_prefix(keys):
    PCT = 0.70 # cutof 
    pre = ''
    l = len(keys)
    for i in range(0, len(max(keys, key=len))):
        keys = filter(lambda k: k.startswith(pre), keys)
        cnt = dict()
        for k in map(lambda k: k[i], keys):
            cnt.setdefault(k,0)
            cnt[k] +=1
        if cnt[max(cnt)] / float(l) >= PCT:
            pre += max(cnt)
        else:
            break
    return pre

我有一个strong怀疑这可以做得更优雅，但我的 python-fu 现在还不够强大。

我很想听听一些建议。

Edit。额外的背景和说明。
这些是其他开发人员放入应用程序中用于翻译的密钥。他们should有一个共同的前缀，但人们忘记了，他们从其他代码中剪切和粘贴。 “_”作为前缀分隔符只是一种约定。最好不要假设使用了分隔符。 70% 是一个完全任意的阈值。 “最普遍”或“主要”也可以。
是的，这是 python 2.7，引号内的空格只是一个视觉制品。

如果您知道公共前缀所需的阈值频率：

#!/usr/bin/env python
from collections import Counter
from itertools import izip_longest

strings = ['foo_a','foo_b','foo_c','fnord']
threshold = .7 * len(strings)
prefix = []
for chars in izip_longest(*strings, fillvalue=''):
    char, count = Counter(chars).most_common(1)[0]
    if count < threshold:
        break
    prefix.append(char)
print(''.join(prefix))
# -> foo_

或者您可以收集所有常见前缀及其频率，然后再决定：

#!/usr/bin/env python
from collections import Counter
from itertools import izip_longest

strings = ['foo_a', 'foo_b','foo_c','fnord']
assert len(strings) > 1
threshold = len(strings)
prefix = []
prefixes = []
for chars in izip_longest(*strings, fillvalue=''):
    char, count = Counter(chars).most_common(1)[0]
    if count == 1:
        break
    elif count < threshold:
        if prefix:
            prefixes.append((''.join(prefix), threshold))
        threshold = count
    prefix.append(char)
if prefix:
    prefixes.append((''.join(prefix), threshold))
print(prefixes)
# -> [('f', 4), ('foo_', 3)]

两个代码示例都假设存在主要前缀，即每个位置最常见的字符属于最常见的前缀。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Algorithm

python27

prefix

Robust

查找字符串的最常见前缀 - 更好的方法吗？的相关文章

ValueError：请使用“Layer”实例初始化“TimeDistributed”层

我正在尝试构建一个可以在音频和视频样本上进行训练的模型但出现此错误ValueError Please initialize TimeDistributed layer with a Layer instance You passed Te
从字典的元素创建 Pandas 数据框

我正在尝试从字典创建一个 pandas 数据框字典设置为 nvalues y1 1 2 3 4 y2 5 6 7 8 y3 a b c d 我希望数据框仅包含 y1 and y2 到目前为止我可以使用 df pd DataFrame fr
如何在python中附加两个字节？

说你有b x04 and b x00 你如何将它们组合起来b x0400 使用Python 3 gt gt gt a b x04 gt gt gt b b x00 gt gt gt a b b x04 x00
指示电子邮件的类型

我有以下自动化程序它将电子邮件发送给我自己并添加了特定的链接 import win32com client as win32 import easygui import tkinter as to from tkinter import
如何使用 Python boto3 获取 redshift 中的列名称

我想使用 python boto3 获取 redshift 中的列名称创建Redshift集群将数据插入其中配置的机密管理器配置 SageMaker 笔记本打开Jupyter Notebook写入以下代码 import boto3
检查 python 中命令行参数的数量

我是蟒蛇新手还是把脚弄湿了我正在尝试做这样的事情 import sys if len sys argv lt 3 or lt len sys argv gt 3 print This script will compare two fi
如何获取numpy.random.choice的索引？ - Python

是否可以修改 numpy random choice 函数以使其返回所选元素的索引基本上我想创建一个列表并随机选择元素而不进行替换 import numpy as np gt gt gt a 1 4 1 3 3 2 1 4 gt gt
python 中的 h2o 框架子集

如何在 python 中对 h2o 框架进行子集化如果 x 是一个 df 并且 Origin 是一个变量那么在 pandas 中我们通常可以通过以下方式进行子集化 x x Origin AAF 但使用 h2o 框架会出现以下错误 H2O
具有多个谓词的 C++11 算法

功能如std find if来自algorithmheader 确实很有用但对我来说一个严重的限制是我只能为每次调用使用 1 个谓词count if 例如给定一个像这样的容器std vector我想同时应用相同的迭代find if 多个
为什么这个 if 语句会导致语法错误

我正在尝试设置一个 elif 语句如果用户按下 Enter 键代码将继续但是我不断遇到语法错误 GTIN 0 while True try GTIN int input input your gtin 8 number if len
检索 geodjango 多边形对象的边界框

如何在 geodjango 中获取 MultiPolygon 对象的边界框在 API 中找不到任何内容http geodjango org docs geos html http geodjango org docs geos html
将字符串中的随机字符转换为大写

我尝试随机附加文本字符串这样就不只是有像这样的输出 gt gt gt david 我最终会得到类似的东西 gt gt gt DaViD gt gt gt dAviD 我现在的代码是这样的 import random import stri
如何从列表类别中对 pandas 数据框进行排序？

所以我在下面有这个数据集我想根据我的列表从名称列进行排序以及按 A 升序和按 B 降序排序 import pandas as pd import numpy as np df1 pd DataFrame from items A 1
PyInstaller“ValueError：源代码字符串不能包含空字节”

我得到了一个ValueError source code string cannot contain null bytes执行命令时pyinstaller main py在具有和不具有管理员权限的cmd中 Traceback most re
使用 selenium 和 python 来提取 javascript 生成的 HTML？萤火虫？

这里是Python新手我遇到的是数据收集问题我在这个网站上当我用 Firebug 检查我想要的元素时它显示了包含我需要的信息的源然而常规源代码没有 Firebug 不会给我这个信息这意味着我也无法通过正常的 selenium
在 numpy 中连接维度

我有x 1 2 3 4 5 6 7 8 9 10 11 12 shape 2 2 3 I want 1 2 3 4 5 6 7 8 9 10 11 12 shape 2 6 也就是说我想连接中间维度的所有项目在这种特殊情况下我可以得到这
绘制多边形

我正在使用 Google Maps API V3 根据路径绘制多边形该路径是随机未排序坐标点 LatLng 的数组这会产生以下形状 Polylines intersect Problem 由于多边形的形状取决于路径中点的顺序因此如何对
高效创建抗锯齿圆形蒙版

我正在尝试创建抗锯齿加权而不是布尔圆形掩模以制作用于卷积的圆形内核 radius 3 no of pixels to be 1 on either side of the center pixel shall be decimal a
如何使用xlwt设置文本颜色

我无法找到有关如何设置文本颜色的文档在 xlwt 中如何完成以下操作 style xlwt XFStyle bold font xlwt Font font bold True style font font background col
使用 paramiko 运行 Sudo 命令

我正在尝试执行sudo使用 python paramiko 在远程计算机上运行命令我尝试了这段代码 import paramiko ssh paramiko SSHClient ssh set missing host key polic

随机推荐

如何检查iOS版本 delphi xe5/xe6

有没有办法在 Delphi 应用程序中检查 iOS 版本我想在 Delphi XE6 中为 iOS7 和 iOS6 创建特定的代码段您可以使用服务版本 http docwiki embarcadero com Libraries XE6
React Router 的组件中的状态是什么？

这是他们的文档的屏幕截图成分 https i stack imgur com qt5zs png What state他们是什么意思 ARedux state 通过一个州是什么样子的像这样 pathname foo query x th
导入 matplotlib 时 numpy 的版本错误

When I import matplotlib 我没有收到任何错误但是当我 import matplotlib pyplot I get RuntimeError module compiled against API version
尝试将我的 LogCat 输出到文件

有人告诉我这是一个命令行选项但是 Eclipse 的 Run Run Configurations Target Additional Emulator Command Line Options 字段已经被占用 sdcard C andr
使用 Rstudio Keras 的暹罗网络

我正在尝试使用 Rstudio Keras 包实现暹罗网络我尝试实现的网络与您可以在中看到的网络相同这个帖子 https sorenbouma github io blog oneshot 因此基本上我将代码移植到 R 并使用 Rst
如何知道webkitSpeechRecognition是否启动？

我正在制作一个机器人来听我的声音所以我做了 this recognition new webkitSpeechRecognition 我可以这样做来开始听 this recognition start 这是停止听 this recogni
Java：为什么这个交换方法不起作用？ [复制]

这个问题在这里已经有答案了我有以下代码 public class Main static void swap Integer x Integer y Integer t x x y y t public static void main
使用多个字段对 solr 搜索结果进行排序 (solrj)

我需要根据两个因素对从 apache solr 返回的结果进行排序我们的系统中有三个实体由 solr 索引组项目和数据集在结果中我希望首先显示数据集然后是项目然后是组但我仍然希望它尊重每种类型的评分值因此例如结果将是得
mysql 查找多列重复项

如何查找多列的重复记录表有主键自动递增 EG ID a id b id 1 34 23 2 34 23 3 35 25 例如我想查找具有相同a id和b id的记录 Thanks select t ID t a id t b id fr
如何找到激活时打开给定 HMENU 的菜单项（如果有）？

我想用原型实现一个功能 Locates the menu item of the application which caused the given menu mnu to show up return true if the given
如何将事件处理程序分配给 JavaScript 中的多个元素？

我知道如何使用 jQuery 来做到这一点并且我知道如何使用事件委托来做到这一点但是如何在纯 JavaScript 中做到这一点呢例如如何将事件处理程序分配给一堆lis 我看到var li document querySelecto
代码高尔夫：弗罗贝尼乌斯数

Locked 这个问题及其答案是locked help locked posts因为这个问题是题外话但却具有历史意义目前不接受新的答案或互动编写最短的程序来计算给定正数集的弗罗贝尼乌斯数弗罗贝尼乌斯数是不能写成集合中数字的正倍数之和
CKEditor 5 通过外部 url 插入图像

我想知道如何仅通过 URL 插入图像用户从其他网站获取它我需要实现一个简单的img 源在 CKEditor 5 中问题是默认情况下编辑器要求我上传图像而我需要插入外部 url 我读过很多相关主题 1 https stackov
带正文的 HttpDelete

我正在尝试使用 HttpDelete 对象来调用 Web 服务的删除方法 Web 服务的代码从消息正文中解析 JSON 但是我无法理解如何将主体添加到 HttpDelete 对象有没有办法做到这一点使用 HttpPut 和 HttpP
Python 的“导入”内部是如何工作的？

当您导入一个模块然后再次重新导入它时它会被重新导入覆盖还是跳过当您导入模块 a 和 b 并且还在模块 a 中导入模块 b 时会发生什么这样做安全吗例如如果该模块 b 中有一个实例化的类您最终会实例化它两次吗 import加
我在使用阴影效果时表现不佳

我在滚动视图上放置了一些图像视图当我拖动这个滚动视图时我没有遇到任何问题但是当我对这些图像视图应用阴影效果后拖动此滚动视图的性能很差我使用了shadowOpacity shadowRadius 和shadowOffset 方法
使用流迭代 n 次，而不是使用 for 循环创建 n 项

假设我想创建 n 个项目在 Java 8 之前我会这样写 List
如何构建特定函数调用的图表？

我有一个项目我想动态构建特定函数调用的图表例如如果我有 2 个模板类 A 和 B 其中 A 有一个跟踪方法保存为图形节点 B 有 3 个方法非跟踪方法跟踪方法和调用 A 的跟踪方法的跟踪方法那么我希望能够仅将跟踪的方法调用注册
PyAudio 输入溢出

我正在尝试用 python 发出实时绘图声音我需要从我的麦克风中获取数据块使用 PyAudio 尝试使用 import pyaudio import wave import sys chunk 1024 FORMAT pyaudio p
查找字符串的*最*常见前缀 - 更好的方法吗？

我有一个钥匙列表 foo a foo b foo c fnord 这里所有类似的解决方案都假设您没有fnord在你的文字中我有这个代码可以完成这项工作 def detect prefix keys PCT 0 70 cutof pre l

查找字符串的*最*常见前缀 - 更好的方法吗？

查找字符串的*最*常见前缀 - 更好的方法吗？ 的相关文章

随机推荐

热门标签

查找字符串的最常见前缀 - 更好的方法吗？

查找字符串的最常见前缀 - 更好的方法吗？的相关文章