加速“最接近”字符串匹配算法

2024-04-07

我目前正在处理一个非常大的位置数据库，并尝试将它们与现实世界的坐标相匹配。

为了实现这一点，我下载了地名数据集 https://www.geonames.org/export/其中包含很多条目。它给出了可能的名称和纬度/经度坐标。为了尝试加快该过程，我通过删除对我的数据集没有意义的条目，设法将巨大的 csv 文件（1.6 GB）减少到 0.450 GB。然而它仍然包含 400 万个条目。

现在我有很多条目，例如：

上周从我位于挪威尤通黑门的露营地看到的斯莱特马克山脉
在英国苏格兰斯凯岛仙女谷探险
加利福尼亚州移民荒野的早晨

知道字符串与这么长的字符串匹配，我使用斯坦福大学的NER https://nlp.stanford.edu/software/tagger.shtml通过 NLTK 获得更好的字符串来限定我的位置。现在我有这样的字符串：

挪威尤通黑门州斯莱特马克山脉
仙女格伦斯凯苏格兰英国
加州移民荒野
优胜美地国家公园
半圆顶优胜美地国家公园

geoname 数据集包含以下内容：

尤通黑门挪威经纬度
Slettmarkmountains Jotunheimen 挪威经纬度
布莱斯峡谷经纬度
半圆顶经纬度
...

我正在应用这个算法 http://www.catalysoft.com/articles/StrikeAMatch.html在我的条目和包含 4M 条目的 geoname csv 之间获得良好的可能匹配。我首先读取 geoname_cleaned.csv 文件并将所有数据放入列表中。对于我拥有的每一项条目，我都会调用我的每一项条目string_similarity()当前条目和 geoname_list 的所有条目之间

def get_bigrams(string):
    """
    Take a string and return a list of bigrams.
    """
    s = string.lower()
    return [s[i:i+2] for i in list(range(len(s) - 1))]

def string_similarity(str1, str2):
    """
    Perform bigram comparison between two strings
    and return a percentage match in decimal form.
    """
    pairs1 = get_bigrams(str1)
    pairs2 = get_bigrams(str2)
    union  = len(pairs1) + len(pairs2)
    hit_count = 0
    for x in pairs1:
        for y in pairs2:
            if x == y:
                hit_count += 1
                break
    return (2.0 * hit_count) / union

我已经在原始数据集的子集上测试了该算法，它运行良好，但显然非常慢（单个位置最多需要 40 秒）。由于我有超过 100 万个条目需要处理，因此这将花费 10000 小时或更长时间。我想知道你们是否知道如何加快速度。我显然想到了并行处理，但我没有任何可用的 HPC 解决方案。也许简单的想法可以帮助我加快速度。

我对你们可能有的任何想法持开放态度，但在某种程度上更喜欢与 python 兼容的解决方案。

提前致谢：）。

Edit:

我尝试过 fuzzywuzzyfuzz.token_set_ratio(s1, s2)并且它的性能最差（运行时间更差，结果也不那么好）。使用我的自定义技术，比赛效果不如以前那么好，单次参赛的运行时间足足增加了 15 秒。

Edit 2:

我也想在开始时使用某种排序来帮助匹配，但我的天真的实现不起作用。但我确信有一些方法可以加快速度，例如删除 geoname 数据集中的某些条目，或以某种方式对它们进行排序。我已经做了很多清理工作以删除无用的条目，但无法获得低于 4M 的数字

我们可以通过多种方式加快匹配速度。我假设在你的代码中str1是数据集中的名称，并且str2是一个地理名称字符串。为了测试代码，我根据您问题中的数据制作了两个小数据集。我写了两个匹配函数best_match and first_match使用您当前的string_similarity函数，这样我们就可以看到我的策略给出了相同的结果。best_match检查所有地理名称字符串，如果超过给定的阈值分数，则返回分数最高的字符串，否则返回None. first_match（可能）更快：它只返回超过阈值的第一个地理名称字符串，或者None如果它找不到，那么如果它没有找到匹配项，那么它仍然必须搜索整个地理名称列表。

在我的改进版本中，我们为每个生成二元组str1一次，而不是重新生成二元组str1对于每个str2我们将其与它进行比较。我们提前计算所有的地理名称二元组，将它们存储在由字符串索引的字典中，这样我们就不必为每个地理名称二元组重新生成它们str。此外，我们将地理名称二元组存储为集合。这使得计算hit_count更快，因为集合成员资格测试比对字符串列表进行线性扫描要快得多。这geodict还需要存储每个二元组的长度：集合不包含重复项，因此二元组集合的长度可能小于二元组列表，但我们需要列表长度才能正确计算分数。

# Some fake data
geonames = [
    'Slettmarkmountains Jotunheimen Norway',
    'Fairy Glen Skye Scotland UK',
    'Emigrant Wilderness California',
    'Yosemite National Park',
    'Half Dome Yosemite National Park',
]

mynames = [
    'Jotunheimen Norway',
    'Fairy Glen',
    'Slettmarkmountains Jotunheimen Norway',
    'Bryce Canyon',
    'Half Dome',
]

def get_bigrams(string):
    """
    Take a string and return a list of bigrams.
    """
    s = string.lower()
    return [s[i:i+2] for i in range(len(s) - 1)]

def string_similarity(str1, str2):
    """
    Perform bigram comparison between two strings
    and return a percentage match in decimal form.
    """
    pairs1 = get_bigrams(str1)
    pairs2 = get_bigrams(str2)
    union  = len(pairs1) + len(pairs2)
    hit_count = 0
    for x in pairs1:
        for y in pairs2:
            if x == y:
                hit_count += 1
                break
    return (2.0 * hit_count) / union

# Find the string in geonames which is the best match to str1
def best_match(str1, thresh=0.2):
    score, str2 = max((string_similarity(str1, str2), str2) for str2 in geonames)
    if score < thresh:
        str2 = None
    return score, str2

# Find the 1st string in geonames that matches str1 with a score >= thresh
def first_match(str1, thresh=0.2):
    for str2 in geonames:
        score = string_similarity(str1, str2)
        if score >= thresh:
            return score, str2
    return None

print('Best')
for mystr in mynames:
    print(mystr, ':', best_match(mystr))
print()

print('First')
for mystr in mynames:
    print(mystr, ':', best_match(mystr))
print()

# Put all the geoname bigrams into a dict
geodict = {}
for s in geonames:
    bigrams = get_bigrams(s)
    geodict[s] = (set(bigrams), len(bigrams))

def new_best_match(str1, thresh=0.2):
    pairs1 = get_bigrams(str1)
    pairs1_len = len(pairs1)

    score, str2 = max((2.0 * sum(x in pairs2 for x in pairs1) / (pairs1_len + pairs2_len), str2)
        for str2, (pairs2, pairs2_len) in geodict.items())
    if score < thresh:
        str2 = None
    return score, str2

def new_first_match(str1, thresh=0.2):
    pairs1 = get_bigrams(str1)
    pairs1_len = len(pairs1)

    for str2, (pairs2, pairs2_len) in geodict.items():
        score = 2.0 * sum(x in pairs2 for x in pairs1) / (pairs1_len + pairs2_len)
        if score >= thresh:
            return score, str2
    return None

print('New Best')
for mystr in mynames:
    print(mystr, ':', new_best_match(mystr))
print()

print('New First')
for mystr in mynames:
    print(mystr, ':', new_first_match(mystr))
print()

output

Best
Jotunheimen Norway : (0.6415094339622641, 'Slettmarkmountains Jotunheimen Norway')
Fairy Glen : (0.5142857142857142, 'Fairy Glen Skye Scotland UK')
Slettmarkmountains Jotunheimen Norway : (1.0, 'Slettmarkmountains Jotunheimen Norway')
Bryce Canyon : (0.1875, None)
Half Dome : (0.41025641025641024, 'Half Dome Yosemite National Park')

First
Jotunheimen Norway : (0.6415094339622641, 'Slettmarkmountains Jotunheimen Norway')
Fairy Glen : (0.5142857142857142, 'Fairy Glen Skye Scotland UK')
Slettmarkmountains Jotunheimen Norway : (1.0, 'Slettmarkmountains Jotunheimen Norway')
Bryce Canyon : (0.1875, None)
Half Dome : (0.41025641025641024, 'Half Dome Yosemite National Park')

New Best
Jotunheimen Norway : (0.6415094339622641, 'Slettmarkmountains Jotunheimen Norway')
Fairy Glen : (0.5142857142857142, 'Fairy Glen Skye Scotland UK')
Slettmarkmountains Jotunheimen Norway : (1.0, 'Slettmarkmountains Jotunheimen Norway')
Bryce Canyon : (0.1875, None)
Half Dome : (0.41025641025641024, 'Half Dome Yosemite National Park')

New First
Jotunheimen Norway : (0.6415094339622641, 'Slettmarkmountains Jotunheimen Norway')
Fairy Glen : (0.5142857142857142, 'Fairy Glen Skye Scotland UK')
Slettmarkmountains Jotunheimen Norway : (1.0, 'Slettmarkmountains Jotunheimen Norway')
Bryce Canyon : None
Half Dome : (0.41025641025641024, 'Half Dome Yosemite National Park')

new_first_match相当简单。线路

for str2, (pairs2, pairs2_len) in geodict.items():

循环遍历中的每个项目geodict提取每个字符串、二元组和真实二元长度。

sum(x in pairs2 for x in pairs1)

计算有多少个二元组pairs1是成员pairs2 set.

因此，对于每个地理名称字符串，我们计算相似度分数，如果它 >= 阈值（默认值为 0.2），则返回它。你可以给它一个不同的默认值thresh，或通过thresh当你调用它时。

new_best_match有点复杂。 ;)

((2.0 * sum(x in pairs2 for x in pairs1) / (pairs1_len + pairs2_len), str2)
    for str2, (pairs2, pairs2_len) in geodict.items())

是一个生成器表达式。它循环geodict项目并创建一个(score, str2)每个地理名称字符串的元组。然后我们将该生成器表达式提供给max函数，返回得分最高的元组。

这是一个版本new_first_match这实现了 juvian 在评论中提出的建议。它可能会节省一点时间。此版本还避免测试任一二元组是否为空。

def new_first_match(str1, thresh=0.2):
    pairs1 = get_bigrams(str1)
    pairs1_len = len(pairs1)
    if not pairs1_len:
        return None

    hiscore = 0
    for str2, (pairs2, pairs2_len) in geodict.items():
        if not pairs2_len:
            continue
        total_len = pairs1_len + pairs2_len
        bound = 2.0 * pairs1_len / total_len
        if bound >= hiscore:
            score = 2.0 * sum(x in pairs2 for x in pairs1) / total_len
            if score >= thresh:
                return score, str2
            hiscore = max(hiscore, score)
    return None

一个更简单的变化是不打扰计算hiscore并比较bound to thresh.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

加速“最接近”字符串匹配算法的相关文章

在 django ORM 中查询时如何将 char 转换为整数？

最近开始使用 Django ORM 我想执行这个查询 select student id from students where student id like 97318 order by CAST student id as UNSIG
如何使用 opencv.omnidir 模块对鱼眼图像进行去扭曲

我正在尝试使用全向模块 http docs opencv org trunk db dd2 namespacecv 1 1omnidir html用于对鱼眼图像进行扭曲处理Python 我正在尝试适应这一点C 教程 http docs op
将html数据解析成python列表进行操作

我正在尝试读取 html 网站并提取其数据例如我想查看公司过去 5 年的 EPS 每股收益基本上我可以读入它并且可以使用 BeautifulSoup 或 html2text 创建一个巨大的文本块然后我想搜索该文件我一直在使用
使用 Python 从文本中删除非英语单词

我正在 python 上进行数据清理练习我正在清理的文本包含我想删除的意大利语单词我一直在网上搜索是否可以使用像 nltk 这样的工具包在 Python 上执行此操作例如给出一些文本 Io andiamo to the beach w
使用 kivy textinput 的 'input_type' 属性的问题

您好我在使用 kivy 的文本输入小部件的 input type 属性时遇到问题问题是我制作了两个自定义文本输入其中一个称为 StrText 其中设置了 input type text 然后是第二个文本输入名为 NumText 其
如何使用 Pandas、Numpy 加速 Python 中的嵌套 for 循环逻辑？

我想检查一下表的字段是否TestProject包含了Client端传入的参数嵌套for循环很丑陋有什么高效简单的方法来实现吗非常感谢您的任何建议 def test parameter a list parameter b list g
Pandas Merge (pd.merge) 如何设置索引和连接

我有两个 pandas 数据框 dfLeft 和 dfRight 以日期作为索引 dfLeft cusip factorL date 2012 01 03 XXXX 4 5 2012 01 03 YYYY 6 2 2012 01 04 XX
如何将张量流模型部署到azure ml工作台

我在用Azure ML Workbench执行二元分类到目前为止一切正常我有很好的准确性我想将模型部署为用于推理的 Web 服务我真的不知道从哪里开始 azure 提供了这个doc https learn microsoft co
为什么 PyYAML 花费这么多时间来解析 YAML 文件？

我正在解析一个大约 6500 行的 YAML 文件格式如下 foo1 bar1 blah name john age 123 metadata whatever1 whatever whatever2 whatever stuff thi
linux perf：如何解释和查找热点

我尝试了linux perf https perf wiki kernel org index php Main Page今天很实用但在解释其结果时遇到了困难我习惯了 valgrind 的 callgrind 这当然是与基于采样的 pe
在Python中检索PostgreSQL数据库的新记录

在数据库表中第二列和第三列有数字将会不断添加新行每次每当数据库表中添加新行时 python 都需要不断检查它们当 sql 表中收到的新行数低于 105 时 python 应打印一条通知消息警告数量已降至 105 以下另一方面
如何使用python在一个文件中写入多行

如果我知道要写多少行我就知道如何将多行写入一个文件但是当我想写多行时问题就出现了但是我不知道它们会是多少我正在开发一个应用程序它从网站上抓取并将结果的链接存储在文本文件中但是我们不知道它会回复多少行我的代码现在如下 r
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
pip 列出活动 virtualenv 中的全局包

将 pip 从 1 4 x 升级到 1 5 后pip freeze输出我的全局安装系统软件包的列表而不是我的 virtualenv 中安装的软件包的列表我尝试再次降级到 1 4 但这并不能解决我的问题这有点类似于这个问题 http
如何断言 Unittest 上的可迭代对象不为空？

向服务提交查询后我会收到一本字典或一个列表我想确保它不为空我使用Python 2 7 我很惊讶没有任何assertEmpty方法为unittest TestCase类实例现有的替代方案看起来并不正确 self assertTrue
如何在 Windows 命令行中使用参数运行 Python 脚本

这是我的蟒蛇hello py script def hello a b print hello and that s your sum sum a b print sum import sys if name main hello sys
Python：XML 内所有标签名称中的字符串替换（将连字符替换为下划线）

我有一个格式不太好的 XML 标签名称内有连字符我想用下划线替换它以便能够与 lxml objectify 一起使用我想替换所有标签名称包括嵌套的子标签示例 XML
python import inside函数隐藏现有变量

我在我正在处理的多子模块项目中遇到了一个奇怪的 UnboundLocalError 分配之前引用的局部变量问题并将其精简为这个片段使用标准库中的日志记录模块 import logging def foo logging info fo
Python ImportError：无法导入名称 __init__.py

我收到此错误 ImportError cannot import name life table from cdc life tables C Users tony OneDrive Documents Retirement retirem
在 JavaScript 函数的 Django 模板中转义字符串参数

我有一个 JavaScript 函数它返回一组对象 return Func id name 例如我在传递包含引号的字符串时遇到问题 Dr Seuss ABC BOOk 是无效语法 I tried name safe 但无济于事有什么解

随机推荐

ASP.NET MVC 性能

我发现一些疯狂的评论称 ASP NET MVC 比 ASP NET WebForms 快 30 倍真正的性能差异是什么是否经过测量以及性能优势是什么这是为了帮助我考虑从 ASP NET WebForms 迁移到 ASP NET MVC
将 Docker 容器限制为单个 cpu 核心

我正在尝试构建一个在一致条件下运行代码片段的系统我认为实现这一点的一种方法是在具有相同布局的 docker 容器中运行各种程序保留相同数量的内存等但是我似乎不知道如何保持 CPU 使用率一致我似乎能找到的最接近的是 cpu 共享
压缩过滤器+MVC+Yahoo YSlow

我一直在使用雅虎的 YSLOW 来尝试让我的页面运行得更快AgentX http www agentx co nz 我正在使用下面的压缩过滤器当我通过 Visual Studio 运行该网站时 YSLOW 说所有文件都已压缩当我查看实时
C#：从 XML 读取/写入日期时间

我需要知道写作阅读的最佳方式DateTime传入传出 XML 我应该直接写吗DateTime转换为 XML 或DateTime ToString 转换为 XML 第二个问题是如何从 XML 中读取日期元素铸造可以用于此目的吗例如 D
RxJS (5.0rc4)：暂停和恢复间隔计时器

我正在使用 Rx 来保持动画时钟每个动画帧都会将间隔刻度映射到该刻度的新值假设我想暂停动画最自然的方法是以某种方式暂停时钟接收然后在稍后恢复它取消订阅然后重新订阅并不是一个自然的选择因为这个动画时钟是一个冷可观察的对象我不想在
如何使用 QtMqtt 和 SSL 执行安全 MQTT？

我正在尝试使用 QtMQtt 示例项目 simpleclient 但我想执行安全的 MQTT 我该如何处理这个问题我读过这篇博客 https www qt io blog 2017 08 14 introducing qtmqtt pro
如何区分应用程序退出和系统关闭

Mac OS X 上的 Java 在 Swing GUI 应用程序中我想区分应用程序退出和系统关闭在应用程序退出时我想显示一个确认对话框但是当用户选择系统关闭时我只想退出应用程序因为系统已经出现了一个确认对话框这在其他平台
Python 中的意外列表行为

我想颠倒一个列表我成功地做到了但在工作的过程中我发现了一些奇怪的事情以下程序按预期工作但未注释行list reversed i list len list 1 i and 打印列表 i 评论最后一行当然导致了改变list 我没看
使用 setInterval() 后出现clearInterval() 未定义错误

我知道这不应该是内联的但 YUI 库的对话框迫使我这样做我的问题是每当我将鼠标悬停在该 div 上时左边缘滚动就会激活但当我将鼠标移出该 div 时它不会停止 JS 控制台报告未捕获的引用错误 timerID 未定义这是代码
如何从 MQTT 生产并在 ActiveMQ 中作为 MQTT 和 JMS 消费

我有一个设置其中消息作为 MQTT 生成到 ActiveMQ 我有两个消费者一个作为 JMS 另一个作为 MQTT 当我将消息作为 JMS 消息发布到主题 foo 时我在 JMS 和 MQTT 消费者处都收到消息但是当我在同一主题上
make_shared真的比new更高效吗？

我正在尝试shared ptr and make shared从 C 11 编写了一个小玩具示例来看看调用时实际发生了什么make shared 作为基础设施我使用 llvm clang 3 0 以及 XCode4 中的 llvm std
共享首选项和微调器不维护状态

我有一个像这样的旋转器 Spinner 1 final Spinner plan Spinner dialog findViewById R id spinner1 strings getResources getStringArray R
Android - 使用外部浏览器在 WebView 中打开目标 _blank 链接

我建立一个WebView显示一个网站该网站包含无链接的链接target blank 属性和一些带有它的我需要打开链接target在外部标准设备浏览器中定义的以及在 WebView 内部没有定义的我正在使用一个WebViewClient
dart 中整数的最大值是多少？

我到处都找过但找不到与该主题相关的任何信息另外 dart 中是否有类似 java 的 Long BigDecimal 数据类型 Dart 2 对于 dart2js 生成的 JavaScript Pixel Elephant 的答案仍然是
在 ruby 中处理大型 CSV 文件 (20G)

我正在解决一个小问题并会就如何解决它提供一些建议给定一个列数和行数未知的 csv 文件输出包含值的列列表以及每个值重复的次数不使用任何库如果文件很小这应该不是问题但是当它是几场演出时我得到 NoMemoryError 无法分
为什么静态方法需要包装到类中？

对于这个问题的无知性质我深表歉意如果有一个简单的答案只需一个解释链接就会让我非常高兴经过 6 个月的编程后我发现静态类对于存储适用于许多不同类的例程有点有用这是我如何使用静态类的一个简化示例它是一个用于将文本解析为各种内容的类
如何在 Lighttable 中创建基本的 ClojureScript Hello World 应用程序？

LightTable 中的文档似乎相当稀疏我想在 LightTable 中创建一个非常简单的 ClojureScript Web 应用程序作为构建的起点我让 Clojure 中的 Instarepl 工作正常然后创建一个名为 dumm
从计算机商店删除证书

我很难让 powershell 删除意外安装到我们所有 Windows 7 计算机上的计算机商店的证书作为示例我提供了证书安装位置的屏幕截图这不是实际的证书我们有几百台机器因此我们希望尽可能自动化地完成此操作如果有人可以提供一种
请识别此算法：数据流中的概率前 k 个元素

我记得几年前听说过以下算法但在网上找不到任何参考它仅使用 m 个计数器来识别 n 个元素的数据流中的前 k 个元素或重量级元素这对于在使用最少内存的情况下查找热门搜索词网络滥用者等特别有用算法对于每个元素如果该元素还没有计数
加速“最接近”字符串匹配算法

我目前正在处理一个非常大的位置数据库并尝试将它们与现实世界的坐标相匹配为了实现这一点我下载了地名数据集 https www geonames org export 其中包含很多条目它给出了可能的名称和纬度经度坐标为了尝试加快该过

加速“最接近”字符串匹配算法

加速“最接近”字符串匹配算法 的相关文章

随机推荐

热门标签

加速“最接近”字符串匹配算法的相关文章