如何在Python中创建一个trie树

2024-03-02

我对 trie 和 DAWG(直接非循环字图)感兴趣,并且阅读了很多有关它们的内容,但我不明白输出 trie 或 DAWG 文件应该是什么样子。

  • trie 应该是嵌套字典的对象吗?每个字母在哪里又分为to letter等等?
  • 如果有 100k 或 500k 条目,在这样的字典上执行查找会很快吗?
  • 如何实现由多个单词分隔的单词块-还是空间?
  • 如何将单词的前缀或后缀链接到结构中的另一部分? (对于 DAWG)

我想了解最好的输出结构以弄清楚如何创建和使用它。

我也很感激应该是什么DAWG 的输出随着trie.

我不想看到带有彼此链接的气泡的图形表示,我想知道一旦一组单词变成尝试或 DAWG 后的输出对象。


Unwind https://stackoverflow.com/a/11015381/577088有许多不同的方法来实现 trie,这基本上是正确的;对于大型、可扩展的字典树来说,嵌套字典可能会变得很麻烦——或者至少是空间效率低下。但由于您才刚刚开始,我认为这是最简单的方法;你可以编写一个简单的代码trie只需几行。首先,构造 trie 的函数:

>>> _end = '_end_'
>>> 
>>> def make_trie(*words):
...     root = dict()
...     for word in words:
...         current_dict = root
...         for letter in word:
...             current_dict = current_dict.setdefault(letter, {})
...         current_dict[_end] = _end
...     return root
... 
>>> make_trie('foo', 'bar', 'baz', 'barz')
{'b': {'a': {'r': {'_end_': '_end_', 'z': {'_end_': '_end_'}}, 
             'z': {'_end_': '_end_'}}}, 
 'f': {'o': {'o': {'_end_': '_end_'}}}}

如果你不熟悉setdefault https://docs.python.org/library/stdtypes.html#dict.setdefault,它只是在字典中查找一个键(这里,letter or _end)。如果键存在,则返回关联的值;如果没有,它会为该键分配一个默认值并返回该值({} or _end)。 (这就像一个版本get https://docs.python.org/library/stdtypes.html#dict.get这也会更新字典。)

接下来是一个测试单词是否在 trie 中的函数:

>>> def in_trie(trie, word):
...     current_dict = trie
...     for letter in word:
...         if letter not in current_dict:
...             return False
...         current_dict = current_dict[letter]
...     return _end in current_dict
... 
>>> in_trie(make_trie('foo', 'bar', 'baz', 'barz'), 'baz')
True
>>> in_trie(make_trie('foo', 'bar', 'baz', 'barz'), 'barz')
True
>>> in_trie(make_trie('foo', 'bar', 'baz', 'barz'), 'barzz')
False
>>> in_trie(make_trie('foo', 'bar', 'baz', 'barz'), 'bart')
False
>>> in_trie(make_trie('foo', 'bar', 'baz', 'barz'), 'ba')
False

我将把插入和移除留给您作为练习。

当然,Unwind 的建议也不会太难。可能存在轻微的速度劣势,因为找到正确的子节点需要线性搜索。但搜索将限于可能的字符数 - 如果我们包括 27 个字符_end。此外,按照他的建议,创建大量节点列表并通过索引访问它们并没有什么好处;你也可以只嵌套列表。

最后,我要补充一点,创建有向无环词图 (DAWG) 会稍微复杂一些,因为您必须检测当前单词与结构中的另一个单词共享后缀的情况。事实上,这可能会变得相当复杂,具体取决于您想要如何构建 DAWG!你可能需要学习一些关于编辑 http://en.wikipedia.org/wiki/Levenshtein_distance distance https://stackoverflow.com/q/10638597/577088把它做好。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何在Python中创建一个trie树 的相关文章

随机推荐

  • docker-compose 中不同 docker 服务之间的通信

    我刚刚开始使用 docker compose 目前正在努力解决不同服务之间的通信问题 我有2个服务 alice and bob 我希望它们能够互相发送 http 请求 据我了解 服务应该能够通过使用服务名作为主机名来相互访问 很遗憾 ali
  • jQuery 将类添加到单选框未删除

    我使用 jQuery 将一个类添加到单选框 如果它被选中 这工作正常 但在选择另一个单选框时它不会删除该类 我缺少什么 jQuery checkbox radio change function if this is checked thi
  • 在 Visual Studio 中调试期间评估表达式

    我习惯了 Jetbrains IDEA 和 Java 但现在我有一个 NET C 项目并使用 Visual Studio 2017 社区 如果我在 IDEA 中调试代码 当执行在断点处停止时 我始终可以使用 IDE 的 评估表达式 功能来运
  • 从给定的 x86 程序集编写 C 函数

    我正在尝试对这个神秘的函数进行逆向工程 该函数返回一个整数并接受一个结构节点作为参数 include mystery h int mystery struct e4 struct s 头文件是一个简单的结构体声明 struct my str
  • Qt 应用程序:模拟模态行为(启用/禁用用户输入)

    我目前正在开发一个应用程序 该应用程序启动显示附加对话框的单独进程 我试图实现的功能是模拟这些对话框的模式行为 更具体地说 我需要应用程序在对话框启动时停止处理所有输入 包括鼠标和键盘 并在对话框关闭时恢复 对话框保持在应用程序顶部并不是那
  • 不使用 ASP.Net Core 2 中的迁移命令 Update-Database 创建数据库

    我使用 WebAPI 创建了新的 ASP Net core 项目 使用下面的链接 jwt authentication with aspnet core 2 web api angular 5 net core identity and f
  • 使 Java 应用程序对用户不可见

    我正在尝试找出一种方法使 Java 应用程序对用户不可见 基本上只是想删除this http screensnapr com e atyZkF png lt Image 如何才能做到这一点 public class TransparentW
  • 有人可以解释 Spring web.xml 文件吗?

    我是 Java Enterprise 和 Spring 的新手 但我对标准 Java 有很强的掌握 我正在查看一个现有的网络应用程序项目 该项目使用 Tomcat Spring Hibernate 据我所知这是相当常见的 它还使用 DWR
  • 如何在下次按下时聚焦下一个输入(如果有)

    我实际上知道如何做到这一点 但我需要一种不同的方法 所以我有如下文本输入
  • 如何在 macOS 上将 swiftUI 视图导出为 PDF 文件

    我需要在 macOS big sur 上将 swifUIview 导出为 PDF 文件 这是我正在使用的功能 func exportPDF let testView TestView let hostingView NSHostingVie
  • Vulkan 内存对齐要求

    我正在为 Vulkan 设备内存实现一个简单的内存管理器 并希望确保我了解内存的对齐要求以及如何满足这些要求 因此 假设我使用 vkAllocateMemory 分配了一个内存 池 并希望将该池中的内存块子分配给各个资源 基于 VkMemo
  • 全局定义分析器 (ES)

    我需要 想要在全球范围内定义我的自定义分析器 因此我根据这个答案编辑了ES的配置文件 elasticsearch yml 我可以自定义 Elastic Search 以使用我自己的停用词列表吗 https stackoverflow com
  • 在 ag-grid 上使用正确的单元格格式导出到 Excel

    当我使用 ag grid 自己的将表导出到 Excel 时exportDataAsExcel 生成的 Excel 包含日期为General数据类型而不是Date 我用过这个 exportDataAsExcel processCellCall
  • 如何将散点图中的异常值更改为其他颜色

    If I have a scatter plot like this 我想知道是否有任何方法可以将明显的异常值 例如顶部的三个 更改为同一图中的其他颜色 首先 您需要找到 异常值 的标准 一旦你有了这个 你就可以掩盖图中那些不需要的点 在
  • 如何从 JavaScript 调用小程序中声明的方法

    我正在尝试做一个基本的Java小程序 https en wikipedia org wiki Java applet为他们打开客户计算机上的文件 我想通过 JavaScript 调用下面 Java 小程序中的 openFile 函数 imp
  • 有没有办法比较两个会员的排名?

    我有一个 Discord 机器人 我正在编写警告命令 但我需要一个代码来比较两个成员 角色 的排名 例 A人的地位高于B人 如果 B 人试图警告 A 人 机器人会说 你不能警告这个人 如果 A 人试图警告 B 人 机器人就会警告 B 人 怎
  • 找到图像上的特定点

    我正在尝试编写一个程序来解决难题 我的尝试与我用来测试的示例谜题效果很好 现在我正在尝试为一个真正的谜题制作一个 这个新拼图的拼图块实际上没有正确的形状 我设法将图像变成黑白 最后变成 1 和 0 的数组 其中 1 表示片段 0 表示背景
  • 解决 svn update 时的合并冲突

    我正在尝试学习 Eric Sink 的版本控制基础知识 http ericsink com vcbe vcbe usletter lo pdf http ericsink com vcbe vcbe usletter lo pdf 我现在在
  • 使用 javascript 获取 DOM 树

    我正在开发一个小脚本分析 DOMHTML 页面和在屏幕上写下节点树 这是一个简单的函数 称为递归地获取所有节点及其子节点 每个节点的信息存储在一个数组中 自定义对象 我已经得到了所有节点在 DOM 中 但不是如何在树上画画通过嵌套列表 JS
  • 如何在Python中创建一个trie树

    我对 trie 和 DAWG 直接非循环字图 感兴趣 并且阅读了很多有关它们的内容 但我不明白输出 trie 或 DAWG 文件应该是什么样子 trie 应该是嵌套字典的对象吗 每个字母在哪里又分为to letter等等 如果有 100k