创建“拼写检查”，以合理的运行时间检查数据库

2024-03-29

我不是在询问如何实现拼写检查算法本身。我有一个包含数十万条记录的数据库。我想要做的是针对所有这些记录的表中的特定列检查用户输入，并返回具有特定汉明距离的任何匹配项（同样，这个问题不是关于确定汉明距离等）。当然，目的是创建一个“您的意思是”功能，用户在其中搜索名称，如果在数据库中找不到直接匹配项，则返回可能匹配项的列表。

我正在尝试想出一种方法来在尽可能合理的运行时间内完成所有这些检查。如何以最有效的方式根据所有这些记录检查用户的输入？

该功能目前已实现，但运行速度非常慢。它现在的工作方式是将用户指定的表（或多个表）中的所有记录加载到memory然后执行检查。

无论如何，我使用 NHibernate 进行数据访问。

如果您能提供有关我如何执行此操作或我的选择的反馈，我将不胜感激。

计算编辑距离并不一定像您想象的那么昂贵。中的代码诺维格文章 http://norvig.com/spell-correct.html可以被认为是伪代码，以帮助读者理解算法。一个更有效的实现（在我的例子中，在 20,000 个术语数据集上快大约 300 倍）是遍历trie http://en.wikipedia.org/wiki/Trie。性能差异主要归因于不需要分配数百万个字符串来进行字典查找，在 GC 上花费的时间少得多，并且您还可以获得更好的引用局部性，从而减少 CPU 缓存未命中。通过这种方法，我能够在大约 2 毫秒内在我的 Web 服务器上进行查找。额外的好处是能够轻松返回以提供的字符串开头的所有结果。

缺点是创建 trie 很慢（可能需要一秒钟左右），因此如果源数据定期更改，那么您需要决定是重建整个数据还是应用增量。无论如何，您希望在构建完成后尽可能地重复使用该结构。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

创建“拼写检查”，以合理的运行时间检查数据库的相关文章

为什么 strcat() 之后字符串会被改变？

这是源代码 int main char str dance char str1 hello char str2 abcd strcat str1 str2 printf s str output bcd why str更改后strcat s
有没有办法在 .Net 中创建“自托管”网站？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案类似于 WCF 自托管有没有办法创建一个在控制台应用程序中自托管的网站或dll 提出这个问题的方
调试Windows服务

Scenario 我有一个用 C 编写的 Windows 服务我已经阅读了所有关于如何调试它的谷歌线程但我仍然无法让它工作我已经运行 PathTo NetFramework InstallUtil exe C MyService ex
初始化影子变量

标准中是否有任何内容定义从它隐藏的变量初始化变量例如 int i 7 int i i Visual Studio 2013 允许这样做而不发出警告并按预期工作内在i变量是 7 然而 Clang 和 GCC 给我一个警告关于从自身初始化
Codeigniter - 仅当数据库中不存在电子邮件时才更新电子邮件

我为我的用户提供了一个更新页面他们可以在其中编辑他们的姓名电子邮件和其他信息到目前为止他们可以编辑一切包括他们的电子邮件他们可以毫无问题地输入数据库中已存在的电子邮件我尝试添加此表单验证规则 this gt form vali
从 C 调用带有字符串参数的 Go 函数？

我可以从 C 调用一个没有参数的 Go 函数按照下面的 https github com joeprivacy crefgo hello world 这通过编译go build和打印 Hello from Golang main func
Task.WaitAll 保持循环

我正在尝试这个异步代码只是为了测试 async 关键字 public async Task
不明确的元函数或未定义的类型

我是元功能的新手我想编写一个函数将复合类型中某种类型的所有匹配项替换为其他类型在示例中 replace
不区分大小写“包含（字符串）”

有没有办法让下面的返回为真 string title ASTRINGTOTEST title Contains string 似乎没有过载允许我设置区分大小写目前我将它们都大写但这很愚蠢我指的是i18n http en wikiped
包含不同类型的两个集合相交

假设我有一个集合称之为ids它是类型IEnumerable
dev_t 和 ino_t 是否必须是整数类型？

glibc 的文档保留它们是整数类型不比 unsigned int 窄但我没有找到说明它们必须是整数类型的标准参考另请参阅 time t 所以最后问题就变成了 include
非数字输入导致死循环

由于某种原因如果用户输入了错误的数据类型例如 j 或循环将停止要求输入并继续显示 Enter an integer gt 一遍又一遍如何让程序处理错误的输入为什么输入非数字值会导致如此奇怪的行为 define SENTINEL 0
将对象转换为泛型类型

我已经有一段时间没有睡觉了所以这可能比我想象的要容易我有一个通用类或多或少是这样的 public class Reference
LINQ 表达式树 Any() 位于Where() 内

我正在尝试生成以下 LINQ 查询 Query the database for all AdAccountAlerts that haven t had notifications sent out Then get the entity
如何在网格视图中突出显示文本的结果？ [复制]

这个问题在这里已经有答案了可能的重复如何突出显示某个单词 https stackoverflow com questions 9546761 how can i highlight a word 我有一个网格视图和一个文本框用于从列中
OledbConnection.Dispose() 是否关闭连接？ [复制]

这个问题在这里已经有答案了可能的重复如果使用 using 子句是否需要关闭 DbConnection https stackoverflow com questions 12033998 is there any need to cl
MDI 窗体中的子窗口对接

我有一个 MDI 表单和其中的一些子表单我将子窗体停靠到 MDI 窗口的不同区域但是当任何子窗体失去焦点时其他停靠的窗体将重新排列由于混乱我准备了一组图像来展示该行为 Image1 单击任何窗口之前 Image2 点击窗口2后问
缓存行对齐（需要文章澄清）

我最近在我的应用程序中遇到了我认为是错误共享的问题我查了一下关于如何将我的数据与缓存行对齐他建议使用以下 C 代码 C using C 0x alignment syntax template
C++ 模板类问题中的类型条件

使用海湾合作委员会4 2 我有这个条件类型的元模板 template
Phong 着色问题

我正在根据以下内容编写着色器冯模型 http en wikipedia org wiki Phong reflection model 我正在尝试实现这个方程其中 n 是法线 l 是光线方向 v 是相机方向 r 是光反射维基百科文章中更

随机推荐

PubSubHubbub 中 hub.lease_seconds 的最大值

我一直在使用 PubSubHubbub 版本 0 4 来检索 YouTube 实时数据我正在经历PubSubHubbub 文档 https pubsubhubbub github io PubSubHubbub pubsubhubbub
如何使用 msbuild 获取 exec 任务输出

我试图通过 exec 任务获得简单的输出msbuild
如何在没有竞争条件的情况下重命名（）？

如果我想重命名A to B 但前提是B不存在天真的事情会检查是否B存在与access B F OK 或类似的东西如果不继续rename 不幸的是这会打开一个窗口在此期间其他进程可能会决定创建B 然后它被覆盖更糟糕的是没有迹象表明
如何使用 GStreamer 和 XOverlay 在 GTK+ 应用程序窗口中嵌入视频？

我正在尝试使用 GTK 和 GStreamer 编写一个小型媒体播放器目前使用 XOverlay 接口将视频嵌入到 GtkDrawing 区域中INSIDE主窗口该程序是使用以下命令编译的 g home phongcao cacao c
`rand()` 的用处 - 或者谁应该调用 `srand()`？

背景我用的是rand std rand std random shuffle 以及我的代码中用于科学计算的其他函数为了能够重现我的结果我总是明确指定随机种子并通过srand 直到最近我才发现 libxml2 也会调用srand 懒洋
Chrome 扩展程序将消息从 iFrame 发送到事件页面，然后发送到内容脚本

我已经从内容脚本插入了一个 iframe 效果很好但是如果我想在 iframe 上显示父级的 html 内容我必须使用消息传递在 iframe 和内容脚本之间进行通信但它不起作用然后我尝试将消息从 iframe 发送到事件页面然
OSX 上的 mongodb：如何更新 brew 服务以通过身份验证启动？

我用自制软件安装了 mongodb 我添加了一个 admin 并更新了 usr local etc mongod conf 以启用安全授权我可以使用 auth 启动 mongod mongod auth port 27017 dbpath
按日期连接两个 data.table，表 1 中最接近的日期严格小于第二个表中的日期

从 SO 上其他地方窃取一个虚拟示例按确切日期加入 data table 如果不是则按最近的小于日期加入 data table https stackoverflow com questions 11341557 join data t
Graphviz中如何使边重叠？

我想在 graphviz 中使边缘重叠但 graphviz 似乎重新排列了叶节点以避免重叠我可以强制 graphviz 停止重新排列节点吗制作 Desired 我正在使用 pygraphviz 创建树使用以下方法额外的隐形边缘非常适
使用 SelectionModel 或 ListDataProvider 选择 CellList 中的元素

我使用 CellList 列出数据使用 ListDataProvider 管理数据使用 SelectionModel 从 CellList 中选择元素并相应地生成事件现在当我使用 cellList getList set index
使用Azure B2C登录时如何在自定义页面中嵌入登录控件

我正在使用 Azure AD B2C 示例出于测试目的我使用稍作修改的单页应用程序sample https github com Azure Samples active directory b2c javascript msal si
如何防止创建空对象

我正在尝试将每个列表都位于嵌套对象内部的网络服务模型映射到更简单的东西 Model 1 public class Parent private Children children public class Children private
如何在Python中从邻接矩阵创建边列表数据框？

我有一个 pandas 数据框将其视为网络中节点的加权邻接矩阵的形式 df A B C D A 0 0 5 0 5 0 B 1 0 0 0 C 0 8 0 0 0 2 D 0 0 1 0 我想获得一个代表边缘列表的数据框对于上面的例子
PHPstorm项目导航

如何在PHPstorm项目列表中选择打开的文件我的意思是 PHPstorm 有一个在项目中选择 Netbeans 功能的模拟 Navigate View在旧版本中 Select In Project View 也可以启用Autoscro
NuGet 将 DLL 文件放在哪里？

我正在尝试解决 NuGet 的问题源代码控制限制 https stackoverflow com questions 7015149 multiperson team using nuget and source control 为此我需
使用关联数组作为 D3 的数据

我有一个非常简单的 D3 示例它首先将数据读入关联数组然后将其显示在条形图中不过我似乎无法使用此方法显示任何内容相反我必须在两者之间插入一个任务将数据读取到关联数组中将该数据复制到一个简单数组中然后使用该简单数组显示条形图
获取可用（语言）resx 文件的列表

许多程序都有社区在应用程序发布后向其添加语言因此在程序的设置窗口中人们可以看到可用语言的下拉列表那么人们在使用 resx 文件进行本地化时如何编码呢我在网上搜索了一遍又一遍但找不到任何答案一切都运行良好但现在我需要制作
如何在 pom.xml 文件中指定 Java 编译器版本？

我在 Netbeans 中编写了一些 Maven 代码大约有 2000 多行当我在 Netbeans 上编译它时一切都很好但如果我想在命令行上运行它我会收到以下错误 generics are not supported in so
JavaScript 风格的警报系统

我在用smoke js http ssssnakes com smoke 它允许设置经典警报 javascript 窗口的样式您所要做的就是放置 smoke在警报之前即 smoke confirm 我遇到的问题是确定取消回调它对我不
创建“拼写检查”，以合理的运行时间检查数据库

我不是在询问如何实现拼写检查算法本身我有一个包含数十万条记录的数据库我想要做的是针对所有这些记录的表中的特定列检查用户输入并返回具有特定汉明距离的任何匹配项同样这个问题不是关于确定汉明距离等当然目的是创建一个您的意思是功能

创建“拼写检查”，以合理的运行时间检查数据库

创建“拼写检查”，以合理的运行时间检查数据库 的相关文章

随机推荐

热门标签

创建“拼写检查”，以合理的运行时间检查数据库的相关文章