SQL模糊匹配

2024-01-17

希望我没有重复这个问题。在在这里发帖之前，我在这里做了一些搜索和谷歌。

我正在使用启用全文的 SQL Server 2008R2 运行 eStore。

我的要求，

有一个产品表，其中包含产品名称、OEM 代码、该产品适合的型号。一切都在文字中。
我创建了一个名为 TextSearch 的新列。它包含该产品适合的产品名称、OEM 代码和型号的串联值。这些值以逗号分隔。
当客户输入关键字时，我们会在 TextSearch 列上运行搜索以匹配产品。请参阅下面的匹配逻辑。

我正在使用混合全文和普通的搜索。这给出了更相关的结果。返回临时表中执行的所有查询和不同值。

匹配逻辑，

运行以下 SQL 以使用全文获取相关产品。但@Keywords会被预处理。假设“CLC 2200”将更改为“CLC* AND 2200*”

从 dbo.Product 中选择 ID，其中包含（TextSearch、@Keywords）
另一个查询将使用正常的类似方式运行。因此“CLC 2200”将被预处理为“TextSearch like %clc% AND TextSearch like %2200%”。这只是因为全文搜索不会搜索关键字之前的模式。例如，它不会返回“pclc 2200”。

SELECT Id FROM dbo.Product WHERE TextSearch like '%clc%' AND TextSearch like '%2200%'
如果步骤1和2没有返回任何记录，则将执行以下搜索。我对值 135 进行了微调，以返回更多相关记录。

SELECT p.id FROM dbo.Product AS p INNER JOIN FREETEXTTABLE(product,TextSearch,@Keywords) AS r ON p.Id = r.[KEY] WHERE r.RANK > 135

以上所有组合都以合理的速度运行良好，并返回关键字的相关产品。

但当根本没有找到产品时，我正在寻求进一步改进。

假设客户正在寻找“CLC 2200npk”，但该产品不存在，我需要在“CLC 2200”附近显示下一个产品。

到目前为止我尝试使用声音指数()功能。购买计算 TextSearch 列中每个单词的 soundex 值，并与关键字的 soudex 值进行比较。但这会返回太多记录并且速度也很慢。

例如，“CLC 2200npk”将返回“CLC 1100”等产品。但这不会是一个好的结果。因为它不接近 CLC 2200npk

还有一个不错的here https://stackoverflow.com/questions/921978/fuzzy-matching-using-t-sql。但这使用了 CLR 函数。但我无法在服务器上安装 CLR 功能。

所以我的逻辑应该是，

如果未找到“CLC 2200npk”，则显示“CLC 2200”附近如果未找到“CLC 2200”，则显示紧邻“CLC 1100”的下一个

问题

是否可以像建议的那样进行匹配？
如果我需要进行拼写纠正和搜索，什么是好方法？我们所有的产品清单都是英文的。
是否有任何 UDF 或 SP 来匹配我的建议中的文本？

Thanks.

一个相当快速的特定领域解决方案可能是使用 SOUNDEX 和 2 个字符串之间的数字距离来计算字符串相似度。仅当您有大量产品代码时，这才会真正有帮助。

使用如下所示的简单 UDF，您可以从字符串中提取数字字符，这样您就可以从“CLC 2200npk”中获得 2200，从“CLC 1100”中获得 1100，这样您现在就可以根据每个输入的 SOUNDEX 输出来确定接近度以及每个输入的数字部分的接近度。

CREATE Function [dbo].[ExtractNumeric](@input VARCHAR(1000))
RETURNS INT
AS
BEGIN
    WHILE PATINDEX('%[^0-9]%', @input) > 0
    BEGIN
        SET @input = STUFF(@input, PATINDEX('%[^0-9]%', @input), 1, '')
    END
    IF @input = '' OR @input IS NULL
        SET @input = '0'
    RETURN CAST(@input AS INT)
END
GO

就通用算法而言，有一些算法可能会根据数据集大小和性能要求帮助您获得不同程度的成功。（两个链接都有可用的 TSQL 实现）

双变音位 http://sqlmag.com/t-sql/double-metaphone-sounds-great- 该算法将为您提供比 soundex 更好的匹配，但以速度为代价，但它对于拼写纠正确实很有好处。
编辑距离 http://www.kodyaz.com/articles/fuzzy-string-matching-using-levenshtein-distance-sql-server.aspx- 这将计算将一个字符串转换为另一个字符串所需的按键次数，例如从“CLC 2200npk”到“CLC 2200”为 3 次，而从“CLC 2200npk”到“CLC 1100”为 5 次。

Here http://randomrumenations.blogspot.de/2009/06/improved-t-sql-levenshtein-distance.html是一篇有趣的文章，它将两种算法结合在一起，可能会给您一些想法。

好吧，希望其中一些能有所帮助。

EDIT: Here http://randomrumenations.blogspot.de/2009/06/improved-t-sql-levenshtein-distance.html是一种更快的部分 Levenshtein Distance 实现（阅读帖子，它不会返回与正常结果完全相同的结果）。在我的 125000 行测试表上，它在 6 秒内运行，而我链接到的第一个表则需要 60 秒。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

SQL模糊匹配的相关文章

在 SQL Server 中将 UTC 毫秒转换为 DATETIME

我想在 SQL Server 中将 UTC 毫秒转换为 DateTime 这可以通过以下代码在 C 中轻松完成 DateTime startDate new DateTime 1970 1 1 AddMilliseconds 1348203
实体框架中的批量插入

我使用批量插入插入大量记录例如 20K 当我仅插入一个实体时它会正常工作但是当我用来插入多个实体例如一对多时它将仅插入父实体而不会插入子实体我的实体和代码 Customer cs public class Customer
SQL 查询将文本数据存储在 Varbinary(max) 中

有没有办法让 varbinary 在 SQL Server 中接受文本数据这是我的情况我有相当大量的 XML 我计划以压缩格式存储它们这意味着 Varbinary 但是当我进行调试时我希望能够翻转配置开关并以纯文本形式存储以
如何使用 SQL 通过表示多级订单的 varchar 字段正确排序？

我不太喜欢数据库我发现在查询上出现以下问题SQL服务器数据库旧的遗留应用程序的我声明不幸的是我无法更改数据库结构字段类型这非常难看我有以下情况 SELECT Sottocategoria IdSottocategoria IdCa
将 MSSQL 中用于 Web 制图的投影（Leaflet、Openlayer、OpenStreetMaps、GoogleAPI...）更改为 WSG48 或任何其他格式

我在 MSSQL 服务器中有一些像这样的 WKT WKB 数据并希望借助 leaflet Openlayer OpenStreetMaps 或 GoogleAPI 将它们显示在地图上我的数据如下所示 POLYGON 1736946 09
TSQL - 生成文字浮点值

我理解比较浮点数时遇到的许多问题并对它们在这种情况下的使用感到遗憾但我不是表格作者只有一个小障碍需要克服有人决定使用浮点数就像您期望使用 GUID 一样我需要检索具有特定浮点值的所有记录 sp help MyTable Colu
ASP SQL Server 连接
在对象数组内的特定 JSON 值上创建索引

假设我的表中有一个 varchar 列其结构如下 Response DataArray Type Address Value 123 Fake St Type Name Value John Doe 我想在 DataArray 数组元素的
SQL Server 2008 错误 233

我正在使用以下 sql 脚本在 SQL Server 2008 中创建新登录名 CREATE LOGIN xyz WITH PASSWORD xyz DEFAULT DATABASE master DEFAULT LANGUAGE us e
如何删除 Sql Server 2005 中存在的临时 SP

我的问题很简单如何删除临时存储过程如果存在这是因为当我在脚本中创建临时 SP 时它会在第二次运行时抛出类似数据库中已存在名为 sp name 的对象的错误我不想向用户显示此消息请帮我您的解决方案受到高度赞赏临时进程的删除
SQL Server：将表达式转换为数据类型 bigint 时出现算术溢出错误

这是我的查询顺序 SELECT CASE WHEN BarCode IS NOT NULL AND ExternelBarCode IS NULL THEN BarCode WHEN BarCode IS NULL AND Externel
更好地理解 SQL Server 中的架构

就像标题一样我还是一个SQLServer菜鸟当我创建表 Mytable 时数据库中显示 dbo Mytable 但有人能让我更好地理解模式吗另外在 Server 2008 TSQL 一书中 Itzik 说在你的数据库中表属于模
如何拥有引用另一个表的检查约束？

我在 SQL Server 2008 数据库中有以下表 tblItem 其中有一个ItemID field 好项目它还有一个 ItemID 字段并且有一个指向 tblItem 的外键 tblBadItem 它也有一个 ItemID 字段
在数据库中搜索时忽略空文本框

此代码能够搜索数据并将其加载到DataGridView基于搜索表单文本框中提供的值如果我将任何文本框留空则不会有搜索结果因为 SQL 查询是用 AND 组合的如何在搜索从 SQL 查询或 C 代码时忽略空文本框 private
SQL Server 2008。允许远程连接吗？

我在 Windows XP Pro 机器上安装了 SQL Server 2000 和 2008 我可以在本地连接到两个数据库实例从另一个机器 Windows 7 机器中我可以连接到第一个机器上的 SQL 2000 实例但无法使用本地
ALTER TABLE 语句与 FOREIGN KEY 约束冲突

为什么要添加外键tblDomare表导致此错误 ALTER TABLE 语句与 FOREIGN KEY 约束 FK tblDomare PersN 5F7E2DAC 冲突冲突发生在数据库 almu0004 表 dbo tblBana 列
SQL：如何从一个表中获取另一个表中每一行的随机行数

我有两个数据不相关的表对于表 A 中的每一行我想要例如表 B 中的 3 个随机行使用光标这相当容易但速度非常慢那么我该如何用单个语句来表达这一点以避免 RBAR 呢要获得 0 到 N 1 之间的随机数可以使用 abs chec
BULK INSERT 返回错误“访问被拒绝”

运行批量插入时 BULK INSERT MyDatabase dbo MyTable FROM Mylaptop UniversalShare SQLRuleOutput csv WITH FIRSTROW 2 FIELDTERMINATO
如何在 SQL Server 中不循环更新列？

出于性能角度的考虑我只需要删除循环并使用一些联接或其他解决方案来更新 Result 表中的数据并获得循环返回的相同结果标量函数 CREATE FUNCTION MultiplyerScl a INT b INT RETURNS INT
SQL Server 中的 FIFO 查询

我正在构建一个库存管理应用程序c with SQL server 我想做一个FIFO从我的表查询我以可变价格购买了相同的产品之后我卖掉了其中一些我想根据先进先出进行查询BatchDate柱子所以我想通过PurchasePrice

随机推荐

CHM 格式替代品？

Microsoft CHM 格式非常有用因为它提供了以下功能带有树视图的目录指数索引搜索基于 HTML 源但这种格式已经过时并且有很多缺点存在安全问题允许执行 JavaScript 代码不知道新的 HTML 格式没有记录
反应过渡组出现过渡无法正常工作

我在用着反应过渡基团 http reactcommunity org react transition group transition渲染组件时处理动画 CSSTransition 我想要一个组件的简单淡入转出似乎工作正常但转入则不然
Tkinter 单选按钮指示器无法识别

我希望我的单选按钮通过设置 Indicatoron 0 来使用本页提到的按钮框界面 http effbot org tkinterbook radiobutton htm http effbot org tkinterbook radiob
使用多线程时如何使用Delphi设计时FireDac TFDQuery？

我想设计我的TFDQuery使用组件编辑器即在设计时设置 SQL 字符串选项等然后在线程中使用查询我的问题是线程的每个运行实例都需要自己的查询实例否则它将不是线程安全的我是否应该在线程开始运行时克隆查询即在线程的 Execu
检查 Windows 更新是否可用

是否可以通过编程方式检查 Windows 是否有可用的新更新欢迎任何建议谢谢 The Windows更新代理 http msdn microsoft com en us library aa387287 28VS 85 29 aspxA
如何将当前文档的innerHTML下载为文件？

有没有办法可以下载当前文档innerHTML作为文件以编程方式我做了以下尝试但没有成功它确实下载了当前文档的源代码但这不是我想要的因为我想保留任何加载后的文档修改 var save document createElement a
如何使用gin作为服务器编写prometheus导出器指标

这是官方的prometheus golang client示例 package main import log net http github com prometheus client golang prometheus github c
具有资源文件的动态本地化 WPF 应用程序

试图使我的 wpf 应用程序本地化我遵循这个 CodeProject 教程 https www codeproject com Articles 299436 WPF Localization for Dummies 我创建了本地化资源文
二维对象数组返回类型 - NSubstitute

我遇到强制转换异常 System InvalidCastException 无法将类型 System Object 的对象强制转换为类型 System Object 在 Castle Proxies ITestProxy Get2DArra
TortoiseGit 中的“远程跟踪分支”在哪里？

如何在TortoiseGit中找到远程跟踪分支以设置从中拉取的默认分支打开浏览参考对话框参见https tortoisegit org docs tortoisegit tgit dug browse ref html http
R：内部函数可以使用外部函数的变量吗？

内部函数可以使用调用它的函数环境中存在的变量吗 inner lt function x return x y z a outer lt function x y z a lt x y z inner x 在这里当我打电话时inner x
使用 sympy 计算多元函数的泰勒级数

我正在尝试使用 SymPy 计算依赖于三角函数的函数的泰勒级数sinc here http docs sympy org dev modules mpmath functions trigonometric html sinc functi
@ActiveProfiles 值未分配给配置

如果我将它们设置为虚拟机参数我的活动配置文件将正常工作我有一个想要使用的测试 ActiveProfiles local 这是我正在使用的类注释 RunWith SpringJUnit4ClassRunner class ContextC
使用 Twitter Bootstrap，如何自定义一页的 h1 文本颜色，而将其他页面保留为默认颜色？

在我的索引页面上我希望 h1 文本颜色为白色并带有阴影但我不想更改其他页面上 h1 的默认行为我怎样才能实现这个目标在 Bootstrap 3 中以下是更改文本颜色的类 p class text muted p grey p cl
Python 中更快的套接字

我有一个用 Python 编写的服务器客户端它通过 LAN 运行该算法的某些部分使用套接字密集读取其执行速度比几乎一样的 http pastie org 3962231用 C 编写有哪些解决方案可以使 Python 套接字读取速度更
从视图创建位图使视图消失，如何获取视图画布？

我发现了两种从视图创建位图的方法但一旦我这样做了视图就会消失我就不能再使用它了生成位图后如何重绘视图 1st public static Bitmap getBitmapFromView View view Bitmap retur
如何从java中的另一个类更新jLabel或setText？

我正在尝试创建一个JFrame哪里的jLabel和按钮位于另一个类中我在其中创建了一个方法putTextNow这会将文本设置为jLabel 我读到应该使用多线程来完成这对我来说更复杂这是我的代码 NewJFrame java priv
在 JBoss 上安装 SSL 证书

我有一台运行 JBoss 的服务器当我在该服务器上输入错误的 URL 时它会给出如下版本 JBossWeb 2 0 1 GA JBoss 的版本是什么我们将为我购买并提供 SSL 证书以便我可以将其安装在 JBoss 中我真的很感
如何为 Mac OSX 编写虚拟打印机驱动程序 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我需要为 OSX 编写一个虚拟打印机驱动程序以便当用户按 Command P 打开打印对话框时
SQL模糊匹配

希望我没有重复这个问题在在这里发帖之前我在这里做了一些搜索和谷歌我正在使用启用全文的 SQL Server 2008R2 运行 eStore 我的要求有一个产品表其中包含产品名称 OEM 代码该产品适合的型号一切都在文字中我

SQL模糊匹配

我的要求，

问题

SQL模糊匹配 的相关文章

随机推荐

热门标签

SQL模糊匹配的相关文章