T-SQL 中的编辑距离

2023-12-09

我对 T-SQL 计算 Levenshtein 距离的算法感兴趣。

我在 TSQL 中实现了标准 Levenshtein 编辑距离函数，并进行了多项优化，与我所知的其他版本相比，速度有所提高。如果两个字符串的开头有共同的字符（共享前缀），结尾有共同的字符（共享后缀），并且当字符串很大并且提供了最大编辑距离时，速度的提高是显着的。例如，当输入是两个非常相似的 4000 个字符串，并且指定最大编辑距离为 2 时，这几乎比edit_distance_within在接受的答案中使用函数，在 0.073 秒（73 毫秒）内返回答案，而在 55 秒内返回答案。它的内存效率也很高，使用的空间等于两个输入字符串中较大的一个加上一些常量空间。它使用表示列的单个 nvarchar“数组”，并在其中就地进行所有计算，以及一些辅助 int 变量。

优化：

跳过共享前缀和/或后缀的处理
如果较大的字符串以整个较小的字符串开始或结束，则提前返回
如果尺寸差异保证超出最大距离，请提前返回
仅使用表示矩阵中的列的单个数组（实现为 nvarchar）
当给定最大距离时，时间复杂度从 (len1*len2) 到 (min(len1,len2))，即线性
当给定最大距离时，一旦已知最大距离限制无法实现，就尽早返回

这是代码（2014 年 1 月 20 日更新以加快速度）：

-- =============================================
-- Computes and returns the Levenshtein edit distance between two strings, i.e. the
-- number of insertion, deletion, and sustitution edits required to transform one
-- string to the other, or NULL if @max is exceeded. Comparisons use the case-
-- sensitivity configured in SQL Server (case-insensitive by default).
-- 
-- Based on Sten Hjelmqvist's "Fast, memory efficient" algorithm, described
-- at http://www.codeproject.com/Articles/13525/Fast-memory-efficient-Levenshtein-algorithm,
-- with some additional optimizations.
-- =============================================
CREATE FUNCTION [dbo].[Levenshtein](
    @s nvarchar(4000)
  , @t nvarchar(4000)
  , @max int
)
RETURNS int
WITH SCHEMABINDING
AS
BEGIN
    DECLARE @distance int = 0 -- return variable
          , @v0 nvarchar(4000)-- running scratchpad for storing computed distances
          , @start int = 1      -- index (1 based) of first non-matching character between the two string
          , @i int, @j int      -- loop counters: i for s string and j for t string
          , @diag int          -- distance in cell diagonally above and left if we were using an m by n matrix
          , @left int          -- distance in cell to the left if we were using an m by n matrix
          , @sChar nchar      -- character at index i from s string
          , @thisJ int          -- temporary storage of @j to allow SELECT combining
          , @jOffset int      -- offset used to calculate starting value for j loop
          , @jEnd int          -- ending value for j loop (stopping point for processing a column)
          -- get input string lengths including any trailing spaces (which SQL Server would otherwise ignore)
          , @sLen int = datalength(@s) / datalength(left(left(@s, 1) + '.', 1))    -- length of smaller string
          , @tLen int = datalength(@t) / datalength(left(left(@t, 1) + '.', 1))    -- length of larger string
          , @lenDiff int      -- difference in length between the two strings
    -- if strings of different lengths, ensure shorter string is in s. This can result in a little
    -- faster speed by spending more time spinning just the inner loop during the main processing.
    IF (@sLen > @tLen) BEGIN
        SELECT @v0 = @s, @i = @sLen -- temporarily use v0 for swap
        SELECT @s = @t, @sLen = @tLen
        SELECT @t = @v0, @tLen = @i
    END
    SELECT @max = ISNULL(@max, @tLen)
         , @lenDiff = @tLen - @sLen
    IF @lenDiff > @max RETURN NULL

    -- suffix common to both strings can be ignored
    WHILE(@sLen > 0 AND SUBSTRING(@s, @sLen, 1) = SUBSTRING(@t, @tLen, 1))
        SELECT @sLen = @sLen - 1, @tLen = @tLen - 1

    IF (@sLen = 0) RETURN @tLen

    -- prefix common to both strings can be ignored
    WHILE (@start < @sLen AND SUBSTRING(@s, @start, 1) = SUBSTRING(@t, @start, 1)) 
        SELECT @start = @start + 1
    IF (@start > 1) BEGIN
        SELECT @sLen = @sLen - (@start - 1)
             , @tLen = @tLen - (@start - 1)

        -- if all of shorter string matches prefix and/or suffix of longer string, then
        -- edit distance is just the delete of additional characters present in longer string
        IF (@sLen <= 0) RETURN @tLen

        SELECT @s = SUBSTRING(@s, @start, @sLen)
             , @t = SUBSTRING(@t, @start, @tLen)
    END

    -- initialize v0 array of distances
    SELECT @v0 = '', @j = 1
    WHILE (@j <= @tLen) BEGIN
        SELECT @v0 = @v0 + NCHAR(CASE WHEN @j > @max THEN @max ELSE @j END)
        SELECT @j = @j + 1
    END

    SELECT @jOffset = @max - @lenDiff
         , @i = 1
    WHILE (@i <= @sLen) BEGIN
        SELECT @distance = @i
             , @diag = @i - 1
             , @sChar = SUBSTRING(@s, @i, 1)
             -- no need to look beyond window of upper left diagonal (@i) + @max cells
             -- and the lower right diagonal (@i - @lenDiff) - @max cells
             , @j = CASE WHEN @i <= @jOffset THEN 1 ELSE @i - @jOffset END
             , @jEnd = CASE WHEN @i + @max >= @tLen THEN @tLen ELSE @i + @max END
        WHILE (@j <= @jEnd) BEGIN
            -- at this point, @distance holds the previous value (the cell above if we were using an m by n matrix)
            SELECT @left = UNICODE(SUBSTRING(@v0, @j, 1))
                 , @thisJ = @j
            SELECT @distance = 
                CASE WHEN (@sChar = SUBSTRING(@t, @j, 1)) THEN @diag                    --match, no change
                     ELSE 1 + CASE WHEN @diag < @left AND @diag < @distance THEN @diag    --substitution
                                   WHEN @left < @distance THEN @left                    -- insertion
                                   ELSE @distance                                        -- deletion
                                END    END
            SELECT @v0 = STUFF(@v0, @thisJ, 1, NCHAR(@distance))
                 , @diag = @left
                 , @j = case when (@distance > @max) AND (@thisJ = @i + @lenDiff) then @jEnd + 2 else @thisJ + 1 end
        END
        SELECT @i = CASE WHEN @j > @jEnd + 1 THEN @sLen + 1 ELSE @i + 1 END
    END
    RETURN CASE WHEN @distance <= @max THEN @distance ELSE NULL END
END

正如该函数的注释中所提到的，字符比较的区分大小写将遵循有效的排序规则。默认情况下，SQL Server 的排序规则将导致不区分大小写的比较。修改此函数以始终区分大小写的一种方法是向比较字符串的两个位置添加特定的排序规则。但是，我还没有对此进行彻底测试，特别是对于数据库使用非默认排序规则时的副作用。以下是如何更改这两行以强制区分大小写的比较：

    -- prefix common to both strings can be ignored
    WHILE (@start < @sLen AND SUBSTRING(@s, @start, 1) = SUBSTRING(@t, @start, 1) COLLATE SQL_Latin1_General_Cp1_CS_AS)

and

            SELECT @distance = 
                CASE WHEN (@sChar = SUBSTRING(@t, @j, 1) COLLATE SQL_Latin1_General_Cp1_CS_AS) THEN @diag                    --match, no change

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

T-SQL 中的编辑距离的相关文章

复制行并自动递增非身份键 ID 列的 INSERT INTO 语句

给定一个包含三列的表 ID 主键非自动递增 GroupID 一些价值我正在尝试编写一个 SQL INSERT INTO 语句该语句会将具有一个 GroupID 的每一行复制到一个新的 GroupID 中起始表示例 ID GroupI
将一行字段设置为其他 2 个字段的乘积

我有一个这样的SQL表结构 Id A B C D 1 1 5 6 25 2 2 10 5 25 3 3 7 4 25 4 1 6 5 26 5 2 10 5 26 6 3 8 3 26 我想写一个脚本它将更新所有B 和 C 列在行中A 3
DATEADD(day, -7, GETDATE()) - 是否考虑了时间？

我正在通过 Amazon Redshift 在 Aginity 中编写 SQL 查询来提取过去 7 天的数据这Date我调用的列是变量类型 DATE 输出示例如下 5 30 2017 0 00 当我调用下面的函数时运行此查询在一天中的什
如何查询最近7天的总计？

我正在使用 SQL Server 2008 我想编写一个查询来提供给定天数的总活动量具体来说我想统计过去 7 天每天的总票数我的桌子看起来像这样 VoteID VoteDate Vote BikeID 1 2012 01 01 08
岛屿和缺口问题

背景故事我有一个数据库其中包含卡车司机的数据点其中还包含在卡车上时驾驶员可以拥有驾驶员身份我想做的是按司机卡车对这些状态进行分组截至目前我已尝试使用 LAG LEAD 来提供帮助这样做的原因是我可以知道驱动程序状态何时
如何将 T-SQL 中的结果连接到列中？

我正在处理一个查询它应该给我这样的结果 Name Surname Language Date James Hetfield en gb fr 2011 01 01 Lars Ulrich gb fr ca 2011 01 01 但我的选择
TSQL - 创建从日期表，同时忽略带条件的中间步骤

我在 MS SQL 服务器中有以下表结构现在我想根据以下规则获取每个 id 的 in 日期如果第二天 23 59 出和 00 00 进则忽略这些如果同一天有 out 和 in 请忽略这些例如我应该得到以下结果 id in ou
如何更新 SQL Server 中 ntext 列中的 XML 字符串？

有一个包含 2 列的 SQL 表 ID int 和值 ntext 值行中包含各种 xml 字符串 ID Value 1
仅当所有记录都匹配时 SQL 连接

我有3张桌子 CP carthead idOrder CP cartrows idOrder idCartRow CP shipping idCartRow idShipping dateShipped 每个 idOrder 可以有多个 i
将 SQL Server 日期时间转换为较短的日期格式

我有一个datetimeSQL Server 中的列为我提供了这样的数据10 27 2010 12 57 49 pm我想查询此列但只需让 SQL Server 返回年月日例如 2010 10 27或类似的东西我应该研究哪些功能我应该
URL路径相似度/字符串相似度算法

我的问题是我需要比较 URL 路径并推断它们是否相似下面我提供了要处理的示例数据 GROUP 1 robots txt GROUP 2 bot html GROUP 3 phpMyAdmin 2 5 6 rc1 scripts setup
对于返回超过1个值的SQL select，当Id为GUID时它们如何排序？

我想知道 SQL Server 如何对查询返回的数据进行排序并且各个表的 Id 列都是 uniqueidentifier 类型我在创建所有 GUID 时使用 NHibernate GuidComb 并执行以下操作 Sheet sheet
如何为SQL Server 2005实例中的所有数据库创建DDL触发器

我将为 SQL Server 实例中的所有数据库创建一个 DDL 触发器我想在一次运行中完成此操作而不是为每个数据库运行多次下面是我需要执行的两个 T SQL 语句 Create table use
在 C# 中执行基于存储过程的查询后，如何重新使用 CommandText 的 SqlCommand 对象？

我有一个示例代码 aCommand CommandType CommandType StoredProcedure aCommand Parameters AddWithValue book id bookID aCommand Param
雪花：如果存在则删除列

我没有找到任何简单的方法来翻译 Snowflake 中的以下 T SQL 查询 ALTER TABLE table1 DROP COLUMN if exists col1 有任何想法吗谢谢随着介绍雪花脚本和分支构造 https doc
计算2个日期之间每个日期的记录数

我必须创建一个查询来返回多轴图表的结果我需要计算为 2 个日期之间的每个日期创建的 ID 数量我试过这个 DECLARE StartDate datetime2 7 11 1 2020 EndDate datetime2 7 2 22
T-SQL：如何获取字符串的确切字符长度？

我正在为预先没有数据类型信息的表生成 T SQL SELECT 语句在这些语句中我需要执行取决于表列的原始值的长度的字符串操作操作一个示例但不是唯一的示例是在字符串中的特定位置插入一些文本包括将其插入末尾的选项 SELECT C
使用用户定义函数 MySql 时出错

您好请帮我解决这个问题提前致谢我在数据库中定义了这些函数 CREATE FUNCTION levenshtein s1 VARCHAR 255 s2 VARCHAR 255 RETURNS INT DETERMINISTIC BEGI
重用 t-sql 游标的起始位置？

我正在开发一个在临时表上使用游标的存储过程我已经阅读了一些关于为什么不需要游标的内容但在这种情况下我相信我仍然需要使用游标在我的过程中我需要遍历表的行两次声明游标后已经单步执行临时表并关闭游标重新打开时游标的位置是否仍保留在表
替换字符串中的多个字符，而不使用任何嵌套替换函数

我的表中存储了一个方程我一次获取一个方程并希望将所有运算符替换为任何其他字符输入字符串 N 100 6858 6858 N 100 0 2 N 35 运算符或模式替换字符输出字符串 N 100 6858 6858 N 100 0

随机推荐

将automatic_scaling max_idle_instances 设置为零（0）有什么作用？

将automatic scaling max idle instances 设置为零 0 有什么作用 automatic scaling max idle instances 0 min idle instances 0 它是否会导致活动实
在 Mac 启动时运行 python 脚本

我正在尝试让 python 脚本在启动时运行我有以下文件 com test service plist
刷新 JLabel 图标图像

我使用 JLabel 在 JFrame 中显示图像并设置它的图标它第一次工作但是每当我去更改图像时它仍然保持我第一次设置的内容所以我尝试过这个但结果仍然相同 contentPane remove lblPlaceholder lb
Google Apps 脚本：“错误 401：deleted_client OAuth 客户端已删除”突然？

我目前在 Google Sheets 上使用 Google App Scripts 作为我的预算电子表格本质上我的设置方式是 Buy item 将费用输入 Google 表单输入电子表格使用 Apps 脚本将时间戳转换为 yyyy
我如何有条件地要求使用 AngularJS 进行表单输入？

假设我们正在使用 AngularJS 构建一个地址簿应用程序人为的示例我们有一个联系人表单其中包含电子邮件和电话号码的输入我们希望要求非此即彼 but not both 我们只想要email如果需要输入phone输入为空或无效反之
d3：当鼠标悬停事件时，多系列折线图每行的工具提示

我正在 Angular 2 应用程序中使用 d3 绘制图表现在我有一个多系列折线图因此我尝试在将鼠标悬停在其垂直位置时在每条线上添加工具提示 export class LineGraphDirective private host pr
如何使用 HttpClient.PostAsync 发送大数据文件？ [复制]

这个问题在这里已经有答案了我的功能如下对于 25MB 左右的任何内容它都可以很好地工作但大于该值它就会停止工作当我说停止工作时它不会抛出任何异常并且失败noserver函数底部的结果选项我似乎找不到任何涉及任何其他缓冲区大小
如何在 Spring Boot 中使用 Spring Web Services 动态 WSDL 生成？

我跟着Spring Web 服务入门教程我已经整理了一个示例 Web 应用程序可以在以下位置动态生成 W SDL ws holiday wsdl端点为请求提供服务 ws holidayService 到目前为止一切都很好现在我正在将该
计算两条路径的交叉面积

只有一个Raphael pathIntersection path1 path2 效用于Rapha l库而这个方法只能获取交叉点这 2 条路径中我需要的是交叉区域如下图所示该方法仅得到2分用红色圆圈标记我希望同时有另外 2 个点
绝对路径和相对路径

使用任何 Web 服务器或 Tomcat 时绝对路径和相对路径有什么区别绝对路径以开头指的是从当前站点或虚拟主机的根目录开始的位置相对路径不以开头而是引用所引用文档的实际位置中的位置示例假设根是http foo com
添加小数点时，ios 在字典上使用双引号

我正在与 JSON 交互对于 get 它工作正常但是对于 post 我有一个错误因为字典对象用双引号引起来对于网络服务我收到双引号错误问题是如果我使用点来表示小数点则会出现双引号 NSMutableDictionary d
如何在 IPython 笔记本中隐藏 [重复]

这个问题在这里已经有答案了我正在绘制一个 NumPy 值数组 I 使用 IPython 笔记本 matplotlib使用绘图命令的内联模式plt plot I o 结果输出是
使用生成的主键插入 Derby 表时，Eclipselink JPA 出现错误

当使用生成的主键持久保存到表中时 EclipseLink 似乎错误地将空主键值传递给 Derby 德比返回错误尝试修改标识列在这种情况下 Derby 需要一条排除 id 值的 SQL 语句我的问题是如何强制 EclipseLink 发送正
JavaScript 中处理大数 (BigNum) 的标准解决方案是什么？

JavaScript 或浏览器中是否内置了 bignum 另一种方法是加载外部库例如但这似乎很慢并且可能会触发安全警告我考虑过自己的基础http github com silentmatt javascript biginteger
忽略基类使用 Dokka 查看子类文档中的公共函数

我使用 Dokka 为 View 子类生成了文档效果很好但文档包含基本 View 类的数百个公共函数有没有办法只记录我的子类公共函数我尝试将这些选项添加到 Gradle 任务中但我不认为这就是它的用途 dokkaHtml dokk
使用 EF Core Linq2Sql 进行聚合的聚合

我有一个带有 EF Core 2 2 Code First DB 的 ASP NET Core 2 2 项目我有以下实体建筑物基本上是一个带有一些其他重要数据的地址 Floor 包含楼层号一栋建筑物可以有多层一个楼层必须恰好有一个
如何解释await/async同步上下文切换行为

关于以下代码的行为有几件事但有一件主要的事情我不明白有人可以帮忙解释一下吗它实际上是非常简单的代码只是一个调用异步方法的常规方法在异步方法中我使用 using 块来尝试临时更改 SynchronizationContext
从 JSP 返回 JSONP 而不是 JSON

I found 这个问题从jsp将响应类型设置为json 但我需要将响应类型设置为jsonp以进行跨域访问还会是这样吗 response setContentType application javascript 并将来自jsp的响应包装
如何使用 R8 在堆栈跟踪中保留原始行号？

我正在尝试找出如何使用 R8 保留原始行号使用当前的AndroidStudio制作应用程序并使用R8对其进行混淆甚至上传mapping txt将文件上传到 Google Play Console 后用户的堆栈跟踪在某些情况下是无用的
T-SQL 中的编辑距离

我对 T SQL 计算 Levenshtein 距离的算法感兴趣我在 TSQL 中实现了标准 Levenshtein 编辑距离函数并进行了多项优化与我所知的其他版本相比速度有所提高如果两个字符串的开头有共同的字符共享前缀结尾有

T-SQL 中的编辑距离

T-SQL 中的编辑距离 的相关文章

随机推荐

热门标签

T-SQL 中的编辑距离的相关文章