查找包含相似字符串的sql记录

2024-04-24

我的下表有 2 列：ID 和标题，其中包含超过 500.000 条记录。例如：

ID  Title
--  ------------------------
1   Aliens
2   Aliens (1986)
3   Aliens vs Predator
4   Aliens 2
5   The making of "Aliens"

我需要找到非常相似的记录，我的意思是它们有 3-6 个字母的不同，通常这种差异出现在标题的末尾。所以我必须设计一个返回记录号的查询。 1,2和4。我已经研究了levenstein距离，但我不知道如何应用它。另外，由于记录数量较多，查询不应花费整晚的时间。

感谢您的任何想法或建议

如果您确实想按照您在问题中提出的确切方式来定义相似性，那么您将 - 正如您所说 - 必须实现 Levensthein 距离计算。在对 DataReader 检索的每一行进行计算的代码中或作为 SQL Server 函数。

所提出的问题实际上比乍一看更棘手，因为你不能假设知道问题是什么相互共享两个字符串之间的元素可能是。

因此，除了编辑距离之外，您可能还想指定实际必须匹配的连续字符的最小数量（以便得出有效的相似性）。

总之：这听起来像是一种过于复杂且耗时/缓慢的方法。

有趣的是，在 SQL Server 2008 中，您有不同之处 http://msdn.microsoft.com/en-us/library/ms188753.aspx函数其中may用于类似的事情。

它评估两个字符串的语音值并计算差异。我不确定你是否能让它正常工作于多词表达，例如电影标题，因为它不能很好地处理空格或数字，并且过分强调字符串的开头，但它仍然是一个有趣的谓词要注意。

如果你是什么actually试图描述某种搜索功能，那么您应该研究一下全文搜索 http://msdn.microsoft.com/en-us/library/ms142571.aspxSQL Server 2008 的功能。它提供了内置的同义词库支持 http://msdn.microsoft.com/en-us/library/ms142491.aspx, 花哨的 SQL谓词 http://msdn.microsoft.com/en-us/library/ms187787.aspx以及“最佳匹配”的排名机制

编辑：如果你想消除重复项，也许你可以看看 SSIS模糊查找和模糊群变换 http://msdn.microsoft.com/nb-no/library/ms345128.aspx。我自己还没有尝试过，但它看起来是一个很有前途的线索。

EDIT2：如果您不想深入研究 SSIS 并且仍然为 Levenshtein Distance 算法的性能而苦苦挣扎，您也许可以尝试这个算法 http://sites.google.com/site/sqlblindman/fuzzysearchalgorithm这似乎不太复杂。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

查找包含相似字符串的sql记录的相关文章

Laravel 5.4 上传原始文件名和扩展名

通过表单提交文件时如何将原始文件名 file jpg 上传到数据库控制器 public function addCv Request request cv Cv create request gt all file request gt
良好的安全实践和自动身份范围管理是否相互排斥？

我正在尝试使用自动身份范围管理 http msdn microsoft com en us library ms152543 aspx sectionToggle1 但是确保我的用户可以在具有标识列的表中插入记录的唯一方法是使它们db o
如何对 MySQL 数据库中的 ENUM 列进行排序？

I have colorMySQL 表中的列类型为ENUM RED YELLOW MY COLOR BLACK 还有另一个name列的类型是VARCHAR 30 我想按以下顺序获取所有表行 YELLOW首先行排序依据name RED最后一
复制行并自动递增非身份键 ID 列的 INSERT INTO 语句

给定一个包含三列的表 ID 主键非自动递增 GroupID 一些价值我正在尝试编写一个 SQL INSERT INTO 语句该语句会将具有一个 GroupID 的每一行复制到一个新的 GroupID 中起始表示例 ID GroupI
为什么多表连接会产生重复行？

假设我有三个表 A B 和 C 每个表都有两列一个主键和一些其他数据它们每个都有相同的行数如果我JOIN主键上的 A 和 B 我最终应该得到与其中任何一个相同的行数而不是 A rows B rows 现在如果我JOIN A JOI
在 SQL 中搜索 xml 列中的多个值

这是我的桌子 BasketId int BasketName varchar BasketFruits xml 1 Gold
是否可以使用不在 GROUP BY 中的 ORDER BY 列？

正如标题所说这是我的代码 SELECT material SUM Amount AS Amount RIGHT CONVERT varchar 50 date in 106 8 FROM rec stats GROUP BY materi
交易已在触发条件下结束。批次已中止。派生属性

我有这个触发器 CREATE trigger dbo DeriveTheAge on dbo Student after insert update as begin declare sid as int declare sdate as
SQL Server 代理服务的凭据无效

想要改进这篇文章吗提供此问题的详细答案包括引用和解释为什么你的答案是正确的不够详细的答案可能会被编辑或删除我正在尝试以管理员身份在本地计算机上安装 SQL Server 2008 开发服务器在安装过程中我收到此错误知道如何解决它
连接2个表区分大小写

我有 2 个表需要获取品牌代码的结果例如在数据库中我有两个不同的品牌但它们的代码是相同的只有小写和大写不同例如代码名称关于耐克和阿迪达斯如何在代码上内连接 2 个表以分别获取这 2 个表现在在内连接之后我得到了这
我写了一个 SQL 查询但没有运行，为什么？ [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案当前表 EmployeeID CompanyID EmployeeCode EmployeeName 1001 C001 11919 ABC
在 postgres 中选择时保留顺序[重复]

这个问题在这里已经有答案了在 psql 中至少在 v9 中如果我这样做 select id from users where id in 2 1 1 and select id from users where id in 1 2 它
mysql中相同字符集和排序规则的varchar和nvarchar有什么区别

谁能告诉我具有相同字符集和整理的 varchar 和 nvarchar 之间有什么区别例子 varchar CHARACTER SET utf8mb4 COLLATE utf8mb4 unicode ci and nvarchar CHA
在 SQL where 子句中使用带有 IsDate 的 case 语句

我正在尝试清理以下代码中的 where 子句语句 SELECT CONVERT datetime UTC Time Stamp 127 AS TimeStamp FROM Table WHERE CASE WHEN ISDATE UTC T
搜索并替换字符串 t-SQL

每个人我都试图编写一个查询来替换末尾出现的所有字符串我有一些干扰词确切地说是 104 个如果它们出现在字符串末尾则需要将其从字符串中删除例如两个干扰词是 Company LLC 以下是一些示例和预期输出 American Com
MYSQL插入GB大小的巨大SQL文件

我正在尝试创建 Wikipedia DB 副本大约 50GB 但在处理最大的 SQL 文件时遇到问题我使用 linux split 实用程序将 GB 大小的文件拆分为 300 MB 的块例如 split d l 50 enwiki 2
SQL 层次结构 - 解析给定节点的所有祖先的完整路径

我有一个由邻接列表描述的层次结构不一定有单个根元素但我确实有数据来识别层次结构中的叶终端项所以一个看起来像这样的层次结构 1 2 4 7 3 5 6 8 9 将通过表格来描述就像这样 NOTE 我没有能力改变这种格式 id p
从用户定义的函数调用 sql

SQL Server 2008 是否可以从用户定义函数中的变量执行 sql 或者使用存储过程是唯一的解决方案我有一条sql语句保存在variabele中 mySqlStatement select from someTable 我想从用户
我正在使用 SQL 设计公交车时刻表。每条巴士路线都有多个站点，我是否需要为每条路线准备不同的表？

我正在尝试提出尽可能最有效的数据库我的巴士路线大约有 10 个站点巴士从一号站出发直到到达第十站然后再返回这个循环每天发生3次我真的很困惑如何有效地生成公交车的时间以及应该在哪里存储站点如果我将所有停靠点放在一个字段中将时间
SQL Server 2000 - 将查询分成 15 分钟的块

我有一个连续时间数据集我想使用 sql 将其分成 15 分钟的块如果我能帮忙的话我不想必须创建一个新表才能做到这一点 i e 时间计数09 15 109 30 309 45 010 00 210 15 3 有谁知道我该怎么做我认为

随机推荐

为什么 std::list 上的 Push_back 会更改使用 rbegin 初始化的反向迭代器？

根据我发现的一些 STL 文档在 std list 中插入或删除元素不会使迭代器失效这意味着允许循环列表从begin to end 然后使用push front添加元素例如在下面的代码中我用元素 a b 和 c 初始化一个列表
Slim 框架总是返回 404 错误

这些天我正在使用纤薄的框架作为我开发 php web api 的最简单的工具使用这两篇文章科恩拉茨 http coenraets org blog 2011 12 restful services with jquery php an
登录失败时生成 Python PXSSH GUI

当登录失败时我无法阻止 GUI 的生成失败并生成 GUI 的简单示例 gt gt gt import pxssh gt gt gt gt gt gt ssh pxssh pxssh gt gt gt ssh force password
Android SmsManger 发送报告

我向多个联系人发送多条消息并为每个联系人使用以下代码 private void sendSMS String first String last String id String phoneNumber try String messag
如何使 XML 字符串加粗、下划线等？

http docs fusioncharts com charts contents Styles Font html http docs fusioncharts com charts contents Styles Font html
将 UTC 日期转换为本地日期

我正在将纪元时间 UTC 格式转换为如下所示的格式现在我尝试了不同的答案来转换UTCDate from UTC到当地时间但我没有得到当地时间任何帮助将不胜感激 String epochTime 1436831775043 Date
如何使用 Perl 的 LWP 提取网站的 XML 并保存在文件中？

如何从网站提取信息 http tv yahoo com listings http tv yahoo com listings 然后创建一个 XML 文件我想保存它以便稍后解析并使用 JavaScript 显示信息我对 Perl 很陌生
mysql 中临时表的旧代码 TYPE=HEAP 错误

我有一个可以运行的旧代码 CREATE TEMPORARY TABLE temp tree id INTEGER parent id INTEGER type HEAP 现在我有 mysql 5 并且这段代码不起作用在内存中创建临时表的正
CreateProcess错误=740，请求的操作需要提升

我有一个定期更新的网络小程序我最终决定制作一个更新程序但是当我用 java 下载更新时它下载得很好但是当我尝试使用以下命令解压运行更新时Runtime getRuntime exec pathToFile I get Crea
如何使用 Perl 提取 HTML 标题？

有没有办法使用 Perl 提取 HTML 页面标题我知道它可以在表单提交期间作为隐藏变量传递然后以这种方式在 Perl 中检索但我想知道是否有一种方法可以在不提交的情况下执行此操作比如说我有一个这样的 HTML 页面然后在 Pe
打印的条形码不清晰 (WPF)

我的应用程序中需要条形码打印模块但无法弄清楚如何正确打印条形码看来分辨率太低了我在用着禅宗条形码 https barcoderender codeplex com 正如您在所附照片中所看到的顶部条形码是从打印机软件打印的证明打印机
注册不起作用，注册未定义错误 React Native

我刚刚从 Udemy 购买了 React Native 的课程 Stephen Grider 是该课程的作者所以基本上我是在他打字的时候和他一起打字的但不幸的是我在跟踪应用程序的注册过程中陷入了错误每当我在输入电子邮件和密码后单击注
如何在列表/字符串/范围中查找指定项目后面的特定项目？

给定一个input任何类型的序列列表字符串范围如何找到下一个项目input遵循指定项目另外如果该项目不存在或后面没有任何内容该函数应该返回None 我尝试将输入类型转换为列表然后从列表中查找位置然后获取下一个项目但这并不
如何使用 JDBC 进行扩展插入而不构建字符串？

我有一个应用程序可以解析日志文件并将大量数据插入数据库它是用 Java 编写的并通过 JDBC 与 MySQL 数据库通信我尝试了不同的插入数据的方法以找到适合我的特定用例的最快方法目前看来表现最好的方法是发出扩展插入例如具有
在 Android 锁屏上显示自定义信息 [重复]

这个问题在这里已经有答案了我想自定义锁屏 The default Lock screen is like this 我想修改锁定屏幕的这一部分并让所有其他内容保持不变当用户锁定手机时它应该在红色框中显示自定义信息到目前为止我已经看
mockk java.lang.AssertionError：验证失败：调用 1 of 1：未调用

我正在使用模拟运行单元测试当尝试验证方法时我收到断言错误并且不知道如何运行测试这是我的测试方法 get Rule var rule TestRule InstantTaskExecutorRule val autoDownloads
Django 中的内联表单集 - 删除某些字段

我需要创建一个内联表单集 a 排除一些字段MyModel完全显示出来 b 显示一些字段MyModel但阻止它们被编辑我尝试使用下面的代码使用values 为了将查询集过滤为我想要返回的值然而这失败了有人有什么想法吗 class P
DataDog 事件会自动恢复

我创建了一个事件监视器用于捕获有错误的事件并通过特殊的信使通知有关警报的信息一切都很顺利但我注意到此类警报会自行自动恢复一段时间 As I understand it is because of this parameter 因此
VB.NET中获取CheckBoxList的所有选中值

我用过ASPCheckBoxList控制现在我想要的是在VB代码中获取所有选定的值 HTML
查找包含相似字符串的sql记录

我的下表有 2 列 ID 和标题其中包含超过 500 000 条记录例如 ID Title 1 Aliens 2 Aliens 1986 3 Aliens vs Predator 4 Aliens 2 5 The making of A

查找包含相似字符串的sql记录

查找包含相似字符串的sql记录 的相关文章

随机推荐

热门标签

查找包含相似字符串的sql记录的相关文章