使用 Soundex、Jaro Winkler 和编辑距离 (UTL_MATCH) 匹配 Oracle 重复列值

2023-12-10

我正在尝试找到一种可靠的方法来匹配数据库中的重复人员记录。这些数据存在一些严重的数据质量问题，我也在尝试修复这些问题，但在我获得批准之前，我只能使用现有的数据。

我可用的表列有：

SURNAME       VARCHAR2(43)
FORENAME      VARCHAR2(38)
BIRTH_DATE    DATE
ADDRESS_LINE1 VARCHAR2(60)
ADDRESS_LINE2 VARCHAR2(60)
ADDRESS_LINE3 VARCHAR2(60)
ADDRESS_LINE4 VARCHAR2(60)
ADDRESS_LINE5 VARCHAR2(60)
POSTCODE      VARCHAR2(15)

The SOUNDEX此用途的功能相对有限，但UTL_MATCH包似乎使用 Jaro Winker 算法提供了更好的匹配级别。

有没有人实现了一种可靠的方法来匹配此类数据，而不是重新发明轮子？

需要应对的数据质量问题：

邮政编码虽然是强制性的，但并不总是完整输入。
地址数据的质量相对较差，地址输入的格式不固定（即有些可能将 line1 设为“Flat 1”，而有些可能将 line1 设为“Flat1, 22 Acacia Ave”）。
名字列可以包含首字母、完整名字或有时包含多个名字。

例如我正在考虑：

连接所有地址字段并将 Jaro Winkler 算法应用于完整地址，并结合对连接在一起的全名进行类似测试。

可以直接比较出生日期进行匹配，但由于数据量很大，仅匹配出生日期是不够的。

Oracle 10g R2 企业版。

欢迎任何有用的建议。

“我正在尝试寻找一种可靠的方法来匹配重复的人数据库中的记录。”

唉，没有这样的事情。您最多可以期望的是一个具有合理怀疑因素的系统。

SQL> select n1
       , n2
       , soundex(n1) as sdx_n1
       , soundex(n2) as sdx_n2
       , utl_match.edit_distance_similarity(n1, n2) as ed
       , utl_match.jaro_winkler_similarity(n1, n2) as jw   
from t94
order by n1, n2
/


  2    3    4    5    6    7    8    9  
N1                   N2                   SDX_ SDX_         ED         JW
-------------------- -------------------- ---- ---- ---------- ----------
MARK                 MARKIE               M620 M620         67         93
MARK                 MARKS                M620 M620         80         96
MARK                 MARKUS               M620 M622         67         93
MARKY                MARKIE               M620 M620         67         89
MARSK                MARKS                M620 M620         60         95
MARX                 AMRX                 M620 A562         50         91
MARX                 M4RX                 M620 M620         75         85
MARX                 MARKS                M620 M620         60         84
MARX                 MARSK                M620 M620         60         84
MARX                 MAX                  M620 M200         75         93
MARX                 MRX                  M620 M620         75         92

11 rows selected.

SQL> SQL> SQL>

SOUNDEX 的一大优点是它对字符串进行标记。这意味着它给了你一些东西可以被索引：当涉及大量数据时，这非常有价值。另一方面，它又旧又简陋。还有更新的算法，例如 Metaphone 和 Double Metaphone。您应该能够通过 Google 找到它们的 PL/SQL 实现。

评分的优点是允许一定程度的模糊性。这样你就可以找到所有行where name_score >= 90%。最大的缺点是分数是相对的，因此您无法对它们进行索引。这种比较会让你在大量数据的情况下丧命。

这意味着：

您需要多种策略的组合。没有任何单一算法可以解决您的问题。
数据清理很有用。比较 MARX 与 MRX 和 M4RX 的分数：从名称中删除数字可以提高命中率。
你无法即时获得大量名字。如果可以的话，使用标记化和预评分。如果您的流失率不高，请使用缓存。如果可以的话，请使用分区。
使用 Oracle Text（或类似的）构建昵称和变体的同义词库。
Oracle 11g 向 Oracle Text 引入了特定的名称搜索功能。了解更多。
构建用于评分的规范名称表，并将实际数据记录链接到该表。
使用其他数据值，尤其是可索引的数据值（例如出生日期）来预先过滤大量姓名或增加对建议匹配的置信度。
请注意，其他数据值也有其自身的问题：出生于 2011 年 1 月 31 日的人是十一个月还是八十岁？
请记住，名字很棘手，尤其是当您必须考虑已罗马化的名字时：Moammar Khadaffi（罗马字母表）有四百多种不同的拼写方式 - 甚至谷歌也无法就哪种变体最规范达成一致。

根据我的经验，连接标记（名字、姓氏）是一件喜忧参半的事情。它解决了某些问题（例如道路名称是否出现在地址行 1 或地址行 2 中），但会导致其他问题：考虑对 GRAHAM OLIVER 与 OLIVER GRAHAM 进行评分，与对 OLIVER 与 OLIVER、GRAHAM 与 GRAHAM、OLIVER 与 GRAHAM 以及 GRAHAM 与 OLIVER 进行评分。

无论您做什么，您仍然会出现误报和错过命中的情况。没有算法可以防止拼写错误（尽管 Jaro Winkler 在 MARX 与 AMRX 方面做得相当不错）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Soundex、Jaro Winkler 和编辑距离 (UTL_MATCH) 匹配 Oracle 重复列值的相关文章

PL/SQL 过程：如何返回 select 语句？

我想创建一个存储过程 on ORACLE数据库服务器我的问题是我不知道如何返回 select 语句这是程序中应包含的逻辑输入参数过滤器1 int 过滤器2 字符串 with cte as select val1 val2 stdde
如何插入包含“&”的字符串

如何编写包含字符的插入语句例如如果我想将 J J Construction 插入数据库的列中我不确定这是否有什么不同但我正在使用 Oracle 9i 我总是忘记这一点然后又回到它我认为最好的答案是迄今为止提供的答复的组合首先
查询以查找平均加权价格

我在 Oracle 中有一个表每个给定部分包含多行每行都有一个与其关联的数量和价格还有一个给定零件的行集相加的总数量以下是数据示例我需要的是获得该零件的平均加权价格例如如果数量为 100 的零件的价格为 1 数量为 50 的零
Oracle 数据库 11g 中的访问控制列表 (ACL) 拒绝网络访问

最近我们从 Oracle 10g 切换到 11g 现在我发现我的邮件功能不起作用我现在收到错误 ORA 24247 network access denied by access control list ACL 因此我进行了一些谷歌搜
如何动态创建表数据类型的变量？

在以下查询中 select string 可以返回具有任何可能数据类型的任意数量的列和行 Execute immediate select string into v table variable 例如 select string 可以是
从 Oracle 获取包方法和参数

我正在寻找 Oracle 查询来获取 Oracle 包过程的所有参数我知道有一个视图或表可以提供此功能但我似乎不记得它是什么注意我并不是要从 user objects 获取包列表而是要获取包中每个过程的数据类型和参数名称 Th
匹配可能存在或可能不存在的组

我的正则表达式需要解析一个如下所示的地址 BLOOKKOKATU 20 A 773 00810 HELSINKI SUOMI 1 2 3 4 第一组第二组和第三组将始终存在于地址中第 4 组可能不存在我编写了一个正则表达式来帮助我获得
跨数据库管理系统检查字符串是否为数字的方法

好的我有这个字段 code varchar 255 它包含我们导出例程中使用的一些值例如 DB84 DB34 3567 3568 我需要仅选择自动生成的全数字字段 WHERE is numeric table code is num
ORA-12154: TNS: 无法解析指定的连接标识符

当我安装服务器版本和现有的 Oracle 10g 客户端版本时问题就开始了背景安装了 Oracle 客户端版本 10g 位于 c oracle 以连接到位于其他国家地区的数据库所以我们只能连接到它并且对它的访问权限有限路径 gt
浏览多个字段的值并将它们插入到同一列中

我正在尝试使用重复行为我的 oracle apex 应用程序创建一个功能假设我有一个车辆表 CREATE TABLE vehicles brand VARCHAR2 50 model VARCHAR2 50 comment VARCHAR
SQL Fiddle 输出错误

其实我对 PL SQL 还很陌生我在 SQL Fiddle 中使用 oracle pl sql 创建了下表 create table Employee name varchar2 100 id integer salary integer
如何在 Pro*C 查询中指定变量表达式列表？

我尝试优化的 Pro C 查询出现问题解释一下我们的应用程序在一个巨大的数据库中搜索行这些行存在于多种语言中旧代码为数组中的每种语言选择一行现在由于这些查询是我们应用程序中最耗时的部分因此我只想进行一个直接写入数组的查询语言
如何从oracle存储过程中提取out变量？

我有存储过程其中有很多输出变量所以我这样调用存储过程 export const infoHR3 async gt try const sql Declare ln order qty NUMBER ln in proc qty hr N
查看oracle中重复行的所有数据

我有一个有 6 列的表 id name type id code lat long 前三个是必需的 ID是私钥按序列自动插入我有一些重复的行正如两者所定义的name and type id是平等的但我想查看受骗者的所有数据我可以很
DBMS_SCHEDULER.DROP_JOB 仅当存在时

我有一个 sql 脚本在导入转储后必须运行该脚本该脚本除了执行其他操作外还执行以下操作 BEGIN remove program SYS DBMS SCHEDULER DROP PROGRAM program name gt STAT
如何在Oracle中将“(Ab56.12345)some_string”的一个字符串列拆分为两列“Ab.12345”，“some_string”

正如问题一样如何拆分一个字符串列 Ab56 12345 some string到两列Ab56 12345and some string在甲骨文中注意并非所有列都 Ab56 12345 some string 部分列仅some stri
创建和删除表空间 Oracle

我已经创建了这个表空间 CREATE TABLESPACE IA643 TBS DATAFILE IA643 dat SIZE 500K AUTOEXTEND ON NEXT 300K MAXSIZE 100M 我尝试使用此命令删除它 DR
调整 Oracle 数据库以加快启动速度（闪回）

我正在使用 Oracle 数据库 11 2 我有一个场景我发出FLASHBACK DATABASE经常似乎有一个FLASHBACK DATABASECycle 会重新启动数据库实例大约需要 1 分钟我的设置花了 7 秒数据库很小
从 C# 使用 Odbc 调用 Oracle 包函数

我在 Oracle 包中定义了一个函数 CREATE OR REPLACE PACKAGE BODY TESTUSER TESTPKG as FUNCTION testfunc n IN NUMBER RETURN NUMBER as be
如何使用 JSON_TABLE 从 Oracle JSON 列获取键值作为结果集

我用谷歌搜索了很多似乎无法找到适合我的简单用例的简单解决方案我在 Oracle 12C 数据库中有一个 json 列当然实际上是一个带有 json 约束的 varchar 在该列中我存储了这样的 Map 表示 a 9 0847 b 8

随机推荐

如何在 Angular 4 中获取 HttpClient 状态代码

在Http模块中我可以使用response status轻松获取响应代码但是当我使用HttpClient模块时我无法获取response status 它显示未定义那么我如何使用 Angular 4 中的 HttpClient 模
如何使用 Angularjs 制作级联下拉菜单？

在这里我添加了带有子型号的移动品牌名称列表我的期望 1 这里多次列出诺基亚和三星 HTC 如何避免列表中重复出现相同的名称2 当我在第一个下拉列表中选择诺基亚时一个新的下拉列表应出现在第一个下拉列表中它应显示诺基亚品牌型号列表如果
动态 JComboBox

我有以下数据字符串 Course1 A1 Course1 A2 Course2 B1 Course2 B2 Course2 B3 Course2 B4 Course3 C1 Course3 C2 我想创建两个J组合框 JComboBox1
Spark Dataframe：从 Map 类型生成元组数组

我的下游源不支持 Map 类型而我的源支持 Map 类型因此发送此类型我需要将此映射转换为结构数组元组 Scala 支持 Map toArray 它为您创建一个元组数组这似乎是我需要在 Map 上进行转换的函数 a b key1
动态加载的 JavaScript 库何时可用？

我编写了 JavaScript 库来使用文件保存器 js及其相关的库但是我不想在有人想要使用我的库时总是加载 FileSaver js 我不想强迫他们加载所有与 FileSaver 相关的 JavaScript 库script标签本身
Java：dll之间的切换取决于系统架构（32/64）

我有一个 Java 程序使用一些 dll 由于这些嵌入的 dll 必须针对特定的系统架构 32 或 64 位构建我想创建一种方法东西允许我的程序在 32 64 位版本的 dll 之间切换或者在程序运行时禁用库加载在 64 位系统
Mac OS X 中的哪些设置会影响 Java 中的“Locale”和“Calendar”？

这两个问题促使我想知道 Mac OS X 中的哪些设置会影响Locale and CalendarJava 中的默认值和行为 WEEK OF YEAR 在不同机器上不一致为什么 Calendar getInstance 无法使用默认区域设
Spring：在mvc:resources下不接受POST请求？如何解决这个问题

我在我的项目中使用spring框架这是我的 web xml 的一部分
JavaScript 中的 For 循环 - 彩票网站

我正在尝试将此代码转换为正确的 for 循环语句以便我可以节省重复次数我已尽力完成它但我只是不知道如何正确编写它 function myProg var luckyNumber 3 var luckyNumber2 5 var luc
循环内的切片似乎保留了前一个/最后一个引用（取决于切片的长度）

这看起来很奇怪循环中有一个局部变量slice为每个循环分配新值我将该切片附加到全局sliceWrappers 循环完成后全局切片内的所有值仅包含对该局部切片变量上设置的最后一个值的引用 Code package main import
如何丢弃对使用接收器获取的任何托管对象的引用？

NSManagedObjectContext 的 reset 方法的文档令人困惑所有接收者的管理对象都是忘记了如果你使用这个方法你应该确保你也丢弃对任何托管的引用使用接收器获取的对象因为之后它们将无效那么这意味着什么呢当我
如何在 C# 中从 XmlNode 获取参数值

如何获取 XmlNode 标记中的参数值例如
获取 URL 中带有井号的 window.location.pathname - javascript

在我的网页上我有一个文章列表根据用户单击的链接隐藏和显示这些文章 a href Sports a a href Weather a 当我将某人链接到我的网站时id附加到 URL 的文章的内容我想在该文章上触发点击事件 a elemen
getActionBar().setDisplayHomeAsUpEnabled(true); preferenceActivity 中的空指针

我搜索了很多这个问题但没有找到任何结果relevant 我更新了我的应用程序项目以使用 api 21 现在当我运行偏好活动时我在该行上得到一个空指针这是我的代码与提供的代码相同 eclipse创建新的设置活动时 package co
R 滚动日期范围内唯一值的计数

这个问题已经有一个SQL 的答案我能够使用 R 在 R 中实现该解决方案sqldf 但是我一直无法找到使用它来实现它的方法data table 问题是计算滚动日期范围内一列的不同值例如并直接引用链接的问题如果数据如下所示 Date
RestKit：映射 JSON 字符串数组

给定以下 JSON someKey someValue otherKey otherValue features feature1 feature2 feature3 我将此 JSON 映射到NSManagedObjects with RK
在 Inno Setup 中，如何更新通知区域（也称为系统托盘）？

在 Inno Setup 中如何更新通知区域也称为系统托盘具体来说我正在代码部分安装一项服务该服务会在托盘中放置一个图标我想立即删除它最好还是在代码部分或者根本不把图标放在那里但我认为这是不可能的当我将鼠标移到该图标
Numpy 广播

当我在 Numpy 中进行此操作时会发生什么 a np ones 500 1 b np ones 5000 2 c a b a shape 500 1 b shape 5000 c shape 500 5000 我很难弄清楚这个广播中到底发
NSTextField（标签）属性文本：选择

我有一个 NSTextField 标签其中包含属性文本颜色和尺寸与默认值不同文本稍大且呈绿色现在我需要能够选择标签中的文本以便单击嵌入在属性文本中的超链接这很好用但是当选择文本时文本格式将恢复为默认值较小的黑色字体是
使用 Soundex、Jaro Winkler 和编辑距离 (UTL_MATCH) 匹配 Oracle 重复列值

我正在尝试找到一种可靠的方法来匹配数据库中的重复人员记录这些数据存在一些严重的数据质量问题我也在尝试修复这些问题但在我获得批准之前我只能使用现有的数据我可用的表列有 SURNAME VARCHAR2 43 FORENAME VAR

使用 Soundex、Jaro Winkler 和编辑距离 (UTL_MATCH) 匹配 Oracle 重复列值

使用 Soundex、Jaro Winkler 和编辑距离 (UTL_MATCH) 匹配 Oracle 重复列值 的相关文章

随机推荐

热门标签

使用 Soundex、Jaro Winkler 和编辑距离 (UTL_MATCH) 匹配 Oracle 重复列值的相关文章