如何检测重复数据？

2024-04-09

我有一个简单的联系人数据库，但用户输入重复数据时遇到问题。我已经实现了一个简单的数据比较，但不幸的是，输入的重复数据并不完全相同。例如，姓名拼写错误，或者一个人输入“Bill Smith”，另一个人输入“William Smith”，表示同一个人。

那么是否有某种算法可以给出一个条目与另一个条目的相似程度的百分比？

那么是否有某种算法可以给出一个百分比一个条目与另一个条目相似？

Soundex 和编辑距离等算法（如上一篇文章中所建议的）可以解决您的一些问题。但是，如果您认真清理数据，这还不够。正如其他人所说，“Bill”听起来一点也不像“William”。

我发现的最佳解决方案是使用缩减算法和表将名称缩减为其根名称。

在常规地址表中，添加名称的根版本，例如人（名字、根名字、姓氏、根姓......）

现在，创建一个映射表。 FirstNameMappings（主键名字，根名称）

通过以下方式填充您的映射表：将 IGNORE（从 Person 中选择 Firstname、“UNDEFINED”）插入 FirstNameMappings

这将添加您的人员表中的所有名字以及“UNDEFINED”的根名称

现在，遗憾的是，您将必须遍历所有唯一的名字并将它们映射到 RootName。例如“Bill”、“Bill”和“Will”都应翻译为“William” 这非常耗时，但如果数据质量对您来说确实很重要，我认为这是最好的方法之一。

现在，使用新创建的映射表来更新 Person 表中的“Rootfirstname”字段。对姓氏和地址重复上述步骤。完成此操作后，您应该能够检测重复项而不会出现拼写错误。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何检测重复数据？的相关文章

0-1背包算法

以下 0 1 背包问题是否可解浮动正值和浮动权重可以是正数或负数背包的浮动容量 gt 0 我平均有这是一个相对简单的二进制程序我建议用蛮力进行修剪如果任何时候你超过了允许的重量你不需要尝试其他物品的组合你可以丢弃整
关于在字典中查找所有有效单词的算法问题

给定一个字典只是一个字符串列表您收到来自外部来源的未知数量的信件给定字母串您将如何列出您可以通过这些字母的任意组合组成的所有有效单词来自字典因此如果您收到 applead 你应该找到apple bad pad lead等我知
如何仅使用单个数组在 JavaScript 中模拟调用堆栈

我正在看维基百科页面 https en wikipedia org wiki Call stack在调用堆栈上并尝试理解这个图像据我所知哈哈 const memory memory 0 3 top of stack pointer m
URL路径相似度/字符串相似度算法

我的问题是我需要比较 URL 路径并推断它们是否相似下面我提供了要处理的示例数据 GROUP 1 robots txt GROUP 2 bot html GROUP 3 phpMyAdmin 2 5 6 rc1 scripts setup
7 张牌扑克手牌评估器

有谁知道评估 7 张牌扑克牌的快速算法吗这比简单地暴力检查 7 张牌中每 21 个 5 张牌的组合更有效 Cheers Pete 我写了一篇JavaScript 核心评估方法仅使用位操作因此速度非常快考虑到这一点查看 21 种组合还
如何有效地找到距给定点最远的点（从一组点中）？

我正在寻找一种算法或数据结构来解决以下问题给你一组点 S 然后你会得到另一个点形式的 Q 查询对于每个查询找到集合中距离给定点最远的点集合中最多有 10 5 个点和 10 5 个查询所有点的坐标都在 0 到 10 5 范围内我想
计算两点之间的最短路线

过去几周我一直在开发一款多人 HTML5 游戏使用nodejs and websockets 我已经被这个问题困扰了一段时间想象一下我用数组实现了这个平铺地图如下所示 1 or 棕色瓷砖路上有障碍物玩家无法通过 0 or 绿色瓷
如何检查是否存在可能的路径？

我正在开发一个基于 javascript 的实验性游戏玩家必须在二维平铺地图上移动才能退出请随意检查这个小提琴并演奏 http jsfiddle net moonlife 74vLd 我只是随机放置障碍物但有时障碍物会挡住玩家和出口之
绘制多边形

我正在使用 Google Maps API V3 根据路径绘制多边形该路径是随机未排序坐标点 LatLng 的数组这会产生以下形状 Polylines intersect Problem 由于多边形的形状取决于路径中点的顺序因此如何对
具有 2 个属性的背包算法。如何在 3d 数组中实现它？

当有超过 1 个属性时我无法理解背包问题当有 1 个属性时我必须编写一个使用具有 2 个属性的背包算法的程序老师告诉我们它必须在 3d 数组中完成错误的实现将导致 O 2 n 处理时间我无法想象这样的数组会是什么样子假设这是
解开 Knuth 的结：如何重构意大利面条式代码？

这个问题的灵感来自如何将流程图转化为实施 https stackoverflow com questions 36647765它询问如何通过算法消除goto代码中的语句这answer https stackoverflow com a 3
在数字集合中查找最接近的匹配[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案 Locked 这个问题及其答案是locked help locked posts因为这个问题是题外话但却具有历史意义目前不接受新的
照片马赛克算法。如何在给定基本图像和瓷砖列表的情况下创建马赛克照片？

Hy 我要做的是创建一个程序使用 C 或 C 它将 24 位像素位图和图像集合作为输入我必须创建一个马赛克图像类似于使用库的输入图像给定的图像创建与输入类似的马赛克照片到目前为止我可以访问输入的图像像素及其颜色但我有点卡住了
O(1) 算法确定节点是否是多路树中另一个节点的后代？

想象一下下面的树 A B C D E F 我正在寻找一种方法来查询 F 是否是 A 的后代注意 F 不需要是directA 的后代在这种特殊情况下这是正确的只需要针对更大的潜在后代节点池测试有限数量的潜在父节点当测试一个节点是否是潜
高效列出目录中的所有子目录

请参阅迄今为止所采取的建议的编辑我正在尝试使用 WinAPI 和 C 列出给定目录中的所有目录文件夹现在我的算法又慢又低效使用 FindFirstFileEx 打开我正在搜索的文件夹然后我查看目录中的每个文件使用 FindNex
如何计算排列？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个关于 Java 排列的问题 Suppose I have five different elements in an arra
我正在尝试寻找“调酒师算法”

我正在解决旧编程竞赛中的一些示例问题在这个问题中我们输入了我们有多少调酒师以及他们知道哪种配方每杯鸡尾酒的制作时间为 1 分钟我们需要计算是否可以在 5 分钟内使用所有调酒师完成订单解决这个问题的关键是尽可能高效地分配鸡尾酒这就
如何优化分割重叠范围？

我编写的这个 Python 脚本用于将重叠范围拆分为唯一范围最后一次迭代 https codereview stackexchange com questions 285932 python script to split overlap
依赖解析算法

我正在编写一个包管理器为此我希望依赖项解析尽可能强大每个包都有一个版本列表每个版本包含以下信息具有可比性的 ID 依赖关系软件包列表以及每个软件包的一组可接受的版本冲突软件包列表以及每个软件包的一组与该版本一起导致问题的版本
pytesseract 无法从图像中识别复杂的数学公式

我在用pytesseractpython 中的模块 pytesseract从图像中识别文本但它不适用于包含复杂数学公式例如根推导积分数学问题或方程的图像代码2 py Import modules from PIL import

随机推荐

在 moment.js 中本地化日期和月份 [重复]

这个问题在这里已经有答案了如何在 moment js 中本地化当前日期和月份没有年份我想要的正是输出moment format LL 但没有年份部分考虑以下示例 moment locale tr format LL 1 Hazira
如何在单引号字符串中使用变量？

如何回显单引号内的变量 echo test text here is some test text counter output gt gt FILE 变量在双引号字符串中扩展但在单引号字符串中不扩展 name World echo He
在设备驱动程序中使用 select()/poll()

我有一个驱动程序它可以处理多个 TCP 连接有没有一种方法可以在给定列表的情况下执行类似于内核中用户空间应用程序 api 的 select poll epoll 的操作struct sock s Thanks 您可能想编写自己的自定义s
MATLAB 类对象未更新

我正在编写一个简单的 MATLAB 类它具有一些属性和一个方法类的构造函数使用默认值初始化属性类的方法在类被构造之后获得额外的输入以更新类属性 classdef classTest properties p1 p2 p3 p4 end
如何使用 css 代码单独设置 gtk 小部件的样式

在这之后GTK 将字体更改为旋转按钮 https stackoverflow com questions 47083294 gtk change font to spin button和这个为什么 CSS 样式没有应用于 GTK 代码 ht
如何使用文本操作

使用目的是什么文本动作 http docs oracle com javase 6 docs api javax swing text TextAction html from 抽象动作 http docs oracle com javas
将cpp文件添加到cocos2d-x项目android项目中

我已按照本教程进行操作http www raywenderlich com 33750 cocos2d x tutorial for ios and android getting started http www raywenderlic
Facebook Graph API：如何获取评论中的“来自”字段

我有一个尚未发布的 Facebook 应用程序测试模式我使用页面访问令牌从我自己页面上特定帖子的评论中提取来自字段但它返回空字段这是我的图形 API 查询 gt post id comments fields from 当我使用
给单元格着色 Google Chart - 散点图

我在我的一个项目中使用谷歌图表我需要使用以下代码为谷歌散点图中的一组单元格着色我在用google visualization arrayToDataTable用于处理数据以下是我的代码 div div
在 Android 中使用 Service 作为单例

创建一个不好的做法吗 Service作为单身人士工作我的意思是一个Service它永远不会停止并且包含一些其他引擎和Activities会使用所以Service可能有类似的东西 public class CustomService e
对空间数据使用简单的 for 循环

抱歉这将是一个 for 循环 101 问题我正在努力编写一个简单的 for 循环来根据经度纬度数据生成城市之间的距离表 locations lt read csv distances csv Locations 返回下表 City Ty
具有自由 CORS 政策的公开托管图像？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在做一些将图像加载到画布上的测试并且正在使用私下里在我们的 aws cdn 上托管图像这个 c
如何找到 ROI 并检测内部标记？

我是计算机视觉的初学者我有一个关于检测和跟踪的问题我想检测下图中的白色矩形以确定感兴趣的区域并检测红色标记的轮廓但我不想利用颜色信息来检测标记谁能给我关于如何做到这一点的建议如果您只想检测圆圈则可以使用经过调整的霍夫变换 ht
具有有序索引的 R 向量-向量匹配

这里我有两个字符串向量它们的顺序很重要并且无法更改 vec1 lt c carrot carrot carrot apple apple mango mango cherry cherry vec2 lt c cherry apple 我
可通过属性名称或索引选项访问的结构

我对 Python 非常陌生并试图弄清楚如何创建一个具有可通过属性名称或索引访问的值的对象例如 os stat 返回 stat result 或 pwd getpwnam 返回 struct passwd 的方式在试图弄清楚这一点时
alloca可以完全替代吗？

我读过很多地方alloca已过时不应使用而应使用可变长度数组我的问题是这样的是alloca完全可以用变长数组代替在我的特定实例中我有一些看起来像这样的东西 typedef struct int value size t size
如何在 Kotlin 中编写以下代码来实现回调

我如何像java一样用Kotlin编写 Callback callback new Callback Override public void getCallback ServerResponse serverResponse var ca
基于 RCP 的应用程序的 P2 更新失败

我尝试通过 P2 更新站点更新基于 Eclipse RCP 3 5 的应用程序该应用程序包含两个功能产品是由Eclipse Buckminster P2 更新站点的创建是产品构建的一部分当通过菜单开始更新时 Update gt Che
为什么这个未使用的 self.hash 方法会导致“无法将字符串转换为整数”错误？

我正在跑过Lynda Rails 3 教程 http www lynda com Ruby on Rails 3 tutorials essential training 55960 2 html 在某一时刻在名为 access cont
如何检测重复数据？

我有一个简单的联系人数据库但用户输入重复数据时遇到问题我已经实现了一个简单的数据比较但不幸的是输入的重复数据并不完全相同例如姓名拼写错误或者一个人输入 Bill Smith 另一个人输入 William Smith 表示同一个

如何检测重复数据？

如何检测重复数据？ 的相关文章

随机推荐

热门标签

如何检测重复数据？的相关文章