单个列表中的近似字符串匹配 - r

2024-02-06

我在一个长列表中包含数千个名字的数据框中列出了一个列表。许多名称都有细微的差别，这使得它们略有不同。我想找到一种方法来匹配这些名字。例如：

names <- c('jon smith','jon, smith','Jon Smith','jon smith et al','bob seger','bob, seger','bobby seger','bob seger jr.')

我看过amatch in the stringdist函数，以及agrep，但这些都需要一个主名单 https://stackoverflow.com/questions/5721883/agrep-only-return-best-matches用于匹配另一个名称列表。就我而言，我没有这样的主列表，因此我想通过识别具有高度相似模式的名称来从数据中创建一个主列表，这样我就可以查看它们并确定他们是否是同一个人（在许多情况下）情况就是如此）。我想要一个新列中的输出，帮助我知道这些是可能的匹配，并且可能是基于编辑距离或其他东西的某种相似性分数。也许是这样的：

            names   match      SimilarityScore
1       jon smith     a               9
2      jon, smith     a               8
3       Jon Smith     a               9
4 jon smith et al     a               5
5       bob seger     b               9
6      bob, seger     b               8
7     bobby seger     b               7
8   bob seger jr.     b               5

这样的事情可能吗？

根据发现的帖子here https://stackoverflow.com/questions/21511801/text-clustering-with-levenshtein-distances/21513338#21513338我发现分层文本聚类可以满足我的需求。

  names <- c('jon smith','jon, smith','Jon Smith','jon smith et al','bob seger','bob, seger','bobby seger','bob seger jr.','jake','jakey','jack','jakeyfied')

# Levenshtein Distance
e  <- adist(names)
rownames(e) <- names
hc <- hclust(as.dist(e))
plot(hc)
rect.hclust(hc,k=3) #the k value provides the number of clusters
df <- data.frame(names,cutree(hc,k=3))

如果您选择正确数量的簇（本例中为三个），输出看起来非常好：

                       names             cutree.hc..k...3.
jon smith             jon smith                 1
jon, smith           jon, smith                 1
Jon Smith             Jon Smith                 1
jon smith et al jon smith et al                 1
bob seger             bob seger                 2
bob, seger           bob, seger                 2
bobby seger         bobby seger                 2
bob seger jr.     bob seger jr.                 2
jake                       jake                 3
jakey                     jakey                 3
jack                       jack                 3
jakeyfied             jakeyfied                 3

然而，名字往往比这更复杂，在添加了一些更难的名字后，我发现默认的adist选项没有给出最佳的聚类：

names <- c('jon smith','jon, smith','Jon Smith','jon smith et al','bob seger','bob, seger','bobby seger','bob seger jr.','jake','jakey','jack','jakeyfied','1234 ranch','5678 ranch','9983','7777')

d  <- adist(names)
rownames(d) <- names
hc <- hclust(as.dist(d))
plot(hc)
rect.hclust(hc,k=6)

我能够通过将替换值的成本增加到 2 并将插入和删除成本保留为 1 并忽略大小写来对此进行改进。这有助于最大限度地减少完全不同的四个字符数字字符串的错误分组，而我不想将其分组：

d  <- adist(names,ignore.case=TRUE, costs=c(i=1,d=1,s=2)) #i=insertion, d=deletion s=substitution
rownames(d) <- names
hc <- hclust(as.dist(d))
plot(hc)
rect.hclust(hc,k=6

我通过使用以下命令删除“牧场”和“等人”等常用术语来进一步微调聚类gsub工具在grep打包并将簇数加一：

names<-gsub("ranch","",names)
names<-gsub("et al","",names)
d  <- adist(names,ignore.case=TRUE, costs=c(i=1,d=1,s=2))
rownames(d) <- names
hc <- hclust(as.dist(d))
plot(hc)
rect.hclust(hc,k=7)

虽然有方法可以让数据整理出最佳的簇数，而不是手动尝试挑选数字，但我发现使用试错法是最简单的，虽然有资料关于这种方法 https://stackoverflow.com/a/15376462/1203041.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

单个列表中的近似字符串匹配 - r 的相关文章

如何从R中的日期中提取月份

我正在使用lubridate封装并应用month从日期中提取月份的函数我在日期字段上运行了 str 命令得到了 Factor w 9498 levels 01 01 1979 01 01 1980 5305 1 1 1 1 1 1 1
Django 中的 Rpy2 错误 - 未为“”类型的对象定义转换“py2rpy”

我以前从未使用过 R 并且正在尝试使用 rpy2 从 python 调用 R 函数它可以在独立的 python 终端上运行但不能在 Django 中运行但rpy2似乎无法将python字符串转换为r对象我正在使用同事提供的自定义库
回归时如何设置系数值；右

我正在寻找一种指定预测变量值的方法当我使用当前数据运行 glm 时其中一个变量的系数接近 1 我想将其设置为 0 8 我知道这会给我一个较低的 R 2 值但我先验地知道模型的预测能力会更大 glm 的权重组件看起来很有希望但我还没有
将不同的 grViz 组合成一个图

我想结合不同的DiagrammeR绘制成一个图形生成的图如下例所示 library DiagrammeR pDia lt grViz digraph boxes and circles a graph statement graph ov
R闪亮主面板显示样式和字体

我正在学习闪亮的应用程序并且有一些关于调整布局的基本问题特别是样式和字体希望得到指点或明确的答案谢谢考虑一个基本的输入输出应用程序用户在 sidebarPanel 中输入数据然后在 mainPanel 中反应性地输出结果如何
如何使用 R 中的函数 sqlSave() 将数据附加到具有 IDENTITY 主键的 SQL Server 表？

我在SQL Server中创建了一个表如下所示 CREATE TABLE testPK ID INT NOT NULL IDENTITY 1 1 PRIMARY KEY NumVal NUMERIC 18 4 现在我想使用 RODBC 函
R闪亮：使用闪亮的JS从数据表中获取信息

我想读出所有列名称以及它们在数据表中显示的顺序由于不同的原因我无法使用 stateSave 等选项我对 JS 没有什么把握但我确信用它可以完成所以我需要你帮助我我尝试过类似的代码片段 datatable data callbac
删除缺失的数据值

我删除了原始帖子以便能够发布更大版本的数据集实际上总共有 418 行这是我正在进行的生存分析的数据第一列是 ID 号其他列标记为 V2 V20 有很多缺失的数据用表示我用coxph 函数来获取以下内容 Saves survi
R data.table 多个条件连接

我设计了一种解决方案用于从两个单独数据表的多个列中查找值并添加基于新列的值计算多个条件比较代码如下它涉及在计算两个表中的值时使用 data table 和联接但是这些表没有联接在我正在比较的列上因此我怀疑我可能无法获得 da
R：ifelse 中的字符串列表

我正在寻找与 MySQL 中的 where var in 语句类似的东西我的代码如下 data lt data frame id 10001 10030 cc1 rep c a b c 10 attach data data new lt
RStudio 不会通过 rPython 调用加载所有 Python 模块

我从 Bash 和 RStudio 中运行相同的脚本时出现一些意外行为请考虑以下事项我有一个文件夹 rpython 包含两个脚本 test1 R library rPython setwd rpython python load tes
R Leaflet Legend：colorBin-删除中断之间的小数

我正在使用 Leaflet 库在 R 中创建交互式 HTML 地图传说中采用的是colorBin用于创建将数据分为 6 个类别的方法使用min values and max values 我已经定义了美国社区调查收入数据的特定范围可能落
通过 R 中的数据子集执行计算

我想对数据框的 PERMNO 列中的每个公司编号进行计算其摘要可以在此处查看 gt summary companydataRETS PERMNO RET Min 10000 Min 0 971698 1st Qu 32716 1st Qu
更改 pander 中的默认对齐方式 (pandoc.table)

我目前正在切换到pander对于我的大部分时间knitr markdown格式化因为它提供了如此出色的pandoc支持我不太满意的一件事是默认的居中对齐营销人员可能会喜欢它但对于技术报告来说这是一个可怕的事情使用的最佳选择Hmis
按不规则时间间隔对数据进行分组求和（R语言）

我正在看这里的 stackoverflow 帖子 R 计算一组内的观察次数 https stackoverflow com questions 65366412 r count number of observations within a
如何在 R 中将字符串解析为层次结构或树

有没有办法将表示组的字符串解析为 R 中的层次结构假设我的小组结构如下 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 3 1 1 3 1 1 1 3 2 1 1 3 3 1 2 1 2 1 1 2 1 1 1 2 1 2 1
排序因素与水平

有人能解释一下 R 中 ordered 参数的用途吗 R says ordered逻辑标志来确定级别是否应被视为有序按给定的顺序所以如果我有一个名为名称的因素并设置ordered TRUE names lt factor c fred
从 R 中的方差分析 (glm) 中提取残余偏差

我在 R 中安装了一个 glm 模型并采用了方差分析表我需要提取残余偏差列但它会产生错误以下是代码创建数据 counts lt c 18 17 15 20 10 20 25 13 12 outcome lt gl 3 1 9 t
不同 R/lme4 版本的单一拟合结果不匹配

我试图将 R 版本 3 5 3 lme4 1 1 18 1 的随机效应估计与 R 版本 4 1 1 lme4 1 1 27 1 相匹配然而当存在奇异拟合时这两个版本之间的随机效应存在微小差异我对奇点警告很满意但令人费解的是不同版本
通过使用 navbarPanel() 并隐藏导航栏构建多页闪亮应用程序用户端（在 ui.R 中）？

我想构建一个多页闪亮应用程序我可以在其中控制用户可以看到哪个页面迪安阿塔利确实这个演示应用程序中有类似的东西 https github com daattali advanced shiny tree master multiple

随机推荐

如何只更新具有特定 ID 的 NuGet 包？

根据NuGet 文档 http docs nuget org docs reference command line reference Update Command 更新命令将软件包更新到最新的可用版本这命令还会更新 NuGet e
如果为空，如何 POST 空的