通过名称模糊匹配创建唯一 ID（通过使用 R 的 agrep）

2023-11-24

使用 R，我尝试匹配按年份和城市构建的数据集中的人名。由于一些拼写错误，不可能进行精确匹配，因此我尝试使用 agrep() 来模糊匹配名称。

数据集的样本块的结构如下：

df <- data.frame(matrix( c("1200013","1200013","1200013","1200013","1200013","1200013","1200013","1200013",                             "1996","1996","1996","1996","2000","2000","2004","2004","AGUSTINHO FORTUNATO FILHO","ANTONIO PEREIRA NETO","FERNANDO JOSE DA COSTA","PAULO CEZAR FERREIRA DE ARAUJO","PAULO CESAR FERREIRA DE ARAUJO","SEBASTIAO BOCALOM RODRIGUES","JOAO DE ALMEIDA","PAULO CESAR FERREIRA DE ARAUJO"), ncol=3,dimnames=list(seq(1:8),c("citycode","year","candidate")) ))

简洁的版本：

  citycode year                      candidate
1  1200013 1996      AGUSTINHO FORTUNATO FILHO
2  1200013 1996           ANTONIO PEREIRA NETO
3  1200013 1996         FERNANDO JOSE DA COSTA
4  1200013 1996 PAULO CEZAR FERREIRA DE ARAUJO
5  1200013 2000 PAULO CESAR FERREIRA DE ARAUJO
6  1200013 2000    SEBASTIAO BOCALOM RODRIGUES
7  1200013 2004                JOAO DE ALMEIDA
8  1200013 2004 PAULO CESAR FERREIRA DE ARAUJO

我想分别查询一下每个城市，几年内是否有候选人出现。例如。在示例中，

保罗·塞萨尔·费雷拉·德·阿劳霍

保罗·塞萨尔·费雷拉·德·阿劳霍

出现两次（有拼写错误）。整个数据集中的每个候选者都应分配一个唯一的数字候选者 ID。该数据集相当大（5500 个城市，大约 100K 条目），因此稍微有效的编码会有所帮助。关于如何实施这一点有什么建议吗？

编辑：这是我的尝试（在迄今为止的评论的帮助下），它在完成手头的任务方面非常缓慢（效率低下）。对此有什么改进建议吗？

f <- function(x) {matches <- lapply(levels(x), agrep, x=levels(x),fixed=TRUE, value=FALSE)
                  levels(x) <- levels(x)[unlist(lapply(matches, function(x) x[1]))]
                  x
                }

temp <- tapply(df$candidate, df$citycode, f, simplify=TRUE)
df$candidatenew <- unlist(temp)
df$spellerror <- ifelse(as.character(df$candidate)==as.character(df$candidatenew), 0, 1)

编辑2：现在运行速度很快。问题在于每一步都要与许多因素进行比较（感谢 Blue Magister 指出这一点）。将比较减少为仅与一组（即一个城市）中的候选者进行比较，可以在 5 秒内运行命令 80,000 行 - 这是我可以接受的速度。

df$candidate <- as.character(df$candidate)

f <- function(x) {x <- as.factor(x)
                  matches <- lapply(levels(x), agrep, x=levels(x),fixed=TRUE, value=FALSE)
                  levels(x) <- levels(x)[unlist(lapply(matches, function(x) x[1]))]
                  as.character(x)
                }

temp <- tapply(df$candidate, df$citycode, f, simplify=TRUE)
df$candidatenew <- unlist(temp)
df$spellerror <- ifelse(as.character(df$candidate)==as.character(df$candidatenew), 0, 1)

这是我的尝试。它可能不是很有效，但我认为它可以完成工作。我假设df$candidates是阶级因素。

#fuzzy matches candidate names to other candidate names
#compares each pair of names only once
##by looking at names that have a greater index
matches <- unlist(lapply(1:(length(levels(df[["candidate"]]))-1),
    function(x) {max(x,x + agrep(
        pattern=levels(df[["candidate"]])[x], 
        x=levels(df[["candidate"]])[-seq_len(x)]
    ))}
))
#assigns new levels (omits the last level because that doesn't change)
levels(df[["candidate"]])[-length(levels(df[["candidate"]]))] <- 
    levels(df[["candidate"]])[matches]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

通过名称模糊匹配创建唯一 ID（通过使用 R 的 agrep）的相关文章

如何在 switch 语句中将向量作为参数传递

我对问题的谷歌搜索没有返回有用的结果和文档 switch没有告诉我如何做所以我希望我能在这里得到答案假设我有一个向量 cases lt c one two three 我想使用 switch 语句并将这些元素作为 switch 语句的参
自定义 colorRampPalette 中的颜色条

我定义了一个 colorRampPalette my colors colorRampPalette c light green yellow orange red 如何为其绘制颜色条图例项目最好仅使用基本包我正在寻找一个充满该颜色
Openxlsx 多次验证损坏输出文件

我正在尝试添加多个验证并将公式添加到 Excel 文件这是我使用的代码 library openxlsx fileTemplate lt New01 xlsx wbTemplate lt loadWorkbook fileTemplate
选择一个单元格内的最小值或最大值（分隔字符串）

我有一个数据框其中每个样本的列可以有多个值例如 Gene Pvalue1 Pvalue2 Pvalue3 Beta Ace 0 0381 0 00357 0 01755 0 001385 0 0037 NA 0 039 0 03 1 1
如何管理和处理 R 包中的补充数据

我想在我的 R 包中添加补充数据我知道关于LazyData true in DESCRIPTION 但不想使用它因为示例数据相当大所以我创建了一个目录 data 其中包含两个 RData文件和一个datalist 我添加使用tools
Rstudio 命令历史记录

这些天我经常使用 Rstudio 但最近注意到我的命令不再存储在历史记录中我不知道这是从什么时候开始的但可能是在安装最新版本时发生的关于问题可能是什么的任何想法吗 Thanks 这是我们在 v0 93 73 中引入并在 v0 93 7
如何加速 R for 循环？

我正在为 R 中 GWmodel 包中的 gwr basic 函数运行以下 for 循环我需要做的是收集任何给定带宽的估计参数的平均值代码如下 library GWmodel data DubVoter Dub voter LARent
字边界正则表达式问题

我在使用单词边界时遇到问题 b在我的正则表达式中我正在使用 R 但当我尝试时问题也存在http regexr com http regexr com 我使用的模式是 bs l b 虽然我预计下面的第 1 行和第 3 行能够匹配此模式但只
lmer（来自 R 包 lme4）如何计算对数似然？

我试图理解 lmer 函数我发现了很多关于如何使用该命令的信息但关于它实际执行的操作的信息却很少除了这里的一些神秘注释 http www bioconductor org help course materials 2008 PHSI
如何在 R 中的另一个函数中使用 `sink` 函数？

我有一个函数fun依赖于外部函数external 即来自某个包我如何收集来自的所有警告external在字符向量中这是一个最小的设置 External function from another package external lt
R：使用带有 .Call 和 C/C++ 包装器的 Fortran 子例程而不是 .Fortran 的优点？

我有一个 R 包它使用大量 Fortran 子例程来进行递归线性代数计算的嵌套循环很大程度上依赖于 BLAS 和 LAPACK 例程作为 Fortran 的接口我使用 Fortran功能我刚刚读过乔纳森卡拉汉的博客文章 http
循环中的knitr模板和子文档

圣诞节前我之前问过跨多个 knitr 文档的单一样式表 https stackoverflow com questions 20370584 single style sheet across multiple knitr document
使用 R 读取和转换二进制原始数据

我有一个file https drive google com file d 0BxMpk0nhnJy6SFhxd2xuMzJYYlk edit usp sharing其中包含原始二进制数据和 ascii 它包含一个时间戳和一个代表速度的
R 中的转换会导致文档错误

每当我运行此代码时 tm map 行都会给我警告消息警告信息在 tm map SimpleCorpus docs toSpace 中转换删除文档 texts lt read csv Data fast food Domino s Do
使用pivot_longer将R中的多列变成一列[重复]

这个问题在这里已经有答案了我有一个dfpopulation看起来像这样未列出所有列和行 Region X1975 X1976 X1977 X2008 National Total 942420 93717 94974 132802 Be
按具有作业的组划分的 R 分位数

我有以下 df group rep seq 1 3 30 variable runif 90 5 0 7 5 df data frame group variable 我需要 i 按组定义分位数 ii 将每个人分配到相对于其组的分位数因此
使用 stargazer 分析包含时间序列的数据帧

我有一个面板数据集共 10 个观测值和 3 个变量观测值 30 的数量 10 行国家地区 2 列迁移参数相应年份的 1 列可以这么说我的数据框由 3 个年度数据框组成我该如何申请观星者考虑到它是一个面板数据集所以最大 N
分组和计数以获得接近值

我想计算每country的次数status is open以及次数status is closed 然后计算closerate per country Data customer lt c 1 2 3 4 5 6 7 8 9 country
栅格堆叠后如何写入？

我想操作几个光栅文件然后再次写入它们 rasterfiles lt list files C data envi full names TRUE d1 lt overlay stack rasterfiles fun function x
对于多项式，获取其所有极值并通过突出显示所有单调部分来绘制它

有人问我这个有趣的问题我认为值得将其发布在这里因为 Stack Overflow 上还没有任何相关线程假设我有长度为的多项式系数n vector pc 其中次数多项式n 1对于变量x可以以其原始形式表示 pc 1 pc 2 x pc

随机推荐

如何在vtk中以不同的颜色显示点云？

我有一个点云我想在 vtk 中可视化我想根据某些条件看到它们具有不同的颜色我正在使用Python 关于如何做到这一点有什么建议吗多谢下面是一个根据 z 轴值设置点颜色的示例 import vtk from numpy import
测试与非测试中的 Swift 和 CoreData Casting 问题

我在 Xcode 6 上使用 SwiftCoreData 我已阅读发行说明并看到了这个issue关于确保使用模块名称应用程序名称标记核心数据模型以便您可以投射NSManagedObject运行时的模型类型当我这样做时我可以让应用程
在 Python 中使用 FlexMock 模拟函数？

我知道如何使用 flexmock 在 Python 中模拟方法例如 flexmock subprocess should receive call replace with my func 一个模拟如何在对象之外发挥作用或者例如glob
将 C++ 成员函数指针传递给 STL 算法

我有一个成员函数如下 class XYZ public float function float x private float m DensityMin float m DensityMax 现在我正在努力改变一个std vector
Linux Open Suse“pyodbc.Error: ('01000',“[01000] [unixODBC][驱动程序管理器]无法打开 lib 'SQL Server': 文件未找到 (0) (SQLDriverConnect)")"

我知道以前有人问过这个问题但我从未真正得到可以解决我的问题的正确答案我正在尝试从 Linux Open Suse12 4 计算机连接到 Windows 计算机上的 SQL 服务器 pyodbc connect DRIVER SQL Se
如何在 mongoDB 中编写联合查询

是否可以使用类似于 SQL 查询的 2 个或更多集合在 Mongo DB 中编写联合查询我正在使用 spring mongo 模板在我的用例中我需要根据某些条件从 3 4 个集合中获取数据我们可以通过一次操作实现这一目标吗例如我
IIS8.5自动更改物理路径属性

我在 IIS8 5 中的默认网站下添加了几个应用程序仅端口 80 IP 上的 http 它们指向不同的物理路径不是嵌套的并且在添加此类应用程序后效果很好但过了一会儿其中一个应用程序的物理路径会自动更改为另一个应用程序的物理路径为
在 Javascript 闭包中访问“this”

这更像是一次健全性检查我发现在 Javascript 中使用闭包时我经常使用以下模式从函数内访问封闭类 MyClass prototype delayed foo function var self this setTimeout fu
Grep 并打印返回引用

我有这个 iptable 日志 Feb 25 10 32 48 XXX 414645 555838 FW DEN TCP IN eth0 OUT MAC XYZ SRC 1 1 1 1 DST 2 2 2 2 LEN 40 TOS 0x00
如何求椭圆的半轴长度？在R中

我有这组 x 和 y 坐标 x lt c 1 798805 2 402390 2 000000 3 000000 1 000000 y lt c 0 3130147 0 4739707 0 2000000 0 8000000 0 10000
WCF 中出现带有“无法识别序列”消息的 CommunicationException

我在使用 WCF 服务时收到 CommunicationException 消息是远程端点不再识别该序列这很可能是由于远程端点上的中止造成的 wsrm Identifier 的值不是已知的序列标识符可靠会话出现故障调用合约方法后不久
包括换行符在内的任何字符 - Java Regex

我想这可能是 n 但这似乎不起作用点不能在字符类内部使用查看选项图案 DOTALL Pattern DOTALL启用 dotall 模式在 dotall 模式下表达式匹配任何字符包括行终止符默认情况下此表达式不匹配行终止符
调用 dlclose(NULL) 安全吗？

当我经过某个地方时我经历了一次车祸null指向dlclose 我应该在调用之前检查 null 吗dlclose POSIX 对此没有任何说明 http pubs opengroup org onlinepubs 7908799 xsh d
每行具有动态列数的 GridView

如何在 a 的帮助下重新创建以下视图GridView 列表中的项目数是动态的我猜想这不是单个GridView而是多个Layout的组合只需制作一个 LinearLayout 并根据内容决定您想要在一行中使用哪种布局
尝试通过 FTP 传输带有特殊字符的文件

我有代码 FtpWebRequest request FtpWebRequest FtpWebRequest Create url request Method WebRequestMethods Ftp DownloadFile requ
如何将联系人或短信作为 .xml 文件或 .csv 文件备份到 SD 卡并在以后恢复

我正在尝试在我的应用程序中开发一项功能将短信和联系人以 xml 或 csv 格式备份到 SD 卡并在以后恢复所以请任何人给我一些建议或一些示例代码或与此相关的任何资源链接提前致谢 public ArrayList
Django 中 Pisa 的 pdf 生成未渲染 CSS

我使用 Pisa 从 HTML 生成 pdf 文件 def fetch resources uri rel path os path join settings MEDIA ROOT uri replace settings MEDIA U
Sinatra 如何定义和调用 get 方法？

我很好奇这东西是如何工作的在需要 sinatra 之后然后我可以在顶级范围内调用 get 深入研究源代码后我发现了这个 get 结构 module Sinatra class lt lt self def get end end en
strstr 的纯字节版本？

是否有一个 strstr 版本可以在可能包含空字符的固定长度内存上工作我可以这样表达我的问题 strncpy 与 memcpy 的关系与 strstr 的关系相同 memmem 不幸的是它是 GNU 特定的而不是标准 C 但是它是开源的
通过名称模糊匹配创建唯一 ID（通过使用 R 的 agrep）

使用 R 我尝试匹配按年份和城市构建的数据集中的人名由于一些拼写错误不可能进行精确匹配因此我尝试使用 agrep 来模糊匹配名称数据集的样本块的结构如下 df lt data frame matrix c 1200013 12000

通过名称模糊匹配创建唯一 ID（通过使用 R 的 agrep）

通过名称模糊匹配创建唯一 ID（通过使用 R 的 agrep） 的相关文章

随机推荐

热门标签

通过名称模糊匹配创建唯一 ID（通过使用 R 的 agrep）的相关文章