R 中的模糊合并 - 寻求帮助来改进我的代码

2024-01-11

受到实验的启发fuzzy_join函数从statar https://github.com/matthieugomez/statar我自己编写了一个函数，它结合了精确匹配和模糊匹配（按字符串距离）。我必须做的合并工作相当大（导致多个字符串距离矩阵，单元格略少于十亿），我的印象是fuzzy_join函数的编写效率不高（就内存使用而言），并且并行化以一种奇怪的方式实现（如果存在多个模糊变量，则字符串距离矩阵的计算，而不是字符串距离本身的计算是并行化的）。至于fuzzy_join函数的想法是如果可能的话匹配精确的变量（以保持矩阵更小），然后在这个精确匹配的组中进行模糊匹配。我实际上认为该功能是不言自明的。我把它发布在这里是因为我想得到一些反馈来改进它，并且因为我想我不是唯一一个尝试在 R 中做类似事情的人（尽管我承认 Python、SQL 和类似的东西可能会在这种情况下会更有效率。但是我们必须坚持做自己感觉最舒服的事情，并且用同一种语言进行数据清理和准备对于可重复性来说是很好的）

merge.fuzzy = function(a,b,.exact,.fuzzy,.weights,.method,.ncores) {
    require(stringdist)
    require(matrixStats)
    require(parallel)

    if (length(.fuzzy)!=length(.weights)) {
        stop(paste0("fuzzy and weigths must have the same length"))
    }

    if (!any(class(a)=="data.table")) {
        stop(paste0("'a' must be of class data.table"))
    }

    if (!any(class(b)=="data.table")) {
        stop(paste0("'b' must be of class data.table"))
    }

    #convert everything to lower
    a[,c(.fuzzy):=lapply(.SD,tolower),.SDcols=.fuzzy]
    b[,c(.fuzzy):=lapply(.SD,tolower),.SDcols=.fuzzy]

    a[,c(.exact):=lapply(.SD,tolower),.SDcols=.exact]
    b[,c(.exact):=lapply(.SD,tolower),.SDcols=.exact]

    #create ids
    a[,"id.a":=as.numeric(.I),by=c(.exact,.fuzzy)]
    b[,"id.b":=as.numeric(.I),by=c(.exact,.fuzzy)]


    c <- unique(rbind(a[,.exact,with=FALSE],b[,.exact,with=FALSE]))
    c[,"exa.id":=.GRP,by=.exact]

    a <- merge(a,c,by=.exact,all=FALSE)
    b <- merge(b,c,by=.exact,all=FALSE)

    ##############

    stringdi <- function(a,b,.weights,.by,.method,.ncores) {
        sdm      <- list()

        if (is.null(.weights)) {.weights <- rep(1,length(.by))}

        if (nrow(a) < nrow(b)) {
            for (i in 1:length(.by)) {
                sdm[[i]] <- stringdistmatrix(a[[.by[i]]],b[[.by[i]]],method=.method,ncores=.ncores,useNames=TRUE)
            }
        } else {
            for (i in 1:length(.by)) { #if a is shorter, switch sides; this enhances  parallelization speed
                sdm[[i]] <- stringdistmatrix(b[[.by[i]]],a[[.by[i]]],method=.method,ncores=.ncores,useNames=FALSE)
            }
        }

        rsdm = dim(sdm[[1]])
        csdm = ncol(sdm[[1]])
        sdm  = matrix(unlist(sdm),ncol=length(by))
        sdm  = rowSums(sdm*.weights,na.rm=T)/((0 + !is.na(sdm)) %*% .weights)
        sdm  = matrix(sdm,nrow=rsdm,ncol=csdm)

        #use ids as row/ column names
        rownames(sdm) <- a$id.a
        colnames(sdm) <- b$id.b

        mid           <- max.col(-sdm,ties.method="first")
        mid           <- matrix(c(1:nrow(sdm),mid),ncol=2)
        bestdis       <- sdm[mid] 

        res           <- data.table(as.numeric(rownames(sdm)),as.numeric(colnames(sdm)[mid[,2]]),bestdis)
        setnames(res,c("id.a","id.b","dist"))

        res
    }

    setkey(b,exa.id)
    distances = a[,stringdi(.SD,b[J(.BY[[1]])],.weights=.weights,.by=.fuzzy,.method=.method,.ncores=.ncores),by=exa.id]

    a    = merge(a,distances,by=c("exa.id","id.a"))
    res  = merge(a,b,by=c("exa.id","id.b"))


    res
}

以下几点会很有趣：

我不太确定如何在中编写多个完全匹配的变量data.table我上面使用的样式（我认为这是最快的选择）。
是否可以进行嵌套并行化？这意味着可以在计算字符串距离矩阵的基础上使用并行的 foreach 循环。
我也对提高整个事情效率的想法感兴趣，即消耗更少的内存。
也许您可以建议一个更大的“现实世界”数据集，以便我可以创建一个可行的示例。不幸的是，我无法与您分享哪怕是一小部分数据样本。
将来，除了经典的左内连接之外，做一些其他的事情也很好。因此，关于这个主题的想法也非常受欢迎。

欢迎您提出宝贵意见！

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

R 中的模糊合并 - 寻求帮助来改进我的代码的相关文章

无法更新/编辑从 R 中的包（`gratia`）导出的 ggplot2 对象

我希望我在这里遗漏了一些令人痛苦的明显的东西我希望更新例如修复标题实验室等由生成的 ggplot 对象gratia draw 不太确定为什么我无法更新该对象有一个简单的解决方案吗 devtools install github
randomForest 包在删除一个预测类时的奇怪行为

我正在运行一个随机森林模型它产生的结果从统计角度来看对我来说完全没有意义因此我确信有些东西mustrandomForest 包的代码出现错误至少在模型的本次迭代中预测左侧变量是具有 3 种可能结果的政党 ID 民主党独立党共和
R、Rcpp 与 Armadillo 中矩阵 rowSums() 与 colSums() 的效率

背景来自 R 编程我正在扩展到 C C 形式的编译代码Rcpp 作为循环交换以及一般的 C C 效果的实践练习我实现了 R 的等效项rowSums and colSums 矩阵的函数Rcpp 我知道它们以 Rcpp 糖的形式存在并
如何对数字进行四舍五入并使其显示零？

R 中将数字四舍五入到小数点后 2 位的常用代码是 gt a 14 1234 gt round a digits 2 gt a gt 14 12 但是如果该数字的前两位小数位为零则 R 会在显示中抑制零 gt a 14 0034 gt
将 ftransform 与折叠 R 包中的 fgroup_by 一起使用

我正在尝试重现以下输出dplyr代码与R包裹collapse dplyr Code library tidyverse starwars gt select name mass species gt group by species gt
R 可以创建带有可单击条形图的条形图图像以插入网页吗？

我知道如何创建条形图以及如何将其粘贴在网页上例如使用hwriteImage in the 作家包 http www embl de gpau hwriter 我想要的是每个栏都是一个在鼠标悬停时突出显示的区域并且每个栏在单击时都有不
使用officer R导出时如何提高ggplots的分辨率

我想将图表导出到 PPT 并使用Officer 包来实现相同的目的但是图表的默认分辨率较低我想更改它我目前正在使用以下电话 ph with gg p1 type chart res 1200 其中 p1 是 ggplot 对象运行
R 闪亮仪表板中的动态重复条件面板

我正在尝试创建一个动态条件面板所以我的条件如下在用户界面中输入 selectInput inpt Input Number seq 1 50 1 selectize FALSE 我的条件面板 UI 输入是 conditionalPane
picker输入字体或背景颜色

我在闪亮的仪表板中使用 pickerInput 这很好除了一个问题背景颜色和字体颜色太相似使得过滤器选择难以阅读有什么办法可以改变背景或字体颜色吗如果可能的话我想继续使用 pickerInput 但如果有一个带有 selectI
如何纠正 data.frame 上的字符编码

我有一个像这样的数据框 data names lt data frame DATA c 1 5 rownames data names lt c IV xc1N JOS xc9 LUC xcdA RAM xd3N TO xd1O data
我可以使用哪个 R 函数来查找两条线的交点？

我刚刚研究了 stackoverflow 上所有的在 R 中寻找交集问题它们要么是关于曲线要么是关于分布像这个 https stackoverflow com questions 20519431 finding point of
sapply - 保留列名称

我试图总结数据集中许多不同列变量的平均值标准差等我已经编写了自己的汇总函数以准确返回我需要和正在使用的内容sapply立即将此函数应用于所有变量它工作正常但是返回的数据帧没有列名我似乎甚至无法使用列号引用重命名它们也就是说
在 RcppArmadillo 中将列向量乘以数值标量

我在编译这个简单的程序时遇到一些麻烦c 代码使用Rcpp和RcppArmadillo包裹采用以下简单示例将矩阵的每一列乘以数值标量 code lt arma mat out Rcpp as
闪亮的应用程序包：css 和所有 www/ 目录内容

我正在尝试将 Shiny 应用程序转换为 R 包但我在处理有关 www 目录以及松散文件的所有问题时遇到了问题我闪亮的应用程序运行得很好但是当我尝试打包它时它不起作用我闪亮的应用程序目录 my shiny app R ut
如何声明包含 M 个元素的列表对象

我想声明一个包含 M 3 x 3 矩阵的列表如果我事先知道数字 M 那么我可以通过以下方式声明这样的列表 elm lt matrix NA 3 3 Say M 7 myList lt list elm elm elm elm elm el
R在Windows平台Rstudio上打印data.frames中的UTF-8代码

当数据框中存在UTF 8字符时将无法正常显示例如以下内容是正确的 gt U6731 1 朱但是当我将其放入数据框中并打印出来时它是 gt data frame x U6731 x 1
dplyr：连接中的 NSE (by)

我很难弄清楚如何使用 dplyr left join 和 NSE 连接两个表问题是我无法为 by 提供正确的值我想我现在已经找到了解决方案但感觉我正在以一种额外复杂的方式来做因此如果您知道更简单更优雅的解决方案请告诉我这就是
R：按组，测试一个变量的每个值是否存在于另一个变量中

我有一个数据框架结构如下 a lt c 1 1 1 2 2 2 3 3 3 3 4 4 b lt c 1 2 3 1 2 3 1 2 3 4 1 2 c lt c NA NA 2 NA 1 1 NA NA 1 1 NA NA df lt
如何为自定义 S3 类实现提取/取子集 ([ [<-, [[ [[<-)] 函数？

我有一个自定义的 S3 类foo 它在正常的基础上添加了一些自定义行为data frame foo object lt data frame class foo object lt c foo data frame 对于这个类还应该有一个
ggplot：如何限制条形图中的输出，以便仅显示最频繁出现的情况？

我几个小时以来一直在寻找这个简单的东西但没有结果我有一个数据框其中一列为变量国家地区我想要两件事以下绘制最常见的国家地区最常见的位于顶部找到部分解决方案EDIT找到完整的解决方案 gt gt 重点问题是根据频率限制条形图

随机推荐

尽管使用了备忘录并且没有更改任何道具，但在功能组件中反应重新渲染子项

我有一个图标组件它绘制一个图标并且它正在闪烁因为父级正在让它重新渲染我不明白为什么会发生这种情况以及如何防止这种情况这里有一份小吃 https snack expo io sharcoux children rerendering
双问号（'??'）与 if 分配相同的变量时

参考以下内容SE答案 https stackoverflow com a 446839 799379 写作时 A A B 它是一样的 if null A A A else A B 这是否意味着 if null A A B 会是首选性能方面
代码优先迁移 MissingManifestResourceException

我目前正在为新数据库创建 InitialCreate 迁移我是这个迁移框架的新手不知道它到底生成什么我一直在运行update database要查看结果删除数据库然后运行update database进行一些更改后再次查看结果现在
DRF 测试客户端无法发布 JSON 列表

我创建了一个ListCreateAPIView 看起来像这样 13 class CartItemView generics ListCreateAPIView 14 serializer class CartItemSerializer 1
循环中出现“当其他无缓冲查询处于活动状态时无法执行查询”错误

我很抱歉问这个问题我读过很多类似的内容但从未找到可以成功实施的解决方案我发现的所有提示和技巧对我来说都没有用我有一个大型关联数组其中包含我想要使用带有 PDO 的存储过程将其插入到 mysql 数据库中的数据 data arr a
如何更改ContentDialog uwp的背景覆盖

我正在使用 VS2015 开发 UWP Win10 应用程序我正在使用 ContenDialog 显示模态窗口弹出窗口我需要更改 ContentDialog 的背景叠加颜色这个怎么做即使在内部样式中也没有选项属性我需要将覆盖白
Go - 如何从 PublicKey 生成 SSH PublicKey 指纹，PublicKey 的类型可能是 [ rsa dsa ssh-rsa ssh-dss ecdsa ] 之一

我只有一个 PublicKey 字符串如何获取 PublicKey 指纹我有一些想法https go review googlesource com c crypto 32814 https go review googlesource
GSSException：[..] 不支持/启用具有 HMAC SHA1-96 的加密类型 AES256CTS 模式

将域用户设置为支持 Kerberos 令牌的 AES 加密 Windows Server 2008R2 后在 Web 应用程序服务器端我们遇到以下异常 GSSException GSS API 级别未指定故障机制级别加密类型 AES
spring-boot中如何配置tomcat访问日志的位置和名称？

我有一个 spring boot 应用程序在 application yml 中具有以下配置 server contextPath rti tomcat access log enabled true access log pattern
在静态类中引用实例化对象 (c#)

我想知道是否可以让一个静态类实例化另一个类以全局保存对其的引用我有一个由内存中对象组成的数据存储并且希望从不同位置访问它数据需要保留对应用程序的更改因此需要在窗口或 UI 范围之外实例化我希望使用静态类来执行此操作是正确的方法这
为什么 LinkedIn API 返回“999：请求失败”消息？

我已经使用 LinkedIn API 一段时间了没有遇到任何问题但今天突然以前可以正常工作的调用开始失败 API 返回标题为 999 请求失败的 HTML 页面页面正文显示抱歉由于您的网络连接流量异常我们目前无法满足您的请求
R 根据参考列的最小值或最大值创建包含另一列的值的列

我觉得以前已经有人问过这个问题但我找不到描述我正在尝试做的事情的代表假设我有这个数据框 df lt data frame ID c 1 1 1 2 2 2 3 3 3 B c 34 54 17 2 25 89 23 93 90 C c
提交表格后清除表格[重复]

这个问题在这里已经有答案了可能的重复使用 jQuery 重置多阶段表单 https stackoverflow com questions 680241 resetting a multi stage form with jquery
使用以 SYSTEM 身份运行的 vb.net 应用程序，如何为每个登录用户启动一个分离的进程？

经过几周对这个主题的研究我终于决定开始自己的主题希望有经验的人可以提供帮助我在互联网上进行了搜索试图了解各种编码示例但在尝试将可行的解决方案组合在一起时却遇到了困难让我从一些背景开始背景我有一个 vb net 应用程序正在
List - 我是否传递对象或引用？

好吧我研究了泛型并有以下问题 List
在 codeigniter 中使用 Mysql WHERE IN 子句

我有以下 mysql 查询您能告诉我如何以 Codeigniter 的方式编写相同的查询吗 SELECT FROM myTable WHERE trans id IN SELECT trans id FROM myTable WHERE
设置 WPF 布局网格背景（每个单元格、行、列）的样式

我想知道是否有任何方法可以设置 WPF 布局网格的单元格行和列的样式我一直在尝试寻找任何信息但我发现的少数提及内容并没有那么丰富我想将网格样式设置为看起来像链接的屏幕截图中的网格如果实际控件不支持它我可以以某种方式继承它并执行吗
java.lang.IllegalStateException：找不到工厂 javax.faces.context.FacesContextFactory 的备份

我创建了 hello world JSF 项目但是当我部署到 Tomcat 7 时出现以下异常 java lang IllegalStateException Could not find backup for factory java
如何使用flutter发送带有URL_launcher包的短信？

您好我搜索一个简单的示例 Android 和 iOS 来使用此包发送短信 https pub dartlang org packages url launcher https pub dartlang org packages url l
R 中的模糊合并 - 寻求帮助来改进我的代码

受到实验的启发fuzzy join函数从statar https github com matthieugomez statar我自己编写了一个函数它结合了精确匹配和模糊匹配按字符串距离我必须做的合并工作相当大导致多个字符串距离矩阵

R 中的模糊合并 - 寻求帮助来改进我的代码

R 中的模糊合并 - 寻求帮助来改进我的代码 的相关文章

随机推荐

热门标签

R 中的模糊合并 - 寻求帮助来改进我的代码的相关文章