两个数据库的模糊匹配和精确匹配

2023-12-12

我有两个数据库。第一个有大约 70k 行 3 列。第二个有 790k 行 2 列。两个数据库都有一个共同的变量grantee_name。我想基于此将第一个数据库的每一行与第二个数据库的一行或多行相匹配grantee_name。注意merge不会工作，因为grantee_name不完美匹配。有不同的拼写等。所以，我使用fuzzyjoin打包并尝试以下操作：

library("haven"); library("fuzzyjoin"); library("dplyr")
forfuzzy<-read_dta("/path/forfuzzy.dta")
filings <- read_dta ("/path/filings.dta")
> head(forfuzzy)
# A tibble: 6 x 3
  grantee_name                 grantee_city grantee_state
  <chr>                        <chr>        <chr>        
1 (ICS)2 MAINE CHAPTER         CLEARWATER   FL           
2 (SUFFOLK COUNTY) VANDERBILT~ CENTERPORT   NY           
3 1 VOICE TREKKING A FUND OF ~ WESTMINSTER  MD           
4 10 CAN                       NEWBERRY     FL           
5 10 THOUSAND WINDOWS          LIVERMORE    CA           
6 100 BLACK MEN IN CHICAGO INC CHICAGO      IL   
... 7 - 70000 rows to go

> head(filings)
# A tibble: 6 x 2
  grantee_name                       ein 
  <chr>                             <dbl>               
1 ICS-2 MAINE CHAPTER              123456             
2 SUFFOLK COUNTY VANDERBILT        654321            
3 VOICE TREKKING A FUND OF VOICES  789456            
4 10 CAN                           654987               
5 10 THOUSAND MUSKETEERS INC       789123               
6 100 BLACK MEN IN HOUSTON INC     987321      

rows 7-790000 omitted for brevity

上面的例子足够清楚，可以提供一些好的匹配和一些不太好的匹配。请注意，例如，10 THOUSAND WINDOWS将最匹配10 THOUSAND MUSKETEERS INC但这并不意味着这是一个很好的匹配。某个地方会有更好的匹配filings数据（上面未显示）。在现阶段这并不重要。

所以，我尝试了以下方法：

df<-as.data.frame(stringdist_inner_join(forfuzzy, filings, by="grantee_name", method="jw", p=0.1, max_dist=0.1, distance_col="distance"))

这对 R 来说是全新的。这会导致错误：cannot allocate vector of size 375GB（当然还有大数据库）。 100 行的样本来自forfuzzy总是有效。因此，我想到一次迭代 100 行的列表。

我已经尝试过以下方法：

n=100
lst = split(forfuzzy, cumsum((1:nrow(forfuzzy)-1)%%n==0))

df<-as.data.frame(lapply(lst, function(df_)
{
(stringdist_inner_join(df_, filings, by="grantee_name", method="jw", p=0.1, max_dist=0.1, distance_col="distance", nthread = getOption("sd_num_thread")))
}
)%>% bind_rows)

我也尝试过上面的方法mclapply代替lapply。即使我尝试使用高性能集群设置3个CPU，每个CPU有480G内存并使用，也会发生同样的错误mclapply与选项mc.cores=3。也许是一个foreach命令可以提供帮助，但我不知道如何实现它。

我被建议使用purrr and repurrrsive包，所以我尝试以下操作：

purrr::map(lst, ~stringdist_inner_join(., filings, by="grantee_name", method="jw", p=0.1, max_dist=0.1, distance_col="distance", nthread = getOption("sd_num_thread")))

在出现新手错误后，这似乎有效by=grantee_name陈述。然而，这需要很长时间，而且我不确定它是否会起作用。示例列表位于forfuzzy100 行，其中n=10（因此 10 个列表，每个列表 10 行）已经运行了 50 分钟，但仍然没有结果。

如果你分开（与base::split or dplyr::group_split）将您的 uniquegrantees 数据框放入数据框列表中，然后您可以调用purrr::map在名单上。（map差不多了lapply)

purrr::map(list_of_dfs, ~stringdist_inner_join(., filings, by="grantee_name", method="jw", p=0.1, max_dist=0.1, distance_col="distance"))

您的结果将是一个数据框列表，每个数据框都与文件模糊连接。然后你可以打电话bind_rows（或者你可以做map_dfr）再次获得同一数据框中的所有结果。

See R - 将一个大数据帧拆分为几个较小的数据帧，对每个数据帧执行模糊连接并输出到单个数据帧

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

两个数据库的模糊匹配和精确匹配的相关文章

如何在 R 中执行近似（模糊）名称匹配

我有一个专门用于生物学期刊的大型数据集该数据集是由不同的人长时间编写的因此数据不采用单一格式例如在作者栏中我可以找到John Smith Smith John Smith J等但它们是同一个人我连最简单的动作都做不了例如
我可以使用哪个 R 函数来查找两条线的交点？

我刚刚研究了 stackoverflow 上所有的在 R 中寻找交集问题它们要么是关于曲线要么是关于分布像这个 https stackoverflow com questions 20519431 finding point of
更新 R6 对象实例中的方法定义

如何更新 R6 类实例的方法定义正如我所期望的 S3 使用当前的方法定义对于 R5 参考类我可以使用 myInstance myInstance copy 在 R6 中我尝试了 myInstance myInstance clone
sapply - 保留列名称

我试图总结数据集中许多不同列变量的平均值标准差等我已经编写了自己的汇总函数以准确返回我需要和正在使用的内容sapply立即将此函数应用于所有变量它工作正常但是返回的数据帧没有列名我似乎甚至无法使用列号引用重命名它们也就是说
闪亮的应用程序包：css 和所有 www/ 目录内容

我正在尝试将 Shiny 应用程序转换为 R 包但我在处理有关 www 目录以及松散文件的所有问题时遇到了问题我闪亮的应用程序运行得很好但是当我尝试打包它时它不起作用我闪亮的应用程序目录 my shiny app R ut
R，使用具有两种以上可能性的二项式分布

我知道这可能是基本的但我似乎有一个心理障碍假设您想要计算在一个骰子上掷出 4 5 或 6 的概率在 R 中这很简单 sum 1 6 1 6 1 6 这给出了 1 2 这是正确答案然而我内心深处可能应该保留的地方认为我应该能够
如何按定义的顺序将图像合并到一个文件中

我有大约 100 张图像 png 我不想手动执行此操作而是希望将它们按照定义的顺序基于文件名并排放置在一个 pdf 中每行 12 个图像有人有什么建议吗我按照下面托马斯告诉我的方法尝试了它把它们贴在旁边有一个黑边我怎样才能去
如何根据 ggplot2 中的汇总数据创建堆积条形图

我正在尝试使用 ggplot 2 创建堆积条形图我的宽格式数据如下所示每个单元格中的数字是响应的频率 activity yes no dontknow Social events 27 3 3 Academic skills works
如何为自定义 S3 类实现提取/取子集 ([ [<-, [[ [[<-)] 函数？

我有一个自定义的 S3 类foo 它在正常的基础上添加了一些自定义行为data frame foo object lt data frame class foo object lt c foo data frame 对于这个类还应该有一个
如何在 R 中的 dygraph 标题中使用 UTF-8 字符

使用 Rstudio Windows8 当我使用 dygraph 函数绘制时间序列时在尝试在主标题中使用 UTF 8 字符时遇到问题 library dygraphs dygraph AirPassengers main T tulo 这
扩展数据框以使其具有与原始行中两列的范围一样多的行[重复]

这个问题在这里已经有答案了我有一个数据框如下 structure list symbol c u n v i a start c 9L 6L 10L 8L 7L end c 14L 15L 12L 13L 11L Names c symb
如何像在facet_grid中一样在facet_wrap中定位条带标签

我想在使用时删除多余的条带标签facet wrap 并用两个变量进行分面并且都是自由尺度的例如这个facet wrap下图的版本 library ggplot2 dt lt txhousing txhousing year in 20
R 数据结构的运算效率

我想知道是否有任何关于操作效率的文档R 特别是那些与数据操作相关的例如我认为向数据框添加列是有效的因为我猜您只是向链接列表添加一个元素我想添加行会更慢因为向量保存在数组中C level你必须分配一个新的长度数组n 1并将所有元素复
在 RGL 中将立方体绘制到 3D 散点图中

我正在尝试向 3D 散点图添加较小的立方体网格具有指定边长我希望立方体位于原点我该怎么做呢我已经玩过cube3d 但我似乎无法将立方体正确定位也无法使其成为网格因此我可以看到它包含的数据点这是我所拥有的 library rg
安装 2.15 后 ggplot2 中的 alpha 通道不起作用

更新到 R 2 15 后 ggplot 中的 alpha 通道似乎不再起作用 plot rnorm 100 rnorm 100 bg cc000055 pch 21 工作得很好但是 qplot rnorm 100 rnorm 100 col
使用data.table进行聚合

经过 SO 用户的多次建议后我终于尝试将我的代码转换为使用data table library data table DT lt data table plate paste0 plate rep 1 2 each 5 id rep c
将 Excel 文件读入 R 并锁定单元格

我有一个 Excel 电子表格要读入 R 它受密码保护并锁定了单元格我可以使用 excel link 导入受密码保护的文件但我不知道如何解锁取消保护单元格 excel link 给了我这个错误 gt
更改ggplot2中的字体

曾几何时我改变了我的ggplot2字体使用windowsFonts Times windowsFont TT Times New Roman 现在我无法摆脱这一切在尝试设置family in ggplot2 theme 当我用不同的字
斯皮尔曼相关性和联系

我正在一小组配对排名上计算斯皮尔曼的 rho 斯皮尔曼因处理领带不当而闻名例如取2组8个排名即使两组中有6个是平局相关性仍然很高 gt cor test c 1 2 3 4 5 6 7 8 c 0 0 0 0 0 0 7 8 met
如何在R中实现countifs函数（excel）

我有一个包含 100000 行数据的数据集我尝试做一些countifExcel 中的操作但速度慢得惊人所以我想知道R中是否可以完成这种操作基本上我想根据多个条件进行计数例如我可以指望职业和性别 row sex occupati

随机推荐

解析推送通知在 Android 上不起作用

我正在为我的 Android 应用程序使用解析推送通知我按照教程下载 jar 文件然后将其导入到我的项目中并将此代码添加到我的清单中
我的路由如何使用 ASP MVC3 在 URL 中间使用可选参数？

我希望我的 URL 使用以下约定 controller id action 而不是 controller action id 我尝试按如下方式设置路线 routes MapRoute Campaign controller action i
kotlin协程使用withContext获取非阻塞代码时withTimeout不会取消

我正在使用 withContext 将函数转换为不会阻塞调用线程的挂起函数为此我使用了https medium com elizarov blocking threads suspending coroutines d33e11bf476
如何将https重定向到新域？

我重新开发了公司网站但在重定向 SSL 方面遇到了一些问题键入或单击http olddomain org重定向到https newdomain com 但是输入或单击链接https olddomain org不重定向到https ne
JComponent JPanel 缩放、平移和坐标问题

我有一个JPanel带有用户可以缩放和平移的矢量图像覆盖此图像的是透明 JComponent 我允许用户注释底层图像这在全尺寸下效果很好但是如果我放大使用AffineTransform 重叠坐标也会受到影响因此如果用户在图像上
Ember 没有获得某些属性

当从以下位置运行以下命令时UserController在 Google Chrome 上 ember couchdb kit 0 9 余烬数据v1 0 0 beta 3 56 g8367aa5 Ember v1 0 0 and 这个 cou
C++ 搜索性能

我有两个文本文件其中包含大约 70 000 个姓名的列表 1 5MB 另一个包含将从各种来源获得的文本也就是说每次执行程序时该文件的内容都会发生变化 0 5MB 本质上我希望能够将一些文本粘贴到文本文件中并查看在我的列表中找到了
java.lang.NoClassDefFoundError：com/google/gson/Gson

我注意到一个奇怪的问题我可以使用 Junit 运行我的测试用例但是当我使用 maven 运行时其中一个测试用例失败它抱怨没有找到 Gson 类 def 我可以在 Maven 依赖项中看到 Gson jar 所以我怀疑类路径不包括Gs
模型绑定不适用于 asp.net core web api 控制器操作方法中的 Stream 类型参数。（即使使用自定义流输入格式器）

我想将文件上传到 asp net core web api 控制器操作方法我发送的内容类型为 application octet stream 我创建了名为 StreamInputFormatter 的自定义输入格式化程序 StreamI
Angular：如何通过单击复选框来启用和禁用文本框？

我正在使用 Angular 和 TypeScript 并尝试使用复选框启用禁用文本框 app component html
如何将图像设置在顶部以避免 UIimageView 中的空间

我有一个 UIImageView 其内容模式 Aspect Fit 大小为 220x155 我动态插入不同分辨率的不同图像但都大于 UIImageView 的大小当内容模式设置为 Aspect Fit 时图像将根据比例缩放以适合 UI
移动网络应用程序的自动完成[重复]

这个问题在这里已经有答案了可能的重复让 jQuery Ui 自动完成功能与 jQuery Mobile 配合使用是否有一个开箱即用的解决方案示例用于移动网络应用程序例如 iPhone Android 2 1 设备等的自动完
将数组复制到过滤范围会产生不合理的结果

将过滤范围的值复制到数组似乎没有问题然后该数组包含来自过滤和未过滤单元格的值但是当我将数组的内容复制回过滤范围时结果对我来说是不可理解的这是我的代码 Sub test Dim rangecopy As Variant rangec
Android 位置管理器，获取 GPS 位置，如果没有 GPS，则获取网络提供商位置

我正在使用下面给出的代码来获取位置 public Location getLocation try mLocationManager LocationManager context getSystemService LOCATION SER
即使用户在 Google 表格中键入或粘贴小写字母且没有警告，如何将单元格区域大写

我在谷歌工作表文件中的许多工作表之一中制作了一个简单的表格我希望工作表的单元格范围始终显示为大写无论用户输入什么而没有任何警告目前我在 Apps 脚本中找到并使用了下面的脚本它适用于所有工作表并且仅适用于输入文本而不是粘贴的文
非常轻量级的 Eclipse-Maven 集成 - 仅依赖项管理？

根据我的经验 Maven 在小型实验应用程序中通常是一种过度杀伤力但依赖管理是 Maven 非常有用的功能实际上也是唯一对上述类型的应用程序真正有帮助的功能我想知道我是否可以拥有一个非常小巧轻便Eclipse Maven 集成提供o
针对 PayPal 网站支付标准的移动优化结账

如何获得 PayPal 在其移动网站支付标准页面上描述的移动优化结账体验 https www x com developers paypal products mobile website payments standard 文档称如果
Isabelle/HOL 中的对象级含义

我发现 Isabelle HOL 中的许多定理更喜欢元级蕴涵 gt 代替 gt 对象逻辑级别即高阶逻辑含义伊莎贝尔维基说粗略地说应该使用元级别含义将规则语句中的假设与结论分开除此之外关于对象和元级别含义的使用我应该了解什么我发现
GridView 在 C# 中添加第二和第三标题行

我有一个ASP NET C GridView其中的列如下所示 Foo Bar Total1 Total2 Total3 是否可以在看起来像这样的行上创建标题 General Totals A B C Foo Bar 1 2 3 我尝试过行创
两个数据库的模糊匹配和精确匹配

我有两个数据库第一个有大约 70k 行 3 列第二个有 790k 行 2 列两个数据库都有一个共同的变量grantee name 我想基于此将第一个数据库的每一行与第二个数据库的一行或多行相匹配grantee name 注意merge

两个数据库的模糊匹配和精确匹配

两个数据库的模糊匹配和精确匹配 的相关文章

随机推荐

热门标签

两个数据库的模糊匹配和精确匹配的相关文章