在 R 中查找两个向量之间的部分匹配字符串

2024-01-10

我正在 R 中使用两个字符串向量。

第一个，业主，包含大约 100,000 个元素，如下所示：

> proprietor
 [1] "GERALD RICA LIMITED"                                             
 [2] "EUROMASTER STUDIO SRL"                                           
 [3] "CENTRE D'ECHANGES INTERNATIONAUX (CEI)"                          
 [4] "RONTEC SERVICE STATION 1A LIMITED"                               
 [5] "MOORGARTH PROPERTIES (LUXEMBOURG) S.A.R.L"                       
 [6] "BEAVRON INVESTMENTS LIMITED"                                     
 [7] "MITRALI LIMITED"

另一个，name，包含大约700,000个相似元素：

> name 
 [1] "MULTIPOINT HOLDINGS LIMITED"                                     
 [2] "NYASA PROPERTY LIMITED"                                          
 [3] "WHITE LODGE HOLDINGS LIMITED"                                    
 [4] "MULTIPOINT HOLDINGS LIMITED"                                     
 [5] "MULTIPOINT HOLDINGS LIMITED"                                     
 [6] "JBL INVESTMENT LIMITED"                                          
 [7] "DIMBLEBY LIMITED"                                                
 [8] "LIDL U.K. GMBH"

我想知道其中的哪些元素业主也在name，考虑到可能存在一些拼写错误，或者像“LIMITED”这样的单词也可以写成“LTD”。

我已经尝试过的：

proprietor %in% name返回一个空元素，我知道情况并非如此
intersect(proprietor, name)不起作用，因为我的向量中有重复项
主要是，我尝试做一个循环agrep()允许部分匹配：

    for (i in 1:97034) {
      if (is.null(agrep(proprietor[i], name, max.distance=0.1, value=TRUE, useBytes=TRUE, costs=NULL, ignore.case=TRUE))=="TRUE") {
        test[i] <- 1
      } else {
        test[i] <- agrep(proprietor[i], name, max.distance=0.1, value=TRUE, useBytes=TRUE, costs=NULL, ignore.case=TRUE)
      }
    }

它返回错误“regcomp 错误：‘内存不足’”。我从 R 开始，所以 1）我可以看到这个循环不是最简单的方法 2）我不知道如何纠正这个内存不足错误。

我也尝试了这篇文章中给出的解决方案：在 R 中查找两个向量之间的匹配字符串 https://stackoverflow.com/questions/38371321/find-matching-strings-between-two-vectors-in-r但我无法实现它（错误消息：错误：断言'tree->num_tags == num_tags'执行正则表达式失败：文件'tre-compile.c'，第634行。我找不到它来自哪里.)

任何有关如何解决此问题的建议将不胜感激！

我会使用这个功能adist从包装中stringdist.

最小工作示例：

创建一个无意义词向量并将该向量称为 a：

a <- c("gkhk", "ololsol", "tyuil", "tyuio", "etytyuli")

修改一些单词（或多或少的修改程度）并将该向量称为向量 b：

b <- c("gwrwkhk", "olseotyuioplsol", "thsyuil", "tasyuio", "etytyuli")

然后计算元素之间的距离

yourdistance <- adist(x = a, y = b, ignore.case = TRUE)

yourdistance将是一个计算元素之间距离的矩阵。

     [,1] [,2] [,3] [,4] [,5]
[1,]    3   15    7    7    8
[2,]    7    8    6    7    7
[3,]    7   10    2    3    5
[4,]    7   10    3    2    5
[5,]    8   11    5    5    0

例如，a [5,] 中的“etytyuli”和 b [5] 中的“etytyuli”之间的距离将为 0，因为我没有将该字符串从 a 修改为 b。

一旦你有了这个矩阵，你就可以决定什么对你来说“足够接近”，并只选择那些元素。您还可以使用参数成本，它允许您为插入、删除或替换提供不同的成本。

您可能想了解更多相关信息：

https://www.r-bloggers.com/fuzzy-string-matching-a-survival-skill-to-tackle-unstructured-information/

希望能帮助到你。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

在 R 中查找两个向量之间的部分匹配字符串的相关文章

dplyr +“meta”-columns：当列包含要使用的其他列的名称而不是数据时

我想知道以下问题在 dplyr 中是否有一个优雅的解决方案要提供一个简单的可重现示例请考虑以下 data frame df lt data frame a 1 5 b 2 6 c 3 7 ref c a a b b c stringsA
如何在 R 中“推断”面板数据的值？

我有一个带有 NA 值的面板数据如下所示 uid year month day value 1 1 2016 8 1 NA 2 1 2016 8 2 NA 3 1 2016 8 3 30 4 1 2016 8 4 NA 5 1 2016
R：中断 for 循环

你能确认下一个break是否取消了内部for循环吗 for out in 1 n old id velho lt old table df id out for in in 1 n id novo lt new table df ID in
将函数应用于矩阵列表

我有一个矩阵列表注意它们的维度与此示例不同 x lt matrix 1 10 ncol 2 y lt x 300 mylist lt list x y 我想运行一个函数networklevel在矩阵列表中的每个矩阵上该函数有各种可以计
R 中 nlme 包中的 gls 函数出错

我不断收到这样的错误 Error in coef lt corARMA tmp value c 18 3113452983211 1 56626248550284 Coefficient matrix not invertible 或者像这
tidyverse 干扰 ggplot2 吗？无法访问map_data

在控制台中运行这些命令输出为 gt cty0 ggplot2 map data county gt library tidyverse Loading tidyverse ggplot2 Loading tidyverse tibble
在 R 中安全地计算算术表达式？

Edit 好吧由于似乎有很多混乱我将稍微简化一下问题您可以尝试回答下面的原始问题或者您可以解决此版本并忽略该行下面的所有内容我的目标是采用任意表达式并在极其受限的环境中对其进行评估该环境将仅包含具有以下类型值的变量数值向量接
配置 fix() 和 edit() 以从 R/RStudio 在 Notepad++ 中打开

当我在 RStudio 或 RGUI 中执行此操作时 fix SomeFunction 或使用edit 我可以在记事本中看到该函数的代码有什么方法可以更改此设置以便代码预览在 Notepad 中打开而不是在普通的旧记事本中打开同样
在 R 中使用深度网络和 MNIST 数据读取手写数字第 3 部分

我尝试编写一个基于深度网络的程序来读取手写数字我在 Youtube 上找到了一个代码 https www youtube com watch v 5bso 5X7Zu4 https www youtube com watch v 5bso
ggsubplot 是否适用于 R 3.2.1+？

CRAN 提供的 ggsubplot 版本与 R 的最新版本例如 3 1 1 不兼容运行 ggsubplot 示例会返回以下错误 Error in layout base data vars drop drop At least one
更新两组单选按钮 - 闪亮

我问了这个问题反应式更新两组单选按钮闪亮 https stackoverflow com questions 35040579 update two sets of radiobuttons reactively shiny 昨天但也
R 中的点图每行有多个值

我有以下 R 输入文件 car 1 car 2 car 3 car2 1 car2 2 car2 3 然后我使用以下命令来绘制图表 autos data 点图 autos data V2 autos data V1 但这将每个汽车和 ca
如何通过组度量的平均值在 df 内排列 dplyr:: 组？

借鉴吴卡拉的设计https stackoverflow com a 26555424 9350837 https stackoverflow com a 26555424 9350837答案我希望根据各个组汇总测量的平均值对分组 df 进
Shiny：从DT数据表中选定的行获取信息

我们正在尝试重新创建示例 https demo shinyapps io 029 row selection https demo shinyapps io 029 row selection 使用DT包来渲染数据帧而不是shiny包 DT
如何创建 highcharter 事件函数以在 Shiny R 中创建“下拉函数”

我正在建造一个shiny应用程序我想要完成的事情之一是创建一个下拉菜单我想将劳动力变量绘制为不同级别的年份变量的函数请参阅下面的示例数据框 year level 2 level 3 labour 1 2013 10 101 1 2 2
如何对范围内的行进行分组并考虑第三列？

我有一个遗传数据集我想对基因组中物理上靠近的遗传变异行进行分组我想对每条染色体基因组中某些点范围内的基因进行分组 chrom 我的点数据集包含变体行需要在一定范围内的位置如下所示 chrom low high 1 500 17
如果值大于或小于，则替换数据框中的值

我在 R 中操作数据帧时遇到问题这是 R 中的基本内容但我找不到执行此类操作的最佳命令虚拟示例 Var1 20 300 39 Var2 49 23 91 Var3 0 239 210 我怎样才能用10如果值小于则在第 2 列中10
如何将 Shiny 中生成的反应图传递到 Rmarkdown 以生成动态报告

简而言之我希望能够通过单击按钮从我的闪亮应用程序生成动态 Rmarkdown 报告文件 pdf 或 html 为此我想我将使用 Shiny 的参数化报告但不知何故我无法将单个谜题转移到所需的目标使用此代码我们可以在 R Shin
ggplot 按因子和梯度颜色

我正在尝试绘制一个对两个变量一个因子和一个强度进行着色的图我希望每个因素都是不同的颜色并且我希望强度是白色和该颜色之间的渐变到目前为止我已经使用了诸如对因子进行分面等技术将颜色设置为两个变量之间的相互作用并将颜色设置为因子并
如何在闪亮的observeEvent中监听多个事件表达式

我想要两个不同的事件触发观察者有人建议here https stackoverflow com questions 34731975 how to listen for more than one event expression wit

随机推荐

Spring Cloud 发现多个服务版本

我在问自己一个问题但没有找到答案也许这里有人对此有想法在 Spring Cloud 中使用服务注册表 Eureka 与 RestTemplate 和 Feign 客户端我有不同的构建版本的同一服务通过 Actuator 的 inf
模拟 textarea Jest 测试的更改

我有以下组件 render return
有什么方法可以使 R 中散点图中的绘图点更加透明吗？

我有一个 3 列矩阵绘图由基于第 1 列和第 2 列值的点绘制但基于第 2 列 6 个不同组着色我可以成功绘制所有点但是分配了紫色的最后一个绘图组组 6 掩盖了其他组的绘图有没有办法让情节更加透明 s lt read tab
单击被忽略：与表单控件关联的标签元素存在问题

我已使用 for 属性将标签元素关联到表单字段当我在表单字段下方显示验证消息时会出现此问题例如在下面的演示中表单字段 1 有一个必需的验证 onblur 单击标签选择表单字段 1 Now click在表单字段 2 标签上应将焦点
重写类和实例方法的 method_missing 吗？

我正在尝试编写一个通用模块以将动态方法创建的 method missing 模式应用于我的一些 Rails 模型这些模型既有类方法又有实例方法虽然我可以相当直接地为任一类情况编写模块 module ClassVersion exten
在 Angular 9 中如何强制 http 客户端响应模型中的属性日期类型？

我正在开发 Angular 9 项目我收到的回复之一包含 type 的属性Date 但是当我发送请求时 MyModel class MyModel prop string myDate Date request sent like thi
ProGuard 可能会导致错误的计算

我遇到了一个非常奇怪的错误下面的一小段代码使用了相当简单的数学 protected double C n k int n int k if k lt 0 k gt n return 0 double s 1 for int i 1 i l
Javascript |无法用 String.replace() 替换 \n

我有解析网站并从数据库中获取信息的代码它看起来像这样 var find body match text date 结果我有 n n n n 然后我尝试替换 n 但它不起作用 var str find 1 replace new RegE
SQLite 数据库文件使用什么扩展名重要吗？

SQLite 数据库使用的文件扩展名有优点还是缺点 SQLite 本身似乎不需要命名约定但可能还有其他原因导致特定扩展有用或有问题例如某些工具编程语言安装程序等或最终用户考虑因素最常见的似乎是 sqlite db and db
匿名哈希切片 - 语法？

我喜欢哈希片并经常使用它们 my h h keys vals 效果非常好但有两件事一直困扰着我首先是否可以将上面的两行合并为一行代码如果能够声明哈希并一次性填充所有内容那就太好了其次是否可以对现有的匿名哈希进行切片例如 my
如何制作从大型 xlsx 文件加载 pandas DataFrame 的进度条？

from https pypi org project tqdm https pypi org project tqdm import pandas as pd import numpy as np from tqdm import tqd
无法在 Anaconda 4.3 中安装 OpenCV 3.2

尝试了以下步骤 conda install c menpo opencv3 3 2 0 正在获取包元数据发生意外错误做了一些互联网搜索并使用conda config set ssl verify False 然后尝试做conda upd
DbContext -> DbSet -> 缺少Where子句（实体框架6）

我读过一些实体框架 6 的教程基础知识很简单 using var context new MyContext User u context Users Find 1 但是如何与用户一起使用 Where 或 DbSet 上的其他内容呢 pu
如何使用 wc_customer_bought_product 函数检查客户是否购买了数组中的产品

首先我是一个初学者对php很陌生所以请原谅我的无知我今天在 stackoverflow 上问了我的第一个问题有人很友善地提供了一个很好的解决方案所以我再次尝试我正在尝试使用一个函数来检查客户是否在产品 ID 数组中购买了产品
部署到 heroku 时，Rails 编译器出现 fontawesome 错误

当我尝试将 Rails 项目推送到 Heroku 时收到错误消息我正在使用 Fontawesome 它在本地环境中运行良好但不会推送到 Heroku Running rake assets precompile I 2016 03 22
寻找生成数据文件的 Bazel genrules 示例

我想制定一个依赖于从其他文件生成的数据文件的构建规则我尝试写这样的东西 genrule name data outs MyApp data dat cmd cd libpackfiles bazel run FilePacker PWD
如何在CLR中使用多重继承？

我遇到过一些来源例如this https devblogs microsoft com csharpfaq why doesnt c support multiple inheritance 声称 CLR 中实际上支持多重继承多个基类型
有没有办法告诉c#中调用函数的方法的参数？

我正在为我的 C 应用程序开发一种不干涉日志机制我希望它看起来像这样功能a arg1 arg2 arg 3 调用函数b arg4 arg5 arg6 这又调用log 这比能够检测堆栈跟踪这可以通过Environment StackTr
我无法从 iis 服务器中的 codeigniter 中的 url 中删除 index.php

我无法从 IIS 中的 url 中删除 index php 这是我的 htaccess 文件 RewriteEngine on RewriteCond 1 index php swf forums images css downloads
在 R 中查找两个向量之间的部分匹配字符串

我正在 R 中使用两个字符串向量第一个业主包含大约 100 000 个元素如下所示 gt proprietor 1 GERALD RICA LIMITED 2 EUROMASTER STUDIO SRL 3 CENTRE D ECH

在 R 中查找两个向量之间的部分匹配字符串

在 R 中查找两个向量之间的部分匹配字符串 的相关文章

随机推荐

热门标签

在 R 中查找两个向量之间的部分匹配字符串的相关文章