按 R 中相似结果分组

2024-03-22

我想对相似的结果（不是唯一的）进行分组，但我不知道该怎么做。

我的意思是，我有一个名为“name”的列的 df，它具有类似的结果，例如：ARPO、ARPO S.L、ARPO、SL 等。

|---------------------|------------------|
|      name           |     address      |
|---------------------|------------------|
|       ARPO          |     street 1     |
|---------------------|------------------|
|       ARPO S.L      |     street 1     |
|---------------------|------------------|
|       ARPO, SL      |     street 1     |
|---------------------|------------------|
|       ARPO SL       |     street 1     |
|---------------------|------------------|
|       AAAA          |     street 2     |
|---------------------|------------------|
|       AAAAAb        |     street 2     |
|---------------------|------------------|
|       AAAAAB        |     street 2     |
|---------------------|------------------|

这个想法是建立一个像 0.8（或类似）的阈值来识别具有 80% 重合度的结果。

然后使用 dplyr 库按“相似名称”对它们进行分组，以保留每组的一个结果（行）。

library (dplyr)
groups <- df %>%
  group_by(similar_names) %>%
  summarise() %>%
  arrange(name)

我尝试了不同的选项与不同的库，如：stringr、重复、adist 等...但我没有找到一个好的解决方案。

这里我有一个输入的例子：

df <- tibble::tribble(
  ~name,       ~number,       ~ind,
  "ARPO",      "405162",      5,
  "ARPO S.L.", "504653",      22,
  "ARPOS",     "900232",      1,
  "ARPO",      "504694",      12,
  "ARPO",      "400304",      42,
  "JJJJ",      "401605",      2,
  "JJJJ",      "900029",      31,
  "BBBBB",     "400090",      25,
  "BBBBB",     "403004",      33,
  "JJJJ",      "900222",      2,
  "BBBBB",     "403967",      11,
  "BBBB",      "400304",      52,
  "JJJJ",      "404308",      200,
  "ARPO",      "403898",      2,
  "ARPO",      "158159",      24,
  "BBBBBBB",   "700805",      2,
  "ARPO S.L.", "900245",      24,
  "JJJJ",      "501486",      2,
  "JJJJ",      "400215",      210,
  "JJJJ",      "504379",      26,
  "HARPO",     "900222",      400,
  "BBBBB",     "109700",      46,
  "ARPO",      "142173",      14,
  "BBBBB",     "400586",      22,
  "ARPO",      "401605",      322
)

我在这里找到了类似的解决方案：将具有相似名称的级别组合在一起 R https://stackoverflow.com/questions/24825215/group-together-levels-with-similar-names-r

x <- df$name

groups <- list()
i <- 1
while(length(x) > 0) {

  id <- agrep(x[1], x, ignore.case = TRUE, max.distance = 0.1)
  groups[[i]] <- x[id]
  x <- x[-id]
  i <- i + 1

}

因此，从那时起，您可以创建一个组变量：

df$group <- ""

for (j in 1:length(groups)){
  df$group <- ifelse(df$name %in% groups[[j]], paste0("group_",j), df$group)
}

也许您可以找到更简单的解决方案，但这可行！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

string

按 R 中相似结果分组的相关文章

如何处理重叠的因子水平？（例如，生成表格和图表时）

我面临一个数据集的问题重叠因素水平我想按因素级别生成时间线条形图和统计数据但是我希望因子水平是模棱两可的这意味着属于多个级别的观察结果应该在图中出现多次这是我的数据结构的示例 head lt c ID YEAR BRAZIL G
使用facet时ggplot2控制每行的面板数量？

Is it possible to control the number of panels per row in a ggplot I can only get an equal number of panels on each row
使用 Rcpp 得出斐波那契数列的意外结果

我刚刚开始使用Rcpp很抱歉如果我错过了一个简单的步骤或类似的东西我已经尝试过这个 sourceCpp library Rcpp sourceCpp code include
R中不同级别的李克特分组

我想使用 Likert 包并按变量分组并绘制结果问题是我想要可视化的变量有不同的级别有没有解决的办法一个简单的例子来说明我的问题 library reshape library likert foo lt data frame ca
如何从类外部更改公共 R6 类方法？

我希望能够在我的 R6 类中重新定义公共方法以便它根据该类保存的数据类型进行更改如下所示 library R6 Simple lt R6Class Simple public list dt mtcars my print functi
R：邻接表到邻接矩阵

Bonjour 我想将邻接列表 3 列转换为邻接矩阵在这个论坛中我找到了多个有关如何将边列表转换为邻接矩阵的示例我成功地为两列列表做到了这一点我已经尝试了在网上可以找到的所有解决方案但似乎我错过了一小步我尝试过的我的变量是用
python中打印字符串的长度

有没有什么方法可以找到即使是最好的猜测 Python中字符串的打印长度例如 potaa bto 是 8 个字符len但 tty 上只打印 6 个字符宽预期用途 s potato x1b 01 32mpotato x1b 0 0mp
R markdown 引文标识符

R markdown 允许使用 YAML 元数据部分中的参考书目元数据字段指定参考书目文件例如 title Sample Document output html document bibliography bibliography bi
在 R 中打印绘图时第一页为空

我正在尝试创建一个包含多个图的pdf 更具体地说我想保存我的图每页 4 个因此我在 r 中有以下代码可以工作但将页面留空第一个 pdf Plots plots numeric four in page pdf paper a4
自动将变量名称添加到列表的元素[重复]

这个问题在这里已经有答案了我有一个模型列表为了使代码更易于维护因此可以方便地添加和删除模型我希望有一个地方来存储它们及其名称为此我必须解决以下命名问题上游我生成模型的方式比以下方式效率低如果是这样压缩的我会assign他
r 连接两个列表并对它们的值求和

我有两个列表 x y gt x carlo monte simulation model quantum 31 31 9 6 6 gt y model system temperature quantum simulation proble
如何转置 R markdown 文档中的表格？

假设我打印一个名为summary table的数据框如下所示 summary table data frame a c 1 2 3 b c 11 12 13 c c 21 22 23 d c 31 32 33 e c 41 42 43 f
如何使用 tidyr 将向量中字符串中的每个字符分隔到一列中

我想将向量中的每个字符串分成列但我做不到 library tidyr library dplyr df lt data frame x c abe bas dds eer df gt separate x c A B C sep 1 我想
数据表中的 NA

我有一个data table其中包含一些组我对每个组进行操作有些组返回数字其他组返回NA 因为某些原因data table很难将所有东西重新组合在一起这是一个错误还是我误解了这是一个例子 dtb lt data table a 1
如何将环境变量传递给shinyapps

我想将安全参数传递给shinyapps io部署以便我的应用程序可以通过以下方式获取它们 Sys getenv PASSWORD X 我找不到任何相关内容deployApp函数在rsconnect包裹您可以使用Renviron网站 or
如何在knitr中安装软件包？

到目前为止我一直在使用这段代码来加载 R 包并编写 R 文件但我正在尝试使用knitr rm list ls all TRUE kpacks lt c ggplot2 install github devtools mapdata ne
访问动态创建的 Shiny 模块的返回值

我正在寻找构建一个闪亮的应用程序它动态创建返回简单表单的模块通过 callmodule 我有两个未解决的问题希望得到一些指导首先当向用户提供多个表单通过单击按钮时先前呈现的表单上的值将恢复为默认值如何停止这种行为以便值保
基本 C++ 文本对齐

我正在尝试编写一个程序该程序从文件中获取输入行并使其恰好为 80 个字符假设输入行始终小于 80 然后打印该行这是通过在以下标点符号后添加最多两个空格来完成的如果一行少于 41 个字符则不加修改地打印如果该行仍然不是 80 个字
svyby比例的置信区间

是否存在创建置信区间的现有函数从一个svyby比例对象在我的例子中是一个二进制项目的交叉表survey包裹我经常比较各组之间的比例如果有一个可以提取置信区间的函数使用调查函数svyciprop而不是confint 下面的示例显示
R Leaflet：添加多边形时传递 popupOptions。

Within addPolygons 有一个popup参数就像addPopups 功能区别我认为是当弹出窗口创建时addPolygons 可以单击多边形内的任意位置来触发弹出窗口但是如果addPopups 被使用单个lng and

随机推荐

初始化无符号字符的正确方法*

正确的初始化方法是什么unsigned char 我目前正在这样做 unsigned char tempBuffer tempBuffer 或者我应该使用memset tempBuffer 0 sizeof tempBuffer 要正确
如何为我的代码启动一个线程并为 JavaFX 应用程序启动一个线程？

我正在尝试使用 JavaFX 运行程序如果我使用 Swing 我将有一个由 main 方法启动的类并让它构建 GUI 类这将为我提供 2 个线程一个是应用程序的普通线程另一个是 EventQueue 这将防止阻塞 UI 工作因此
Rails如何使用部分匹配删除缓存键

我正在使用 redis rails 对于缓存键我使用一个数组 Rails cache fetch self class name translated attribute id field I18n locale do self read
滚动时的 CSS3 变换

有谁知道一个好的教程可以实现这一目标如下所示 http www contrastrebellion com http www contrastrebellion com 我查看了该网站上使用的代码发现提取我需要的内容很困难非常感激谢
IIS重写虚拟文件夹

我需要在 IIS 中为以下内容创建 URL 重写规则 From http hostname virtual path folder myisapi dll a 1 b 1 To http hostname myisapi dll a 1 b
以前没有发生过的访问冲突

我正在 P 调用 Graphviz如图所示 http implicitoperator com blog 2009 12 24 rendering an in memory graphviz image with c html 当我写那篇博
此 C# 代码是否会因为寄存器或缓存中的值从未写回主内存而失败？

在本文中 http msdn microsoft com en us magazine jj883956 aspx http msdn microsoft com en us magazine jj883956 aspx 作者指出以下代码
Docker compose服务无法通过服务名称进行通信

tldr 我无法通过其服务名称与 docker 组成的服务进行通信以便向在网络容器中运行的 api 发出请求我有一个单页应用程序它向 json api 发出请求它的 Dockerfile 如下所示 FROM nginx alpine
hiredis Redis 库是否为异步回调创建自己的线程

我在多线程环境中使用 Redis 并且有一个关于它如何运行的问题我在我的 C 应用程序中使用hiredis c 库我的问题是如果我在触发回调时使用异步模式回调是否会在 Redis 客户端创建的另一个线程中处理就像创建调用的线程不会
如何使用 LWUIT - J2ME 在表单元格中添加组合框？

我想在表格单元格中添加一个组合框以提供拖放选项 LWUIT 我已经使用了这个选项 private String strCmbBox 1 2 3 4 ComboBox comboRdoBox new ComboBox strCmbBox co
是否可以像音乐应用程序或 iTunesU 那样将曲目标题添加到“正在播放控件”菜单中？

我正在创建一个播放器应用程序我已经实现了 remoteControlReceivedWithEvent 方法并且可以通过此按钮更改播放状态苹果指南 https developer apple com library ios docum
点击标记时如何更改默认相机行为？

在 Google Maps for iOS SDK 版本 1 2 中点击标记的默认行为发生了变化发行说明称点击标记时的默认行为已更新还可将相机平移到标记的位置如何恢复旧行为即不将相机中心平移到标记的位置将以下方法添加到您的 G
实现递归 ngFor 循环时清空 ng-template 的上下文数据

我必须显示书籍类别的层次结构树但在渲染的 html 中没有获取任何数据似乎有问题ngTemplateOutput语境尝试使用隐式和显式方法设置上下文当明确设置时例如let list list 类别列表的第一级已呈现但子类别仍未呈
msbuild，如何设置环境变量？

我正在尝试使用项目文件例如 vcxproj 设置环境变量我查看了属性函数但似乎没有这样的功能我知道有一种方法可以检索环境变量但找不到如何设置它我觉得应该有办法在项目文件中设置环境变量从 MSBuild v4 0 开始编码任务
无法在 Vuejs 2 中使用 vuetable-2 检索数据

我是 Vuejs 2 的新手目前正在做一个项目我在用着vuetable 2形成一个数据表Vuejs 2 我目前面临一个问题无法使用属性 api url vuetable 2 检索数据但是我可以使用 Axios 和全局 Axios
使用 JS 操作 HTML 中的 SVG

我在 html 嵌入的 svg 图像中使用 javascript 构建 svg 元素时遇到问题我创建了两个应该完全相同的文件但其中一个是用 js 构建的 SVG html
如何让 gradle 输出每个依赖项的依赖项哈希

我有生以来第一次看到这样的情况 gradle compileJava check在本地运行良好但是当我尝试使用 bitbucket 管道运行相同的命令时我得到NoSuchClassDefError I do gradle user lo
使用 ADO 在 IntraWeb 上共同初始化错误

已经询问了邪恶交换但一如既往这没有帮助我今天遇到这个问题使用 IntraWeb 创建独立的 Web 应用程序时当我尝试在浏览器中测试应用程序的会话时我在 IDE 中遇到此异常第一次机会例外价格为 7C812A6B 异常类 E
仅提取特定页面中使用的 css

假设您有一个动态生成的网站过去和现在都有太多人参与其中并且您现在拥有一组包含超过 20 000 行 CSS 的共享样式表它根本没有组织有一些基于类和 id 的选择器但也有太多基于标签的选择器然后假设您有 100 个通过某个控制器
按 R 中相似结果分组

我想对相似的结果不是唯一的进行分组但我不知道该怎么做我的意思是我有一个名为 name 的列的 df 它具有类似的结果例如 ARPO ARPO S L ARPO SL 等 name address ARPO street 1 AR

按 R 中相似结果分组

按 R 中相似结果分组 的相关文章

随机推荐

热门标签

按 R 中相似结果分组的相关文章