如何在 R 数据库中将相似的字符串分组在一起

2024-04-16

我的小标题只有 1 列，称为“标题”。

> dat
# A tibble: 13 x 1
   title                                          
   <chr>                                          
 1 lymphoedema clinic                             
 2 zostavax shingles vaccine                      
 3 xray operator                                  
 4 workplace mental health wellbeing workshop     
 5 zostavax recall toolkit                        
 6 xray meetint                                   
 7 workplace mental health and wellbeing          
 8 lymphoedema early intervenstion                
 9 lymphoedema expo                               
10 lymphoedema for breast care nurses             
11 xray meeting and case studies                  
12 xray online examination                        
13 xray operator in service paediatric extremities

我希望找到类似的记录并将它们分组在一起（同时保留它们的索引）：

> dat
# A tibble: 13 x 1
   title                                          
   <chr>                                          
 1 lymphoedema clinic   
 8 lymphoedema early intervenstion                
 9 lymphoedema expo                               
10 lymphoedema for breast care nurses                             
 2 zostavax shingles vaccine 
 5 zostavax recall toolkit                                
 3 xray operator                                  
 6 xray meetint     
11 xray meeting and case studies                  
12 xray online examination                        
13 xray operator in service paediatric extremities
 4 workplace mental health wellbeing workshop                                  
 7 workplace mental health and wellbeing

我使用下面的函数来查找彼此足够接近的字符串（cutoff = 0.75）

compareJW <- function(string1, string2, cutoff)
{
  require(RecordLinkage)
  jarowinkler(string1, string2) > cutoff
}

我已经实现了下面的循环，以在新的数据框中一起“发送”类似的记录，但它无法正常工作，我尝试了一些变体，但还没有任何效果。

# create new database
newDB <- data.frame(matrix(ncol = ncol(dat), nrow = 0))
colnames(newDB) <- names(dat)
newDB <- as_tibble(newDB)

for(i in 1:nrow(dat))
{
  # print(dat$title[i])

  for(j in 1:nrow(dat))
  {
    print(dat$title[i])
    print(dat$title[j])
    # score <- jarowinkler(dat$title[i], dat$title[j])

    if(dat$title[i] != dat$title[j]
       &&
       compareJW(dat$title[i], dat$title[j], 0.75))
    {
      print("if")

      # newDB <- rbind(newDB, 
      #                dat$title[i],
      #                dat$title[j])
    }
    else
    {
      print("else")
      # newDB <- rbind(newDB, dat$title[i])
    }
  }
}

（我已在循环中插入打印“以查看发生了什么”）

可重现的数据：

dat <- 
structure(list(title = c("lymphoedema clinic", "zostavax shingles vaccine", 
                         "xray operator", "workplace mental health wellbeing workshop", 
                         "zostavax recall toolkit", "xray meetint", "workplace mental health and wellbeing", 
                         "lymphoedema early intervenstion", "lymphoedema expo", "lymphoedema for breast care nurses", 
                         "xray meeting and case studies", "xray online examination", "xray operator in service paediatric extremities"
)), row.names = c(NA, -13L), class = c("tbl_df", "tbl", "data.frame"
))

请问有什么建议吗？编辑：我还想要一个名为“group”的新索引列，如下所示：

> dat
# A tibble: 13 x 1
index   group    title                                          
                 <chr>                                          
 1       1   lymphoedema clinic   
 8       1   lymphoedema early intervenstion                
 9       1   lymphoedema expo                               
10       1   lymphoedema for breast care nurses                             
 2       2   zostavax shingles vaccine 
 5       2   zostavax recall toolkit                                
 3       3   xray operator                                  
 6       3   xray meetint     
11       3   xray meeting and case studies                  
12       3   xray online examination                        
13       3   xray operator in service paediatric extremities
 4       4   workplace mental health wellbeing workshop                                  
 7       4   workplace mental health and wellbeing

恐怕我从未尝试过RecordLinkage，但如果您只是使用 Jaro-Winkler 距离，那么使用以下命令对相似的字符串进行聚类也应该相当容易stringdist包裹。使用您的dput above:

library(tidyverse)
library(stringdist)

map_dfr(dat$title, ~ {
    i <- which(stringdist(., dat$title, "jw") < 0.40)
    tibble(index = i, title = dat$title[i])
}, .id = "group") %>%
    distinct(index, .keep_all = T) %>% 
    mutate(group = as.integer(group))

解释: map_dfr迭代中的每个字符串dat$title，提取由以下计算得出的最接近匹配的索引stringdist（受 0.40 约束，即您的“阈值”），使用索引和匹配项创建一个 tibble，然后将这些 tibbles 与group与原始字符串的整数位置（和行号）相对应的变量。distinct然后根据重复项删除任何簇重复项index.

Output:

# A tibble: 13 x 3
   group index title                                          
   <int> <int> <chr>                                          
 1     1     1 lymphoedema clinic                             
 2     1     8 lymphoedema early intervenstion                
 3     1     9 lymphoedema expo                               
 4     1    10 lymphoedema for breast care nurses             
 5     2     2 zostavax shingles vaccine                      
 6     2     5 zostavax recall toolkit                        
 7     2    11 xray meeting and case studies                  
 8     3     3 xray operator                                  
 9     3     6 xray meetint                                   
10     3    12 xray online examination                        
11     3    13 xray operator in service paediatric extremities
12     4     4 workplace mental health wellbeing workshop     
13     4     7 workplace mental health and wellbeing

一个有趣的选择是使用tidytext with widyr按单词进行标记并根据相似度计算标题的余弦相似度words，而不是上面的字符。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 R 数据库中将相似的字符串分组在一起的相关文章

访问 R 工作区中的数据[重复]

这个问题在这里已经有答案了我是自学 R 的可能有一些非常基本的东西我可能不熟悉如果是这样我道歉我正在尝试访问外部来源提供给我的数据它作为一个工作空间出现我的流程如下 gt ls 1 2003OHT HR gt attach 20
使用 readHTMLTable 从 https 网页读取表格

我安装了 R 3 3 1 并使用 RStudio 0 99 903 我正在尝试从以下 URL 将表格读入 R https www fantasypros com nfl rankings consensus cheatsheets php
stat_function 从函数生成平线

我有以下代码 library ggplot2 f lt function x if x gt 2 1 x 0 3 else 0 graph lt ggplot data frame x c 0 10 aes x graph lt graph
在函数中使用 quit/q 会导致 RStudio 出现致命错误

更多的是好奇但当你使用时q or quit在 R studio 内的函数内部它会导致致命错误如下所示但 rgui 中的相同函数会导致 R 像往常一样停止并且仅使用q 在 RStudio 中按预期关闭 R 为什么q在函数中导致 RS
从 data.frame 中提取时用 NA 填充缺失的列

我有一个函数它将具有某些列的数据框作为输入 columns a b z 现在我有一个数据框DF只有很少的这些列DF columns f u z 如果列不在其中如何创建一个包含所有值为 NA 的列的数据框DF这与DF在柱子上 f u z
修改linux下的路径

虽然我认为我已经接近 Linux 专业人士但显然我仍然是一个初学者当我登录服务器时我需要使用最新版本的R 统计软件 R 安装在 2 个地方当我运行以下命令时 which R I get usr bin R 进而 R version
函数“[<-”将_替换_一个元素，但不会追加_元素_

我在使用时注意到以下几点 lt 我成功于替换元素但不位于追加向量的一个元素例子 VarX lt integer VarX 1 lt 11 lt VarX 2 22 VarX 1 11 Expected the value of VarX
在 Lavaan 生长曲线模型中提取个体轨迹

我已经使用 R 的 Lavaan 包中的 Growth 函数成功地对一项研究的纵向数据进行了建模我找不到任何关于如何提取每个参与者的预测轨迹的记录我只能找到整个组的预测轨迹在摘要输出的拦截部分下给出使用 lavPredict m
R 多元一步预测和准确性

我想使用 R 来比较两个预测模型的 RMSE 均方根误差第一个模型使用 1966 年至 2000 年的估计值来预测 2001 年然后使用 1966 年至 2001 年的估计值来预测 2002 年依此类推直至 2015 年第二个模型使
如何返回包含最大值标签的向量

我有一个 4 列数组我想获得一个向量其中每行包含包含该行最大值的列的标签我可以在循环中执行此操作但我想使用矩阵函数来提高速度我怎样才能在不编写自己的库函数的情况下做到这一点有一个函数可以做到这一点如果x是你的矩阵尝试max
R 中的龙卷风图

我正在尝试在 R 中绘制龙卷风图又名敏感性图目标是可视化某些变量增加 10 和减少 10 的效果到目前为止我已经得到这个结果这是我正在使用的代码 Tornado plot data lt matrix c 0 02 0 02 0 0
使用 RDCOMClient 搜索 Outlook 收件箱

我尝试使用 RDCOMClient 在 Outlook 收件箱中搜索电子邮件中的特定主题然后获取附件我在一封电子邮件上进行了这项工作但由于主题包含日期元素我需要搜索成为一个类似的子句但不太清楚这适合我的下面的查询 outlook
如何绘制每条线之间具有特定距离的图形

实际上我尝试绘制一个图形但它将所有列线放在一起并显示因此它不具有代表性我尝试制作模拟数据并向您展示我如何绘制它并向您展示我想要的内容我不知道如何制作像下面所示的示例的数据但我在这里做了什么 set seed 1 M lt
使用 pkg:sjPlot 函数创建一个生成部分斜体单元格的数据框

我正在尝试创建一个简单的数据表其中 Coral taxon 列中的属名称为斜体而 spp 列中的属名称为斜体属名后面的部分不大写我尝试使用 expression 函数对 Coral taxon 的每一行进行编码但没有成功 sum
R中整数类和数字类有什么区别

我想先说我是一个绝对的编程初学者所以请原谅这个问题是多么基本我试图更好地理解 R 中的原子类也许这适用于一般编程中的类我理解字符逻辑和复杂数据类之间的区别但我正在努力寻找数字类和整数类之间的根本区别假设我有一个简单的向量x
如何在 R 中绘制一列与其余列的关系图

我有一个数据集其中 1 是时间接下来的 14 个是幅度我想在一张图表上散布所有大小与时间的关系其中每个不同的列都是网格化的分层在另一个之上我想使用原始数据来制作这些图表并单独制作它们但只想执行此过程一次数据集A 唯一的自变
如何在 R 中将字符串解析为层次结构或树

有没有办法将表示组的字符串解析为 R 中的层次结构假设我的小组结构如下 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 3 1 1 3 1 1 1 3 2 1 1 3 3 1 2 1 2 1 1 2 1 1 1 2 1 2 1
合并数据框而不重复行

我想合并两个数据框但如果有多个匹配项则不想重复行相反我想总结一下那天的观察结果来自合并提取两个数据框中与指定列匹配的行并将其连接在一起如果有多个匹配项则所有可能的匹配项各贡献一行这是一些示例代码 days lt as d
如何绘制堆积比例图？

我有一个数据框 x lt data frame id letters 1 3 val0 1 3 val1 4 6 val2 7 9 id val0 val1 val2 1 a 1 4 7 2 b 2 5 8 3 c 3 6 9 我想绘制一个
通过使用 navbarPanel() 并隐藏导航栏构建多页闪亮应用程序用户端（在 ui.R 中）？

我想构建一个多页闪亮应用程序我可以在其中控制用户可以看到哪个页面迪安阿塔利确实这个演示应用程序中有类似的东西 https github com daattali advanced shiny tree master multiple

随机推荐

在 Javascript 中根据 JSON 数据创建饼图

我是 PHP 和 JavaScript 新手我需要使用从 URL 获取的 JSON 数据创建一个饼图 JSON 数据是 Domain Artificial Intelligence Count 46 Domain Data Archite
Actionscript 内存管理、垃圾收集

这个博客 http blogagic com 163 flex memory management and memory leaks varref 和其他人指出在清理对象时您应该在 dispose 方法中将对象引用设置为 null 但
人们可以放心地忽略宏和内置宏之间的区别吗？

我从 Clojure 开始这也是我的第一个 lisp 显然有很多东西需要吸收为了减轻认知负担我尝试找到我可以安全地忽略的部分目前人们能否安全地以相同的方式处理带有宏的表单和带有内置函数的表单或者是否会出现以后出现的陷阱换句话说
修改现有表单值 - GetChoices() 不起作用

为什么 getChoices https developers google com apps script reference forms list item getChoices 不适用于现有列表项我有以下代码它通过 ID 获取表单
Excel：如何使用数组连接 criteread 部分旁边的字符串（If 函数）

今天是个好日子我有一个 Excel 工作表分为两列如下所示我知道如何使用带有 sum 的数组 if 函数来将满足条件的列旁边的所有值相加如下所示 sum if A1 A5 YES B1 B5 但如何使用字符串进行操作并连接以便它
AdMob 刷新请求

我有几个令我困惑的问题谁最负责广告刷新加载请求后bannerView load GADRequest 让开发者或 Google 进行监控是最佳做法吗刷新时间应该短至 30 秒还是至少 60 秒他们建议 60 秒但给你选择 30 秒
Azure 部署错误：找不到 ClientPerfCountersInstaller.exe

我最近尝试在现有站点和部署上设置 Azure 预览缓存但由于错误而不得不中止但是从那时起当我尝试部署到 Azure 时我会收到以下错误找不到名为的文件approot bin Microsoft WindowsAzure Cachi
逆向工程的汇编语言[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
AWS Kubernetes 集群中出现“创建 pod 沙盒失败”pod 错误

问题摘要我们曾多次观察到我们的集群运行时遇到这样的问题一个或多个节点上的一个或多个 Pod 无法启动 Pod 内的一个或多个容器未启动 Pod 显示创建 Pod 沙箱失败错误在受影响的节点上重新启动 docker 或 kube
spring boot @controller @transactional 不起作用

I have Transactional控制器类中的方法如下主要问题是每个服务调用根据日志在其自己的事务中运行控制器是否忽略了事务功能我希望学生记录不会被保存因为我在使用另一个服务之后抛出异常但更新仍然发生在数据库中我什至有 E
sklearn 中的 SVM 支持增量（在线）学习吗？

我目前正在设计一个文本文章推荐系统有趣或不有趣的二元情况我的要求之一是它应该不断更新以适应不断变化的趋势据我所知最好的方法是利用支持增量在线学习 http en wikipedia org wiki Online 5fmac
HQL 子字符串最后 x 个字符

我对 Hibernate 很陌生我想获取字符串的最后 N 个字符我找到了 substring 方法但这并没有真正帮助有人有什么主意吗 TIA 我实际上使用子字符串修复了它我忘了我可以使用参数我做了类似的事情 Query q wh
在闪亮选项卡中使用多个 R Markdown 文件

我正在构建一个闪亮的应用程序我想要有多个选项卡集到目前为止我得到的代码告诉我 shinyUI navbarPage OEI Grant tabPanel Part 1 Organization tabsetPanel 1 x tabPa
如何在Swagger open api 3.0中定义常量字符串[重复]

这个问题在这里已经有答案了如何在 swagger open api 3 0 中定义常量字符串变量如果我定义枚举它将如下所示 StatusCode title StatusCode enum success fail type stri
使用Golang登录私有站点并提取信息

我尝试使用 golang 登录网站的私人区域并提取一些信息但我似乎不太正确我设法获取登录页面以获取 csrf 令牌然后将 csrf 令牌与登录信息一起发布到登录页面然后我就可以正常登录了如果我在此时停止我可以看到我被重定向的页面
当尝试使用 Webdriver 通过 linkText 查找链接时，有没有办法忽略大写字母？

我正在使用 Selenium 2 Webdriver 我想单击一个链接但链接文本可以是 Linktext 或 LINKTEXT 还有比这更好的方法吗 List
具有大量输入数据的 REST 端点 (GET)

我正在开发一个应用程序我需要将对象列表传递到 REST 端点该端点将执行一些计算并将结果返回给调用者问题更多的是一个哲学问题即如何处理这种情况在 GET 请求中传递巨大的负载是一个坏主意同时它并不是真正的 POST PUT 请
在表单提交上显示 Twitter Bootstrap 模式

我试图在提交表单时显示模式并满足某些条件例如表单有两个文本字段如果其中一个已填写则模式将向用户显示一些信息如果两个字段均未填写则表单将不会提交为此我这样做了但没有成功 jsfiddle jsFiddle 链接 http js
创建二叉树的时间复杂度

我正在尝试从提供的源创建一棵树要添加到树中的 2 个节点以及应添加这 2 个新闻节点的节点为了找到该节点在树中的位置我使用了中序遍历该遍历的时间复杂度为 O n 因此如果要在树中添加 n 个节点则创建整个树的时间复杂度为 O
如何在 R 数据库中将相似的字符串分组在一起

我的小标题只有 1 列称为标题 gt dat A tibble 13 x 1 title

如何在 R 数据库中将相似的字符串分组在一起

如何在 R 数据库中将相似的字符串分组在一起 的相关文章

随机推荐

热门标签

如何在 R 数据库中将相似的字符串分组在一起的相关文章