R：Regex_Join/Fuzzy_Join - 以不同的词序连接不精确的字符串

2024-02-02

df1

df2

df3

library(dplyr)
library(fuzzyjoin)
df1  <- tibble(a =c("Apple Pear Orange", "Sock Shoe Hat", "Cat Mouse Dog"))
df2  <- tibble(b =c("Kiwi Lemon Apple", "Shirt Sock Glove", "Mouse Dog"),
               c = c("Fruit", "Clothes", "Animals"))
# Appends 'Animals'
df3 <-  regex_left_join(df1,df2, c("a" = "b"))
# Appends Nothing
df3 <-  stringdist_left_join(df1, df2,  by = c("a" = "b"), max_dist = 3, method = "lcs")

我想使用字符串将 df2 的 c 列附加到 df1， “苹果”、“袜子”和“老鼠狗”。

我尝试这样做正则表达式_连接 and 模糊连接但字符串的顺序似乎很重要，并且似乎无法找到解决方法。

regex_left_join有效，但它不仅仅是寻找任何相似之处。正如描述中所说，

通过 a 将表与字符串列连接起来另一个表中的正则表达式列

因此，我们需要提供一个正则表达式模式。如果df2$b包含单独的感兴趣的单词，我们可以这样做

(df2$regex <- gsub(" ", "|", df2$b))
# [1] "Kiwi|Lemon|Apple" "Shirt|Sock|Glove" "Mouse|Dog"

and then

regex_left_join(df1, df2, by = c(a = "regex"))[-ncol(df1) - ncol(df2)]
# A tibble: 3 x 3
#   a                 b                c      
#   <chr>             <chr>            <chr>  
# 1 Apple Pear Orange Kiwi Lemon Apple Fruit  
# 2 Sock Shoe Hat     Shirt Sock Glove Clothes
# 3 Cat Mouse Dog     Mouse Dog        Animals

where -ncol(df1) - ncol(df2)只需删除包含正则表达式模式的最后一列即可。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

regex

stringmatching

fuzzyjoin

R：Regex_Join/Fuzzy_Join - 以不同的词序连接不精确的字符串的相关文章

如何在正则表达式中输入“：”（“冒号”）？

冒号在正则表达式中具有特殊含义但我需要按原样使用它例如 A Za z0 9 我试图逃避它但这不起作用 A Za z0 9 在大多数正则表达式实现包括 Java 的中无论在字符类内部还是外部都没有特殊含义您的问题很可能是由于
R 错误：无法更改锁定绑定的值

我试图估计无限数字流的平均值和标准差当我运行代码时出现错误消息无法更改锁定绑定的值我做了一些研究发现这个错误与我使用全局变量有关但我无法弄清楚任何帮助将非常感激在此先感谢您的帮助 define global variable
R参考类问题

我正在尝试在 R 中创建一个简单的参考类这是我的代码 R 初学者 MyClass lt setRefClass MyClass fields list a numeric b numeric methods list initialize
按组计算连续行中的值之间的差异

这是我的一个df 数据框 group value 1 10 1 20 1 25 2 5 2 10 2 15 我需要按组计算连续行中的值之间的差异所以我需要一个结果 group value diff 1 10 NA because the
rvest 和 NHL 统计数据的 CSS 选择器问题

我想从 hockey reference com 中抓取数据特别是从以下链接中抓取数据 https www hockey reference com leagues NHL 1991 html https www hockey refer
选择前 n 个字符相等的行（MySQL）

我有一张带有玩家句柄的桌子如下所示 1 N Laka 2 N James 3 nor Brian 4 nor John 5 Player 2 6 Spectator 7 N Joe 从那里我想选择第一个 n 字符匹配的所有玩家但我不知道
如何确定 R 包的作者？

如何确定包的作者是谁鉴于我们拥有这个广泛使用的代码库我认为参考我在分析中使用的软件是合适的有没有办法以编程方式检索作者和任何其他相关信息在伪代码中我想执行以下操作 references base 我怎样才能做到这一点为了能够引用
具有连字符的 Oracle 正则表达式在 Windows 上给出的结果与在 Unix 上不同

我有以下带有正则表达式的查询 select REGEXP REPLACE TEST 3304 V2 lt gt as REG from dual 当通过 SQL Plus 在Windows机器返回以下内容 SQL gt select REG
使用 ggplot 构面时增加闪亮的绘图大小

有没有办法增加绘图窗口的大小shiny取决于在一个中使用的面的数量ggplot图也许使用垂直滚动例如使用下面的示例当输入为 A 有三个方面情节看起来不错当选项 B 选择绘图数量会增加但绘图窗口保持相同大小导致绘图太小是否有
按不规则时间间隔对数据进行分组求和（R语言）

我正在看这里的 stackoverflow 帖子 R 计算一组内的观察次数 https stackoverflow com questions 65366412 r count number of observations within a
使用 RDCOMClient 搜索 Outlook 收件箱

我尝试使用 RDCOMClient 在 Outlook 收件箱中搜索电子邮件中的特定主题然后获取附件我在一封电子邮件上进行了这项工作但由于主题包含日期元素我需要搜索成为一个类似的子句但不太清楚这适合我的下面的查询 outlook
有没有办法匹配任意 Unicode 字母字符？

我有一些文档经过 OCR 从 PDF 转换为 HTML 因此他们最终会出现很多随机的 unicode 标点符号而转换器会搞砸即省略号等他们还正确地有一堆非英语但仍然是字母字符如和俄语字符等有没有办法制作一个匹配任何 unico
R 编程常用工具

如果已经以不同的方式问过这个问题我深表歉意但我找不到任何达到我想要的东西我真的是从其他软件包 SPSS 开始接触 R 的当我了解真正可以做什么时我意识到我还需要其他工具这让我想到了我的问题您有哪些用于开发 R 代码的设置我
R中整数类和数字类有什么区别

我想先说我是一个绝对的编程初学者所以请原谅这个问题是多么基本我试图更好地理解 R 中的原子类也许这适用于一般编程中的类我理解字符逻辑和复杂数据类之间的区别但我正在努力寻找数字类和整数类之间的根本区别假设我有一个简单的向量x
字符串中的注释和注释中的字符串

我正在尝试使用 Python 和 Regex 计算 C 代码中包含的注释中的字符数但没有成功我可以先删除字符串以删除字符串中的注释但这也会删除注释中的字符串结果会很糟糕是否有机会通过使用正则表达式来询问不匹配注释中的字符串反之亦
读取R中打开的Excel文件

有没有办法将打开的Excel文件读入R 当Excel中打开一个excel文件时 Excel会对文件加锁比如R中的read方法无法访问该文件你能绕过这个锁吗 Thanks 编辑这发生在带有原始 Excel 的 Windows 下发生错
如何自动启动我的 ec2 实例、运行命令然后将其关闭？

我想每周对 redshift postgres 数据库中的数据运行一次机器学习模型我使用以下命令将 R 脚本设置为休息 apiplumbr然后我将其设置为一项任务来管理pm2 我有它所以任务会在ec2实例启动然后继续运行要让 R 脚本
计算互相关函数？

In R 我在用ccf or acf计算成对互相关函数以便我可以找出哪个移位给我带来最大值从它的外观来看 R给我一个标准化的值序列 Python 的 scipy 中是否有类似的东西或者我应该使用fft模块目前我正在这样做 xcor
不同 R/lme4 版本的单一拟合结果不匹配

我试图将 R 版本 3 5 3 lme4 1 1 18 1 的随机效应估计与 R 版本 4 1 1 lme4 1 1 27 1 相匹配然而当存在奇异拟合时这两个版本之间的随机效应存在微小差异我对奇点警告很满意但令人费解的是不同版本
通过使用 navbarPanel() 并隐藏导航栏构建多页闪亮应用程序用户端（在 ui.R 中）？

我想构建一个多页闪亮应用程序我可以在其中控制用户可以看到哪个页面迪安阿塔利确实这个演示应用程序中有类似的东西 https github com daattali advanced shiny tree master multiple

随机推荐

白屏死机 - PHP/Vagrant 环境中没有显示错误 (Yii)

我不能确定这个问题是否部分是由于 vagrant 造成的但是我在运行 Unix 的 Vagrant 盒子中安装了 Yii 1 x 我试图强制执行一个简单的 PHP 错误例如控制器中缺少分号即使我 100 确定我创建了一个错误但我没有
删除Python列表中包含数字的所有项目[重复]

这个问题在这里已经有答案了从大量字符串列表中删除包含数字的所有项目的最佳方法是什么 Input 这个那个那些4423 42 13b 是 2 Output 这个那个是 gt gt gt foo This That Those4423
下一个回文数

我是编程初学者所以你能告诉我我的代码有什么问题吗如果用户输入的数字 n 不是回文我想打印下一个回文数 n int input Enter any number reverse 0 temp n while n 0 reverse re
已尝试附加或添加不是新的实体，可能是从另一个 DataContext 加载的

我遇到了 NotSupportedException 问题我得到已尝试附加或添加不是新的实体可能是从另一个 DataContext 加载的 partial class SupplyOfert Model public SupplyOf
为什么这个 Observable.Generate 重载会导致内存泄漏？ [使用时间跨度 < 15ms]

以下 Rx NET 代码在我的机器上运行大约 10 秒后将使用大约 500 MB 的内存 var stream Observable Range 0 10000 SelectMany i gt Observable Generate 0 j
Zend Framework 2 可以/应该如何包含到 Git 版本化项目中？

应如何管理 Zend Framework 2 项目的版本控制是否有最佳实践标准方法子模块是正确的关键字吗 Zend Framework 2 项目通常是一个轻量级框架应用程序具有各种已安装的模块这些模块通常位于单独的专用存储库中
OAuth 刷新令牌最佳实践 [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我正在为一个项目实现 OAuth 我想知道处理刷新令牌的最佳方法我调用的API将返回一个带有access token expires in和r
将拖放事件转发到父视图

我有一个应用程序其中有一个派生自 NSView 的自定义视图在这个视图中有几个自定义子视图它们也是从 NSView 派生的我想实现拖放行为允许将 URL 拖放到视图上主视图的一切都已正常工作所以实际上我必须在子视图和父视图
Java Eclipse 在保存时关闭自动构建工作区

突然我的 Eclipse 开始在我保存时自动构建工作区并且仅一次保存就需要很长时间我倾向于经常保存以前从未这样做过所以我想知道如何将其关闭 If you want to turn off auto Building your p
Gitlab CI 变量返回空字符串？

自从我的一个项目在 Gitlab CI 上构建开始失败以来已经过去 2 天了主要错误是E MISSING APP KEY当我通过回显检查另一个变量时 HOST and PORT从我的 gitlab ci yml配置像这样 tests s
在显示模块化模式对象上创建继承

我正在尝试在对象之间创建某种继承 var foo function function doFooStuff console log arguments callee name return doFooStuff doFooStuff var
MapView 谷歌地图 NullPointerException？

我正在尝试创建一个如何获得使用地图视图我创建了一个 Fragment 和一个 XML 来使用它问题是当我尝试打开 MapView 时抛出空指针异常但我不明白为什么我该如何解决呢 XML
未收到额外意向

我正在显示来自附加到我的项目的库的通知当单击该通知时该通知会转到一个活动 ReceivingActivity 单击通知后活动将打开但不会收到附加的附加内容通知触发代码我调用sendNotification当我收到 gcm 消息并且
如何将 javax.activation.DataSource 添加到 App Engine 开发服务器？

tl dr 我如何添加javax activation DataSource依赖于通过 App Engine Maven 插件运行的服务器我正在使用App Engine Maven 插件 https cloud google com ap
Google OAuth 2.0 离线访问

即使用户不在场我的应用程序也需要访问用户的数据所以我的授权码请求包括access type offline这意味着如果这是用户第一次验证我的应用程序我将取回刷新令牌我保存刷新令牌并稍后使用它一切都按预期进行并且运行得很好但令我困
java.lang.IllegalStateException：已为此响应调用 getOutputStream() [重复]

这个问题在这里已经有答案了当用户单击某个链接时使用 Web 服务将文档从远程 ECM 系统传输到用户计算机所以我创建了 servlet 并从查询字符串中获取参数并从 URL 中获取参数根据参数属性调用多个与 Web 服务相关的方法
在 Ruby on Rails 中使用随机字符串作为 id？

我想创建一个类似于的网络应用程序http www pastebin com http www pastebin com 在 Ruby on Rails 中 astebin com 使用随机字符串来标识项目 Ruby on Rails 使用自
我如何将泛型类作为参数传递给 Intent 构造函数

我的 Android 应用程序中有这个通用活动 public class NavegadorActivity
Xampp - Ubuntu - 无法访问 lampp/htdocs 中的我的项目

我已经将 xampp 安装到 Ubuntu 12 04 我已将我的项目放在文件夹 opt lampp htdocs project is here 中当我在浏览器中输入内容时localhost soap php soap php 位于我的
R：Regex_Join/Fuzzy_Join - 以不同的词序连接不精确的字符串

df1 df2 df3 library dplyr library fuzzyjoin df1 lt tibble a c Apple Pear Orange Sock Shoe Hat Cat Mouse Dog df2 lt tibbl

R：Regex_Join/Fuzzy_Join - 以不同的词序连接不精确的字符串

R：Regex_Join/Fuzzy_Join - 以不同的词序连接不精确的字符串 的相关文章

随机推荐

热门标签

R：Regex_Join/Fuzzy_Join - 以不同的词序连接不精确的字符串的相关文章