r中的模糊字符串匹配

2024-04-25

我有 2 个数据集，每个数据集超过 100K 行。我想根据匹配一列（“电影标题”）的模糊字符串以及使用发布日期来合并它们。我提供了下面两个数据集中的样本。

数据集-1

itemid userid rating       time                              title release_date
99991    1673    835      3 1998-03-27                             mirage         1995
99992    1674    840      4 1998-03-29                         mamma roma         1962
99993    1675    851      3 1998-01-08                     sunchaser, the         1996
99994    1676    851      2 1997-10-01                   war at home, the         1996
99995    1677    854      3 1997-12-22                      sweet nothing         1995
99996    1678    863      1 1998-03-07                         mat' i syn         1997
99997    1679    863      3 1998-03-07                          b. monkey         1998
99998    1680    863      2 1998-03-07                      sliding doors         1998
99999    1681    896      3 1998-02-11                       you so crazy         1994
100000   1682    916      3 1997-11-29 scream of stone (schrei aus stein)         1991

数据集 - 2

itemid userid rating       time                                   title release_date
1    2844   4477      3 2013-03-09 fantã´mas - ã€ l'ombre de la guillotine         1913
2    4936   8871      4 2013-05-05                                the bank         1915
3    4936  11628      3 2013-07-06                                the bank         1915
4    4972  16885      4 2013-08-19                   the birth of a nation         1915
5    5078  11628      2 2013-08-23                               the cheat         1915
6    6684   4222      3 2013-08-24                             the fireman         1916
7    6689   4222      3 2013-08-24                         the floorwalker         1916
8    7264   2092      4 2013-03-17                                the rink         1916
9    7264   5943      3 2013-05-12                                the rink         1916
10   7880  11628      4 2013-07-19                             easy street         1917

我看过“agrep”，但它一次只匹配一个字符串。 “stringdist”函数很好，但您需要在循环中运行它，找到最小距离，然后继续进一步处理，考虑到数据集的大小，这是非常耗时的。字符串可能有拼写错误和特殊字符，因此需要模糊匹配。我环顾四周，发现了“Lenenshtein”和“Jaro-Winkler”方法。当你在字符串中出现拼写错误时，我读的后面的内容很有用。

在这种情况下，仅模糊匹配可能无法提供良好的结果，例如，一个数据集中的电影标题“玩具总动员”可以与另一个数据集中的“玩具总动员 2”匹配，这是不正确的。所以我需要考虑上映日期以确保匹配的电影是独一无二的。

我想知道是否有一种方法可以在不使用循环的情况下完成此任务？最糟糕的情况是，如果我必须使用循环，我怎样才能让它高效、尽可能快地工作。

我尝试了以下代码，但处理起来花费了很长时间。

for(i in 1:nrow(test))
  for(j in 1:nrow(test1))
  {

    test$title.match <- ifelse(jarowinkler(test$x[i], test1$x[j]) > 0.85,
                      test$title, NA)
  }

测试 - 包含 1682 个转换为小写的唯一电影名称 test1 - 包含 11451 个转换为小写的唯一电影名称

有没有办法避免 for 循环并使其运行得更快？

这种推动你前进的方法怎么样？看到结果后，您可以从 0.85 开始调整匹配度。然后，您可以使用 dplyr 按匹配的标题进行分组，并通过减去发布日期进行汇总。任何零都意味着相同的发布日期。

dataset-1$title.match <- ifelse(jarowinkler(dataset-1$title, dataset_2$title) > 0.85, dataset-1$title, NA)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r中的模糊字符串匹配的相关文章

如何在ubuntu的conda环境中更改Rstudio中的R版本

我在基本系统中安装了 R 4 3 和 Rstudio 在 conda 环境中安装了旧版本的 R 4 2 3 命令which R返回环境中安装的 R 的目录 home 用户 miniconda3 envs anndata2ri pip bin
使用字符串中的变量名称访问变量值，R

Intro 一个数据集有大量的age year变量 age 1990 age 1991 etc 我有一个字符串值数组length age years 表示这些变量使得age years 1 回报 age 1990 etc Need 我想搜
rpart“as.character(x) 中的错误：无法强制类型 'builtin' 为类型 'character' 的向量”消息是什么意思？

我一直在用头撞rpart几天了尝试为我拥有的这个数据集制作分类树我认为现在是时候询问生命线了我确信这是我没有看到的愚蠢的事情但这里是我一直在做什么 EuropeWater lt read csv file paste Users a
如何在 R 中合并同名列表中的数据框？

我有一个包含很多数据框的列表如果它们具有相同的名称我想合并它们即合并所有具有相同名称 a 和 b 的数据框像这样 a lt aaaaa b lt bbbbb c lt ccccc g lt list df1 lt data fram
在 R 传单中添加不透明度滑块

如何在 R leaflet 应用程序中添加滑块来控制特定图层的不透明度对于这个应用程序我不想使用闪亮这里建议在 R 传单应用程序中添加滑块 https stackoverflow com questions 37682619 add
为什么数据帧上的 is.vector 不返回 TRUE？

tl dr R 中的向量到底是什么长版 R 中很多东西都是向量例如数字是长度为 1 的数值向量 is vector 1 1 TRUE 列表也是一个向量 is vector list 1 1 TRUE 好的所以列表是一个向量显然数
R - 计算 bin 中特定值的数量

我有一个如下所示的数据框 df Value lt c 1 1 0 2 1 3 4 0 0 1 2 0 3 0 4 5 2 3 0 6 Sl lt c 1 20 df lt data frame Sl Value gt df Sl Value
使用officer R导出时如何提高ggplots的分辨率

我想将图表导出到 PPT 并使用Officer 包来实现相同的目的但是图表的默认分辨率较低我想更改它我目前正在使用以下电话 ph with gg p1 type chart res 1200 其中 p1 是 ggplot 对象运行
访问或解析 R 中的 summary() 中的元素

我运行以下 R 命令来进行 Dunnett 测试并获取摘要如何访问下面线性假设的每一行这是摘要输出的一部分基本上我不知道摘要的结构我尝试使用名称但它似乎不起作用因为我没有看到任何命名属性来提供这一点 library multco
警告消息 - 来自 dummies 包的 dummy

我正在使用 dummies 包为分类变量生成虚拟变量其中一些变量具有两个以上类别 testdf lt data frame A as factor c 1 2 2 3 3 1 B c A B A B C C C c D D E D D E
如何纠正 data.frame 上的字符编码

我有一个像这样的数据框 data names lt data frame DATA c 1 5 rownames data names lt c IV xc1N JOS xc9 LUC xcdA RAM xd3N TO xd1O data
为什么 sapply 的缩放速度比样本大小的 for 循环慢？

假设我想采用向量 X 2 1 N 并将 e 计算为每个元素的指数是的我认识到最好的方法就是通过向量化 exp X 但这样做的目的是将 for 循环与 sapply 进行比较我通过逐步尝试三种方法一种使用 for 循环两种以不同方
`as.matrix` 和 `as.data.frame` S3 方法与 S4 方法

我注意到定义as matrix or as data frame作为 S4 类的 S3 方法使例如lm formula objS4 and prcomp object 开箱即用如果它们被定义为 S4 方法则这不起作用为什么将方法定义
行对名称中具有特定模式的列求和

我有一个像这样的数据表 DT lt ata table data table ref rep 3L 4L nb 12 15 i1 c 3 1e 05 0 044495 0 82244 0 322291 i2 c 0 000183 0 155
从 data.frame 在 ggplot 图例中添加信息

我想在图例中添加信息哪个传感器具有该值这是我的代码 z lt data frame a c sensor 1 sensor 2 sensor 3 sensor 4 sensor 5 sensor 6 sensor 7 sensor 8
R Shinydashboard 自定义 CSS 到 valueBox

我一直在尝试将 valueBox 的颜色更改为自定义颜色超出 validColors 中可用的颜色但一直无法这样做我知道有一种方法可以使用标签来包含自定义 CSS 但是我无法将它们放在正确的位置 ui lt dashboardPage
在 RMarkdown 输出到 PDF 时缩进而不添加项目符号点或编号

之前有人问过如何在没有项目符号的情况下缩进文本 RMarkdown 中的点但这是针对 HTML 输出的在 RMarkdown 中缩进而不添加项目符号点或数字 https stackoverflow com questions 47087
R在Windows平台Rstudio上打印data.frames中的UTF-8代码

当数据框中存在UTF 8字符时将无法正常显示例如以下内容是正确的 gt U6731 1 朱但是当我将其放入数据框中并打印出来时它是 gt data frame x U6731 x 1
data.table 抛出“找不到对象”错误[重复]

这个问题在这里已经有答案了我有一个数据表 library data table mydt lt data table index 1 10 当我在全局环境中尝试它时我可以让它工作但当我在调试器中或在包测试中使用它时却无法工作问题是我
case_when 与部分字符串匹配和 contains()

我正在使用一个数据集其中有许多名为 status1 status2 等的列在这些列中它表示某人是否豁免完整注册等不幸的是豁免投入并不一致这是一个示例 library dplyr problem lt tibble perso

随机推荐

是什么原因导致 grunt.js 中的 /*global module: false*/

许多 grunt js 脚本以以下内容开头 global module false module exports function grunt 但是第一行注释的原因是什么它是 JSLint 或 JSHint 的指令它告诉 JSLint
如何矢量化 3D Numpy 数组

我有一个 3D numpy 数组例如a np zeros 100 100 20 我想对每个执行操作x y涉及所有元素的位置z轴结果存储在一个数组中例如b np zeros 100 100 在同一个对应的x y位置现在我使用 for
/storage/logs 处不存在现有目录且不可构建：权限被拒绝

我在 OVH Web 服务器上部署 Laravel 时遇到问题制作完成后 composer update php artisan cache clear php artisan route clear php artisan dump a
Amazon Redshift-备份和恢复最佳实践？

我们在 Redshift 中有一组表其中的列具有 IDENTITY 属性用于序列生成在测试阶段需要进行备份和恢复这是每个测试周期的重复活动我们按照以下流程进行备份然后恢复并遇到以下问题传统方式使用 CREATE TABLE
是否可以同时从多个 Mercurial 存储库中提取数据？

我希望能够做这样的事情 hg pull http server repo1 http server repo2 http otherserver repo 并让所有变更集立即下来添加了 x 变更集并对 z 文件进行了 y 更改消息聚合
如何在java中使用布尔值对ArrayList进行排序？

我有一个带有自定义对象的 ArrayList 它们包含一个我想要排序的复选框对象我正在使用这个比较器函数对其进行排序我使用 XOR 运算符来检查它们是否彼此相等然后将其取反然而这不起作用并且列表保持相同的顺序有谁知道出了什么问
适用于 Littler 或 Rscript 的外部图形设备

我真的很喜欢 Littler 对于使用 R 编写脚本非常有用但我不知道如何使用 gnuplot 中的外部图形设备例如使用 Octave 我能够生成所需的图表但我必须使用 Sys sleep 并且我不想这样做因为我想以交互方式自行关闭
如果图像尺寸太大，在 SQL Server 中存储图像的最佳方式是什么？

是否可以在 SQL Server 中存储大小为 3GB 的图像我知道这似乎是不切实际的场景但我很好奇是否可以以任何方式将图像保存在数据库中微软建议您使用文件流 https msdn microsoft com en GB librar
在 GCC 中启用严格浮点模式

我还没有创建一个程序来查看 GCC 是否需要它通过当我这样做时我想知道如何启用严格的浮点模式这将允许在运行和计算机之间重现结果谢谢编译用 msse2在支持它的 Intel AMD 处理器上您几乎就可以实现这一目标不要让任何库将
Selenium WebDriver jQuery

我对 Selenium WebDriver 非常陌生我正在学习如何使用 jQuery 选择器来处理元素而不是使用 XPath 表达式 ID 等您能否提供一个链接来帮助我在该链接中我可以找到有关如何在 Selenium WebDriv
Linux 中的 C 聊天室 / Socket 编程

我有一个简单的服务器和客户端 C 代码来使用线程 pthread 库为多客户端创建一个聊天室我一直遇到的问题是我无法想出一种方法让服务器将客户端通过套接字发送到所有其他客户端的每条消息写入我在这里读过其他类似的帖子但很无奈请帮助
使用 JavaScript/AngularJS 将数组转换为对象

我需要将父数组内的数组转换为对象以匹配我的数据库模型数据我有这样的数组 emails Array 2 0 email protected cdn cgi l email protection 1 email protected cdn c
多个挑选事件干扰

我有几个数据系列分散在一个图中并且希望能够为它们切换注释问题是有时会触发两个拾取事件当用户单击注释和点内的点时注释拾取事件会清除注释但点拾取事件会将其放回原处因此效果是切换不起作用 df pd DataFrame a n
R 使用值列表作为色标

我想将变量的值表示为 R 中散点中的点的颜色 x lt rnorm 100 5 y lt rnorm 100 5 plot x y 在这里我想使用一个变量作为着色的输入但如果我尝试 plot x y col x 我得到了一些奇怪的东西
递归算法无法在指定时间内完成测试

我正在进行一项测试需要二进制断层扫描算法提供了一组 38 个测试值来测试正确性但完成所有测试也有 1 CPU 秒的时间限制问题如下如果存在 m n 矩阵 A 且每个元素为 0 或 1 则输出 Yes 使得否则输出否对于每个测
在以下任何来源中均未找到插件 [id: 'org.jetbrains.kotlin.jvm', 版本: '1.2.71']

我全新安装了 IntelliJ 使用以下设置创建了一个新的 kotlin gradle 项目这会生成以下 build gradle kts 完全相同的文件在我的 Windows 计算机上运行 import org jetbrains ko
创建可以传递参数而无需创建新组件的函数

我的问题与这个问题有关React用于渲染函数中的绑定函数以下不是好的做法 render div 因为每次重新渲染都会向页面添加一个新功能最终导致浏览器内存不足解决方案是这样做 constructor this callFunction
Google Chrome 中 array.splice() 的时间复杂度是多少？

如果我使用 splice 从数组中删除一个元素如下所示 arr splice i 1 这会是O n 在最坏的情况下因为它会移动 i 之后的所有元素或者它是常数时间下面有一些链表魔法最坏的情况下should be O n 复制所有n
.NET：属性何时实例化？我可以获得它们所修饰的类型的引用吗？

关于属性的两个问题属性类什么时候实例化当第一次访问类型时还是在开始执行时从属性类中我可以找出该属性是为哪种类型实例化的吗我的想法是我想列出程序集中应用了我的属性的所有类的列表我当然可以通过反射和检查来迭代所有这些但如果该属
r中的模糊字符串匹配

我有 2 个数据集每个数据集超过 100K 行我想根据匹配一列电影标题的模糊字符串以及使用发布日期来合并它们我提供了下面两个数据集中的样本数据集 1 itemid userid rating time title release

r中的模糊字符串匹配

r中的模糊字符串匹配 的相关文章

随机推荐

热门标签

r中的模糊字符串匹配的相关文章