从向量中删除相似但更长的重复项

2024-02-08

对于数据库清理，我有一个向量，例如菜肴，我想删除“基础”菜肴的所有变体，只保留基础菜肴。举例来说，如果我有...

dishes <- c("DAL BHAT", "DAL BHAT-(SPICY)", "DAL BHAT WITH EXTRA RICE", 
            "HAMBURGER", "HAMBURGER-BIG", "HAMBURGER2", "PIZZA", 
            "PIZZA (PROSCIUTO)", "PIZZA_BOLOGNESE")

...我想删除向量中已经具有较短匹配版本的所有条目。因此，所得向量将仅包括：“DAL BHAT”、“HAMBURGER”、“PIZZA”。

使用嵌套for循环并检查所有其他内容将适用于此示例，但对于手头的大型数据集来说会花费很长时间，而且我会说这是丑陋的编码。

可以假设所有条目都是大写的并且向量已经排序。不能假设下一个基菜的第一项总是比前一个条目短。

关于如何有效解决这个问题有什么建议吗？

额外问题：理想情况下，我只想从初始向量中删除项目，前提是它们比较短的对应项目至少长 3 个字符。在上述情况下，这意味着“HAMBURGER2”也将保留在结果向量中。

这是我对此采取的方法。我将创建一个包含一些我需要考虑的条件的函数，并将其用于输入。我添加了注释来解释函数中发生的情况。

该函数有 4 个参数：

invec：输入字符向量。
thresh：我们可以用多少个字符来确定“基础”菜。默认 = 5。
minlen：你的“奖金”问题。默认 = 3。
strict: 符合逻辑。如果有底菜nchar比你的短thresh，您想要降低阈值还是严格限制您对基础的要求？默认 =FALSE。请参阅最后一个示例以了解如何操作strict可能会起作用。

myfun <- function(invec, thresh = 5, minlen = 3, strict = FALSE) {
  # Bookkeeping -- sort, unique, all upper case
  invec <- sort(unique(toupper(invec)))
  # More bookkeeping -- min should not be longer 
  # than min base dish unless strict = TRUE
  thresh <- if (isTRUE(strict)) thresh else min(min(nchar(invec)), thresh)
  # Use `thresh` to get the `stubs``
  stubs <- invec[!duplicated(substr(invec, 1, thresh))]
  # loop through the stubs and do two things:
  #   - Match the dish with the stub
  #   - Return the base dish and any dishes within the minlen
  unlist(
    lapply(stubs, function(x) {
      temp <- grep(x, invec, value = TRUE, fixed = TRUE)
      temp[temp == x | nchar(temp) <= nchar(x) + minlen]
      }), 
    use.names = FALSE)
}

您的样本数据：

dishes <- c("DAL BHAT", "DAL BHAT-(SPICY)", "DAL BHAT WITH EXTRA RICE", 
            "HAMBURGER", "HAMBURGER-BIG", "HAMBURGER2", "PIZZA", 
            "PIZZA (PROSCIUTO)", "PIZZA_BOLOGNESE")

结果如下：

myfun(dishes, minlen = 0)
# [1] "DAL BHAT"  "HAMBURGER" "PIZZA" 

myfun(dishes)
# [1] "DAL BHAT"   "HAMBURGER"  "HAMBURGER2" "PIZZA"

这是更多示例数据。请注意，在“dishes2”中，数据不再排序，并且有一个新项目“DAL”，在“dishes3”中，您还有小写的菜肴。

dishes2 <- c("DAL BHAT", "DAL BHAT-(SPICY)", "DAL BHAT WITH EXTRA RICE", 
             "HAMBURGER", "HAMBURGER-BIG", "HAMBURGER2", "PIZZA", 
             "PIZZA (PROSCIUTO)", "PIZZA_BOLOGNESE", "DAL")

dishes3 <- c("DAL BHAT", "DAL BHAT-(SPICY)", "DAL BHAT WITH EXTRA RICE", 
             "HAMBURGER", "HAMBURGER-BIG", "HAMBURGER2", "PIZZA", 
             "PIZZA (PROSCIUTO)", "PIZZA_BOLOGNESE", "DAL", "pizza!!")

这是这些向量的函数：

myfun(dishes2, 4)
# [1] "DAL"        "HAMBURGER"  "HAMBURGER2" "PIZZA"   

myfun(dishes3)
# [1] "DAL"        "HAMBURGER"  "HAMBURGER2" "PIZZA"      "PIZZA!!"  

myfun(dishes3, strict = TRUE)
# [1] "DAL"        "DAL BHAT"   "HAMBURGER"  "HAMBURGER2" "PIZZA"      "PIZZA!!"

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

regex

vector

set

从向量中删除相似但更长的重复项的相关文章

替换字符串列表中的 \x00 的最佳方法？

我有一个来自已解析 PE 文件的值列表其中包括 x00每个部分末尾的空字节我希望能够删除 x00字符串中的字节而不删除所有字节 x 文件中的 s 我试过做 replace and re sub 但并没有取得太大成功使用Python 2
R 中的 aov() 错误术语：bw Error(id) 和 Error(id/timevar) 规范有什么区别？

两者有什么区别aov depvar timevar Error id 和aov depvar timevar Error id timevar 配方规格这两种变体产生略有不同的结果同样的问题曾经在这里被问过 https stats st
更快地评估从右到左的矩阵乘法

我注意到以二次形式评估矩阵运算右到左明显快于左到右在 R 中取决于括号的放置方式显然它们都执行相同的计算量我想知道为什么会这样这与内存分配有什么关系吗 A 5000 5000 B 5000 2 A matrix runif 5000
时间序列，将月度数据改为季度

现在我有一些每月数据例如 1 1 90 620 2 1 90 591 3 1 90 574 4 1 90 542 5 1 90 534 6 1 90 545 etc 如果我使用 ts 函数很容易将数据转换为时间序列结构例如 Jan F
Pyspark - 一次聚合数据帧的所有列[重复]

这个问题在这里已经有答案了我想将数据框分组到单个列上然后对所有列应用聚合函数例如我有一个包含 10 列的 df 我希望对第一列 1 进行分组然后对所有剩余列均为数字应用聚合函数 sum 与此等效的 R 是 summarise
如何一次执行多个 RSQLite 语句或如何转储整个文件？

使用 RSQLite 构建 SQLite 数据库我想一次发送多个语句这可能吗为什么要做这些not work sql lt readLines createtables sql dbSendQuery con sql 和 sql lt
如何仅计算数字长度正则表达式

俄罗斯电话号码有11位数字但我无法使用a 11 因为电话号码可以包含括号和破折号我的正则表达式 d 1 2 0 9 3 0 9 7 9 号码可以包含 1 到 2 个字符作为国家地区代码然后 3 位带括号的数字或不作为电话运营商代码然后是
如何在 R 中的多图形环境中画一条线？

举一个非常简单的例子 mfrow c 1 3 每个图都是不同的直方图我将如何画一条水平线类似于abline h 10 所经过的all3位数也就是说甚至是它们之间的边距显然我可以为每个图形添加一条 abline 但这不是我想要的
为字符串列表创建正则表达式

I have extracted a series of tables from the scientific literature which consist of columns each of which is a distinct
sed 替换 json 对象中键的值

我想做什么给定一个 json 事件文件我想通过关键字定位特定事件然后将该事件中的键值替换为这必须使用 sed 来完成 Splunk 转发问题我不会用细节来烦你事件示例 message we have a response fro
R: pi[[j]] 中的错误：下标越界——数据帧列表上的 rbind

我正在尝试重新绑定一个大的数据帧列表 outputDfList 它是通过将一个复杂的函数应用于一个大表而生成的您可以通过以下方式重新创建outputDfList df1 data frame randomseq chr15q22 1 tr
R grep：有 AND 运算符吗？

假设我有以下数据框 User Id Tags 34234 imageUploaded people jpg more comma separated stuff 34234 imageUploaded 12345 people jpg 我如
查询文本指定 use_legacy_sql:false，而 API 选项指定:true

我将 standardSQL 与 bigrquery 一起使用 library bigrquery project lt sql lt standardSQL SELECT result lt query exec sql project
读取r中不同目录中的多个文件[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我想从不同的目录读取多个 csv 文件然后将其放入单个数据框中我有两种目录可供阅读 A LogIIS 文件夹01 文件 csv 在
如何将表输出复制到剪贴板？

我试图通过单击按钮将表输出复制到剪贴板我尝试查看 rclipboard 包但以我有限的理解它似乎无法复制输出我添加了一个actionButton屏幕截图中带有一个图标来显示我想要实现的目标现在按钮没有任何作用 Code libra
Caret 和 GBM：任务 1 失败 - “参数意味着行数不同”

我正在尝试使用以下代码运行带插入符号的 GBM library caret library doParallel detectCores registerDoParallel detectCores 1 set seed 668 in tr
电子邮件正则表达式将如何处理新的 unicode 域？

Since 2009年10月互联网名称指定公司和 Numbers ICANN 批准了创建国家地区代码顶级域名 ccTLD 在互联网上使用母语 IDNA 标准脚本我很确定大多数网站当前使用的标准正则表达式不会将它们标记为有效还
如何检查文件是否为php？

我想检查文件是否具有扩展名 php 如果有的话我会把它包括在内有人可以帮我进行正则表达式检查吗 thanks 通常您不使用正则表达式以下是一种流行的方法 extension pathinfo filename PATHINFO EXTE
如何在R中将plot转换为ggplot？

我是 R 新手我正在尝试将绘图转换为 ggplot plot res s type n main title print lines res s res s output 2014 02 14 51 8460 2014 02 14 44
快速从 RSS feed 获取 img url

我希望能够从一段字符串中检索 img url 以下是我尝试检索的 img URL 的示例 p img width 357 height 500 src http images sgcafe net 2015 05 OVA1 357x500

随机推荐

如何处理 Java BigDecimal 中的舍入错误

我正在与开源项目 axil 合作该项目在java应用程序内部实现了脚本引擎并且在尝试利用BigDecimal的舍入时遇到了一个主要的障碍 BigDecimal 似乎正在将我的输入转换为科学记数法然后将我传递的精度应用于数字的 SN 表
使用 C 编译器选项捕获浮点异常 [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案 Gfortran有得心应手的 ffpe trap编译器选项但没有类似的选项可用gcc 我隐约意识到他们处理异常的方式不同但不足以知道为什
在 Firefox 中拖动时，输入类型=范围上的 onchange 事件不会触发

当我玩的时候
如何将多个注释合并为一个注释？

我有两个来自框架的注释我经常在同一字段上使用这两个注释因此我试图创建一个包含两者的组合注释但我不知道这是否可能现有注释我无法控制 Target ElementType PARAMETER ElementType METHOD
分享 mkmapview 截图

我有一张地图上面有很多东西我想以图片屏幕截图的形式分享然而据我所知该地图 Apple 的 iOS 6 和 Google 的 iOS 5 均受版权保护我不能简单地这样做我想到了 Google Static Maps API 但
OpenID Connect 和 IDP 发起的 SSO

我有一个作为服务提供商的应用程序是否可以使用 OpenID Connect 实施 Idp 发起的 SSO 对于 Idp 发起的 SSO 来说似乎只能使用 SAML 对吗或者有没有办法让 OpenID Connect 也能工作我正在考
Gridview 在 1 列上禁用编辑 asp.net

我正在使用 gridview 编辑来编辑 gridview 中的值当我按下编辑时所有列都可以编辑我希望不允许编辑其中一列我有什么办法可以做到这一点吗这是我的 aspx 代码
将 JSON 数组转换为
- 元素
我正在 Microsoft Power BI 中创建自定义视觉对象创建 api 使用 typescript 和 d3 库我也在使用jquery 我正在尝试创建一个分层树来表示拖入视觉对象的字段因此树的深度是在运行时决定的所以它不知道
如何通过单击按钮来切换 jTabbedPane 中的选项卡？

我有两个 JTabbedPane JTabbedPane1 和 2 如何按下 JTabbedPane2 中的按钮来显示 JTabbedPane1 这是 JTabbedPane 的代码 public class TabbedPane exte
如何在 R 中分组时创建排名列

我正在使用 R 我想创建一个显示序列或排名的列同时按两个因素 hhid 和句点进行分组例如我有这个数据集 hhid perid 1000 1 1000 1 1000 1 1000 2 1000 2 2000 1 2000 1 200
PHP 高级作业队列

我正在使用 cron 制作一个一天包含 2000 个作业的脚本意味着这是服务器端并自动完成所有作业但该作业需要同时运行 10 个或指定数量的作业作业就像你看到 IDM 互联网下载管理器一样有一个队列功能它一次运行多个作业如
VBA 用户窗体保存文本框。在组合框中选择名称时将值保存到 Excel 工作表

我提前为发布相同的问题表示歉意但我不知道如何添加额外的代码示例如果有办法在上一个问题中添加额外的代码请告知基本上我试图将一些文本框值保存到我的工作表中以便在用户窗体关闭并重新打开时可以重新启动它们这就是我到目前为止所拥有的但
LINQ：如何在 linq 中动态使用 ORDER BY，但前提是变量不是 string.empty 或 null

我正在使用 LINQ2SQL 它运行得很好但是根据 C 中变量类型字符串的值我需要在查询中使用 Order By 或不使用 order by 如果 C 字符串不为 null 或空那么我想对字符串变量的内容进行排序如果 C 字符串
使用 JavaScript 创建和复制/复制选择/选项列表菜单

我有一个select列表菜单
如何表示循环中不再有字符串 ss 输入 while (cin >> ss)

我使用 cin 从输入流中读取单词就像 int main string word while cin gt gt word do sth on the input word perform some other operations 代码
无法检索正则表达式匹配结果 - MFC / C++

我正在阅读 HTML 页面并尝试检索其中的特定字符串我有以下代码 std string str test GetString someString the string i have checked it it s basically a
Pandas系列不区分大小写的匹配和值之间的部分匹配

我有以下操作来添加状态显示一个数据帧列的列中的任何字符串出现在另一个数据帧的指定列中的位置它看起来像这样 df one Status np where df one A isin df two A Matched Unmatched 如
有哪些工具可以测试SQL语句的性能？

在对性能永无休止的探索中以及我自己的重击经历我了解到一些可能会拖慢 SQL 语句性能的事情强迫性子查询障碍进行疯狂的类型转换并将它们嵌套到遗忘中 Group By 对所述疯狂类型转换的聚合函数fldID 所在位置从我的 500 万
有没有更好的方法在 XHTML 1.0 Transitional 中以语义方式编写常见问题解答？

以下使用 XHTML 1 0 的常见问题解答代码段将无法在W3C 验证器 https validator w3 org 我将问答插入到定义列表中以便在语义上维护问答关系问题是问题可以是多个段落还有 dt 标签至少在 XHTML 1
从向量中删除相似但更长的重复项

对于数据库清理我有一个向量例如菜肴我想删除基础菜肴的所有变体只保留基础菜肴举例来说如果我有 dishes lt c DAL BHAT DAL BHAT SPICY DAL BHAT WITH EXTRA RICE HAMBU

从向量中删除相似但更长的重复项

从向量中删除相似但更长的重复项 的相关文章

随机推荐

热门标签

从向量中删除相似但更长的重复项的相关文章