Tidyverse：根据部分匹配替换整个字符串

2024-01-25

我希望使用中的函数根据部分匹配替换数据中的整个字符串条目stringr包裹。

我尝试过的唯一方法是使用替换精确匹配str_replace_all()但当有数十种变化需要纠正时，这就变得乏味且难以处理。我正在寻找基于部分匹配的替换。在下面的代表中，我通过直接指定替换了“西班牙人”和“哥伦比亚人”的变体。但是，我很乐意根据单词中存在“Spa”或“Col”的条件来执行这些替换。

library(tidyverse)
library(stringr)

data <- c(
  "Spanish",
  "SPANIARD",
  "Spainiard",
  "Colombian",
  "Columbian",
  "Ecuador",
  "Equador",
  "Ecuadorian",
  "VENEZUELAN"
)

str_replace_all(data,
                c(
                  "Spanish" = "Spaniard",
                  "SPANIARD" = "Spaniard",
                  "Spainiard" = "Spaniard",
                  "Columbian" = "Colombian"
                ))
#> [1] "Spaniard"   "Spaniard"   "Spaniard"   "Colombian"  "Colombian" 
#> [6] "Ecuador"    "Equador"    "Ecuadorian" "VENEZUELAN"

^{Created on 2019-05-21 by the reprex package https://reprex.tidyverse.org (v0.2.1)}

So str_replace_all()正如所宣传的那样，但我正在寻找一种方法来简化 tidyverse 中的此过程。任何帮助深表感谢。

我更喜欢使用距离测量（例如 Jaro-winkler 距离或其他距离测量），但它们确实有其缺点。对部分匹配可能带来的改变感到厌倦。如果您正在进行部分匹配，那么明智的做法是看看有哪些可能性。但是，您可以使用 tidyverse 中概述的操作case_when with startsWith or grepl:

tibble(data = data) %>%
  mutate(
    v1 = tolower(data),
    new_name = case_when(
      startsWith(v1, "spa") ~ "Spanaird",
      startsWith(v1, "col") ~ "Colombian",
      startsWith(v1, "eq") | startsWith(v1, "ec") ~ "Equadorian",
      startsWith(v1, "ven") ~ "Venezuelan",
      TRUE ~ as.character(data)))

# A tibble: 9 x 3
  data       v1         new_name  
  <chr>      <chr>      <chr>     
1 Spanish    spanish    Spanaird  
2 SPANIARD   spaniard   Spanaird  
3 Spainiard  spainiard  Spanaird  
4 Colombian  colombian  Colombian 
5 Columbian  columbian  Colombian 
6 Ecuador    ecuador    Equadorian
7 Equador    equador    Equadorian
8 Ecuadorian ecuadorian Equadorian
9 VENEZUELAN venezuelan Venezuelan

要查看可能性，您可以执行此操作（或其他一些操作）：

tibble(data = data) %>%
  arrange(data) %>%
  count(tolower(data))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Tidyverse：根据部分匹配替换整个字符串的相关文章

通过 R 中的数据子集执行计算

我想对数据框的 PERMNO 列中的每个公司编号进行计算其摘要可以在此处查看 gt summary companydataRETS PERMNO RET Min 10000 Min 0 971698 1st Qu 32716 1st Qu
R data.table 1.9.2 关于 setkey 的问题

这似乎是 1 8 10 后引入的一个错误与包含列表的 DT 的 setkey 相关运行下面两个代码来查看问题 library data table dtl lt list dtl 1 lt data table scenario 1 p
如何返回包含最大值标签的向量

我有一个 4 列数组我想获得一个向量其中每行包含包含该行最大值的列的标签我可以在循环中执行此操作但我想使用矩阵函数来提高速度我怎样才能在不编写自己的库函数的情况下做到这一点有一个函数可以做到这一点如果x是你的矩阵尝试max
使用 pkg:sjPlot 函数创建一个生成部分斜体单元格的数据框

我正在尝试创建一个简单的数据表其中 Coral taxon 列中的属名称为斜体而 spp 列中的属名称为斜体属名后面的部分不大写我尝试使用 expression 函数对 Coral taxon 的每一行进行编码但没有成功 sum
如何将同一行中以逗号分隔的值拆分到R中的不同行

我有一些数据来自谷歌表格 https forms gle rGQQL3tvA1PrE4dD8我想拆分以逗号分隔的答案 and 复制参与者的 ID 数据如下 gt head data names Q2 Q3 Q4 1 PART 1 fruit
更快的 %in% 运算符

The 快速匹配 https cran r project org web packages fastmatch index html包实现了更快的版本match对于重复匹配例如在循环中 set seed 1 library fastma
手动设置scale_fill_distiller()的比例

我正在尝试制作一系列图表进行比较举例来说我想使用iris数据集来制作这样的图其中我已过滤以仅查看 setosa 物种 library ggplot2 library dplyr iris gt filter Species setos
RStudio 如何确定控制台宽度，为什么它似乎总是出错？

我刚刚发现wid lt options width在 RStudio 中它似乎是我日常控制台使用中令人烦恼的根源或者更确切地说更接近根源我应该先说一下我目前使用的是 R 3 2 2 RStudio 0 99 491 Linux M
从 R 中的方差分析 (glm) 中提取残余偏差

我在 R 中安装了一个 glm 模型并采用了方差分析表我需要提取残余偏差列但它会产生错误以下是代码创建数据 counts lt c 18 17 15 20 10 20 25 13 12 outcome lt gl 3 1 9 t
不同 R/lme4 版本的单一拟合结果不匹配

我试图将 R 版本 3 5 3 lme4 1 1 18 1 的随机效应估计与 R 版本 4 1 1 lme4 1 1 27 1 相匹配然而当存在奇异拟合时这两个版本之间的随机效应存在微小差异我对奇点警告很满意但令人费解的是不同版本
通过使用 navbarPanel() 并隐藏导航栏构建多页闪亮应用程序用户端（在 ui.R 中）？

我想构建一个多页闪亮应用程序我可以在其中控制用户可以看到哪个页面迪安阿塔利确实这个演示应用程序中有类似的东西 https github com daattali advanced shiny tree master multiple
使用大矩阵操作

我必须使用 big matrix 对象并且无法计算某些函数让我们考虑以下大矩阵 create big matrix object x lt as big matrix matrix sample 1 10 20 replace TRUE
如何使用 R 将每个文件的数据添加为附加行，从而将不同的 .csv 文件合并为一个完整的文件？

我有几个不同的文件夹它们都包含一个 csv 文件所有这些 csv 文件都有一个单独的列其中包含实验的一种条件的数据我想以将每个文件的数据添加为新列的方式合并这些 csv 文件目前它看起来像这样 C1 csv 102 106 15
将第 N 行上的 NA 行插入 data.frames 列表，其中 N 来自列表

经过几个小时后我发现自己无法解决以下问题我有一个数据框列表我想分别向每个 DF 插入而不是替换一行或多行 NA 始终至少一行要插入的 NA 数量存储在单独的列表中为了说明这一点我有以下两个列表 list of datafra
如何对数字进行四舍五入并使其显示零？

R 中将数字四舍五入到小数点后 2 位的常用代码是 gt a 14 1234 gt round a digits 2 gt a gt 14 12 但是如果该数字的前两位小数位为零则 R 会在显示中抑制零 gt a 14 0034 gt
为什么数据帧上的 is.vector 不返回 TRUE？

tl dr R 中的向量到底是什么长版 R 中很多东西都是向量例如数字是长度为 1 的数值向量 is vector 1 1 TRUE 列表也是一个向量 is vector list 1 1 TRUE 好的所以列表是一个向量显然数
列出 R 数据文件的内容而不加载

我有时用print load myDataFile RData 当我加载数据文件时列出它的内容有没有办法列出内容而不加载数据文件中包含的对象我认为如果不加载对象就无法做到这一点解决方案可能是使用包装器将 R 对象保存到save 该函数
R 中两个时间戳之间的左连接

我的目标是执行左连接intervals哪里的bike id比赛和created at时间戳在records在之间start and end in the intervals table gt class records 1 data ta
如何在 data.table 中分组后使用条件计算行数

我有以下数据框 dat lt read csv s1 s2 v1 v2 a b 10 20 a b 22 NA a b 13 33 c d 3 NA c d 4 5 NA c d 10 20 dat gt A tibble 6 x 4 gt
绘制 Cox 回归的 Kaplan-Meier 图

我使用 R 中的以下代码设置了一个 Cox 比例风险模型来预测死亡率添加协变量 A B 和 C 只是为了避免混淆即年龄性别种族但我们真正对预测变量 X 感兴趣 X 是一个连续变量 cox model lt coxph Surv t

随机推荐

WPF 交互触发器在样式中调用视图模型上的命令[重复]

这个问题在这里已经有答案了可能的重复如何在样式设置器中添加混合行为 https stackoverflow com questions 1647815 how to add a blend behavior in a style set
您可以使用类 C 语言对 FPGA 进行编程吗？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案在大学里我用类似 C 的语言编写了 FPGA 不过我也知道人们通常使用 Verilog 或 VHD
静态类必须从对象派生 (C#)

我在 C 中遇到问题输出状态为 Error 1 Static class WindowsFormsApplication1 Hello2 cannot derive from type System Windows Forms Form
Celery AttributeError：异步错误

我在 Mac OS X 10 13 4 上本地运行 RabbitMQ 和 Celery 当我运行 add delay x y 时以下代码在本地运行 usr bin env python from celery import Celery
SSH 和 -bash：fork：无法分配内存 VPS Ubuntu

我在 Ubuntu 12 04 VPS Nginx Unicorn 上托管我的 Rails 应用程序部署后一切正常但几个小时后当我 ssh 到 VPS 时我收到此消息 bash fork Cannot allocate memory
如何为谷歌地图设置自定义标记标题

如何设置包含信息和按钮的样式自定义标记标题片段我已经有一个自定义标记图标图像集现在我需要一个自定义弹出窗口当用户点击标记时该窗口将包含某些信息和一个按钮这与我想要实现的目标很接近自定义标题片段示例 LatLng huduma
std::array 是可移动的吗？

std array 是可移动的吗 In Bjarne Native 2012 演示幻灯片 http ecn channel9 msdn com events GoingNative12 GN12Cpp11Style pdf 幻灯片 41 列
如何使用 firebug 检查 CSS 伪类？

我正在与一种不情愿的挣扎a hover我无法覆盖的 css 样式我尝试检查 Firebug 中的元素但我不明白为什么它不起作用我什至不知道如何正确检查a hoverFirebug 中的 CSS 事件我见过 Firebug 中的悬停检
错误：根：未找到哈希 md5 代码

我在一台没有 root 访问权限的 Linux 机器上我构建了自己的 openssl 和 python 本地副本 2 7 13 当我尝试在 python 中导入 hashlib 时收到以下错误消息 gt python Python 2
鼠标点击时 Div 隐藏/显示的问题

我尝试了你的脚本但它不能正常工作我编辑了下面的代码以准确显示我正在使用的内容非常感谢您的帮助 Quazi Hi 我对 JQuery 很陌生我正在尝试获取一个 divfade in在点击事件之后然后hide单击任意位置后我设置了三个
什么是列存储索引以及与聚集索引和非聚集索引有何不同？

我对列存储索引感到困惑什么是列存储索引它与聚集索引和非聚集索引有何不同假设您有如下表col1作为主键 col1 PK col2 col3 1 2 3 4 5 6 普通索引将按行每行存储因此单个给定行的所有列都驻留在单个页面上
如何在 IntelliJ Rider 中生成 API 控制器？

在 Visual Studio 中我可以通过选择添加在 Web API 项目中生成 API 控制器控制器从这个菜单中我可以选择模型类上下文类和控制器名称并且按下按钮我可以生成数百行样板文件我已转移到 IntelliJ Ri
GLSurfaceView.queueEvent不在GL线程中执行

我正在尝试从我的主要活动中为我的 GLSurfaceView 执行一些 OpenGL 命令由于 OpenGL 渲染器在它自己的线程中工作我必须使用queueEvent 据我所理解我正在打电话queueEvent在我的 GLSurfac
计算 Spark 数据框中的单词数

在不使用 SQL 的 REPLACE 函数的情况下如何找到 Spark 数据帧的列中的单词数下面是我正在使用的代码和输入但 Replace 函数不起作用 from pyspark sql import SparkSession my
JQuery Flippy 插件未在点击事件上触发

我有一个小问题flippy带有 jQ uery Flippy 插件的插件标签http blog guilhemmarty com flippy http blog guilhemmarty com flippy 我有一个 divp tag
在内部类中执行main方法[重复]

这个问题在这里已经有答案了如果 main 方法存在于静态内部类中如何执行它 Main 方法存在于静态内部类中我们需要执行该 main 方法 class A static class B public static void main
我怎样才能让一个html视频播放一次，直到页面重新加载

超级黑客所以我尝试并搜索了几个小时但似乎无法找到解决方案在我的页面上当用户滚动到页面的某个点时我将其设置为自动播放视频的位置它效果很好但我发现视频一遍又一遍地循环很烦人我只希望视频只播放一次直到用户重新加载页面或访问新页面
IvyBridge 上指针追逐循环中附近的依赖存储对性能产生奇怪的影响。添加额外的负载会加快速度吗？

首先我在 IvyBridge 上进行了以下设置我将在注释位置插入测量有效负载代码前 8 个字节buf存储地址buf本身我用它来创建循环携带的依赖项 section bss align 64 buf resb 64 section t
程序集：用于自定义操作系统键盘支持的引导加载程序

我有一个工作简单的自定义操作系统目前没有做太多事情 D 现在我正在使用一个没有键盘支持的汇编文件 boot s 汇编文件 boot s set magic number to 0x1BADB002 to identified by boo
Tidyverse：根据部分匹配替换整个字符串

我希望使用中的函数根据部分匹配替换数据中的整个字符串条目stringr包裹我尝试过的唯一方法是使用替换精确匹配str replace all 但当有数十种变化需要纠正时这就变得乏味且难以处理我正在寻找基于部分匹配的替换在下面的代表中

Tidyverse：根据部分匹配替换整个字符串

Tidyverse：根据部分匹配替换整个字符串 的相关文章

随机推荐

热门标签

Tidyverse：根据部分匹配替换整个字符串的相关文章