根据字符串中多个单词的精确匹配转换新列

2024-04-18

我有一个数据框：

df <- data.frame(
  Otherspp = c("suck SD", "BT", "SD RS", "RSS"),
  Dominantspp = c("OM", "OM", "RSS", "CH"),
  Commonspp = c(" ", " ", " ", "OM"),
  Rarespp = c(" ", " ", "SD", "NP"),
  NP = rep("northern pikeminnow|NORTHERN PIKEMINNOW|np|NP|npm|NPM", 4),
  OM = rep("steelhead|STEELHEAD|rainbow trout|RAINBOW TROUT|st|ST|rb|RB|om|OM", 4),
  RSS = rep("redside shiner|REDSIDE SHINER|rs|RS|rss|RSS", 4),
  suck = rep("suckers|SUCKERS|sucker|SUCKER|suck|SUCK|su|SU|ss|SS", 4)
)

我需要使用填充有常见鱼类代码/名称（NP、OM、RSS、suck）的列来评估前四列中的表达式，并根据每个列输出 1/0（如果表达式完全满足）。我下面的代码不匹配完整的单词（仅部分）并提供不正确的数据（请参阅下面的结果小标题）。

df %>%
  rowwise() %>%
  transmute_at(vars(NP, OM, RSS, suck), 
               funs(case_when(
                 grepl(., Dominantspp) ~ "1",
                 grepl(., Commonspp) ~ "1",
                 grepl(., Rarespp) ~ "1",
                 grepl(., Otherspp) ~ "1",
                 TRUE ~ "0"))) %>%
  ungroup()

结果：看到在第三行中，“suck”和“RSS”都收到“1”。

# A tibble: 4 x 4
     NP    OM   RSS  suck
  <chr> <chr> <chr> <chr>
1     0     1     0     1
2     0     1     0     0
3     0     0     1     1
4     1     1     1     1

期望的输出：

  NP OM RSS suck
1  0  1   0    1
2  0  1   0    0
3  0  0   1    0
4  1  1   1    0

使用相同的方法解决问题的最快方法是在每个正则表达式的开头和结尾添加单词边界，\\b:

df <- data.frame(
  Otherspp = c("suck SD", "BT", "SD RS", "RSS"),
  Dominantspp = c("OM", "OM", "RSS", "CH"),
  Commonspp = c(" ", " ", " ", "OM"),
  Rarespp = c(" ", " ", "SD", "NP"),
  NP = rep("\\b(northern pikeminnow|NORTHERN PIKEMINNOW|np|NP|npm|NPM)\\b", 4),
  OM = rep("\\b(steelhead|STEELHEAD|rainbow trout|RAINBOW TROUT|st|ST|rb|RB|om|OM\\b)", 4),
  RSS = rep("\\b(redside shiner|REDSIDE SHINER|rs|RS|rss|RSS)\\b", 4),
  suck = rep("\\b(suckers|SUCKERS|sucker|SUCKER|suck|SUCK|su|SU|ss|SS)\\b", 4),
  stringsAsFactors = FALSE
)

这使得正则表达式仅匹配完整单词，这将使您后续的解决方案发挥作用。

话虽如此，我认为这不一定是解决问题的方法（rowwise()今天很少推荐，并且这种方法不能很好地扩展到许多鱼类代码）。我认为，如果您将其标准化为整洁的格式（每个行和代码的组合一行），您会更轻松地处理这些数据：

library(tidyr)
library(tidytext)

row_codes <- df %>%
  select(Otherspp:Rarespp) %>%
  mutate(row = row_number()) %>%
  gather(type, codes, -row) %>%
  unnest_tokens(code, codes, token = "regex", pattern = " ")

这会导致：

   row        type code
1    1 Dominantspp   om
2    1    Otherspp suck
3    1    Otherspp   sd
4    2 Dominantspp   om
5    2    Otherspp   bt
6    3 Dominantspp  rss
7    3    Otherspp   sd
8    3    Otherspp   rs
9    3     Rarespp   sd
10   4   Commonspp   om
11   4 Dominantspp   ch
12   4    Otherspp  rss
13   4     Rarespp   np

此时，代码更容易使用（您不再需要正则表达式）。例如，您可以inner_join将其添加到鱼类代码表中。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

根据字符串中多个单词的精确匹配转换新列的相关文章

ggplot：如何限制条形图中的输出，以便仅显示最频繁出现的情况？

我几个小时以来一直在寻找这个简单的东西但没有结果我有一个数据框其中一列为变量国家地区我想要两件事以下绘制最常见的国家地区最常见的位于顶部找到部分解决方案EDIT找到完整的解决方案 gt gt 重点问题是根据频率限制条形图
如何动态地将 sliderInput 添加到闪亮的应用程序中？

使用闪亮我上传一个 csv 文件并根据列名称我需要向 ui 添加滑块 sidebarPanel fileInput file1 Upload CSV File to Create a Model accept c text csv t
如何像在facet_grid中一样在facet_wrap中定位条带标签

我想在使用时删除多余的条带标签facet wrap 并用两个变量进行分面并且都是自由尺度的例如这个facet wrap下图的版本 library ggplot2 dt lt txhousing txhousing year in 20
我如何查看 quantmod 包中所有可用的数据系列？

如何显示可用的所有报价数据系列的列表例如使用雅虎的 getSymbols 我不知道有什么办法 TTR包有一个功能 stockSymbols 下载 NYSE AMEX 和 NASDAQ 的所有当前代码它试图将它们采用雅虎可接受的格式但
无法将“gather”输出的列名称更改为默认名称以外的任何名称

我正在尝试使用gather in the tidyr包但我无法更改默认名称的输出列名称例如 df data frame time 1 100 a 1 100 b 101 200 df long df gt gather foo bar
更改 R 中 ggplot geom_polygon 的颜色方案

我正在使用地图库和 ggplot 的 geom polygon 创建地图我只是想将默认的蓝色红色紫色配色方案更改为其他颜色我对 ggplot 非常陌生所以如果我没有使用正确的数据类型请原谅我使用的数据如下所示 gt head
条件和分组 mutate dplyr

假设我有以下每个抽屉库存增加的数据 gt socks year drawer nbr sock total 1990 1 2 1991 1 2 1990 2 3 1991 2 4 1990 3 2 1991 3 1 我想要一个二进制变量来标
使用data.table进行聚合

经过 SO 用户的多次建议后我终于尝试将我的代码转换为使用data table library data table DT lt data table plate paste0 plate rep 1 2 each 5 id rep c
闪亮井板宽度

library shiny library shinydashboard ui lt dashboardPage dashboardHeader dashboardSidebar dashboardBody wellPanel tags d
如何根据多个条件创建列？

我有一个数据框我想根据多个条件创建一个列 v1 v2 v3 v4 v5 4 1 2 4 5 5 5 2 4 5 6 21 9 20 30 50 6 4 5 7 9 10 3 6 5 9 基本上使用以下可能的值创建 v6 Cat dog
R 中图周围的圆形边框

我需要在情节周围放置平滑的边框代码 plot 0 10 0 10 type n xlab X ylab Y box figure col blue 除了简单的蓝线我如何放置带有圆角的平滑灰线非常感谢 library grid plot
R 颜色 - 许多独特的颜色仍然很漂亮

我很好奇你是否有一些关于 R 中颜色酿造的技巧对于许多独特的颜色在某种程度上图形仍然好看我需要相当数量的独特颜色至少 24 种可能需要更多 50 种用于堆叠区域图所以不是热图渐变颜色不起作用我发现了 viridis 它的调
识别包含字符串的行的最快方法[重复]

这个问题在这里已经有答案了我有一个字符串数据框尺寸为 30 列 x 500 万行我想识别包含任何预定义字符串列表的行有没有比下面我的 apply any 方法更快的方法这是一个可重现的示例请注意此示例中的字符串是随机数但在我
R：根据列名部分匹配计算行平均值

我有一个看起来像这样的表 er er 1 as as 1 as 2 rt op a 1 6 90 8 6 4 87 b 1 8 56 7 5 5 9 c 8 7 6 4 5 9 6 d 1 0 8 6 4 3 6 e 9 7 2 4 3 8
上传到 Shiny 服务器后在 R 中解压文件

我正在尝试在我们的本地服务器上使用 Shiny 来构建一个应用程序允许用户上传包含 ESRI shapefile 和关联文件的 zip 文件 Shiny 服务器的 fileInput 可以获取数据并且当它这样做时它会将其存储在临时目录
rPlot 工具提示问题

我有一个使用 rCharts 工具提示的简单示例但似乎不起作用 set seed 1 test lt data frame x rnorm 100 y rnorm 100 rPlot y x data test type point to
tidyverse - 将命名向量转换为 data.frame/tibble 的首选方法

使用tidyverse我经常面临将命名向量转换为向量的挑战data frame tibble列是向量的名称执行此操作的首选 tidyverse 方式是什么编辑这与 this https github com hadley dplyr
聚合函数在数据框中创建不需要的向量

我在函数中创建数据帧时遇到了一个奇怪的问题但是在 data frame 之外使用相同的方法效果很好这是基本函数我用它来计算数据集的平均值标准差和标准误差 aggregateX lt function formula dataset
函数速度测试的奇怪结果

我编写了一个使用递归来查找最大公因数分母的函数 gt gcd function a b if length a length b gt 1 warning Only scalars allowed using first element
根据列中的部分字符串匹配选择数据框行

我想根据列中字符串的部分匹配从数据框中选择行例如列 x 包含字符串 hsa 使用sqldf if它有一个like语法我会做类似的事情 select from lt gt where x like hsa 很遗憾 sqldf不支持该语法

随机推荐

C++中如何阻止用户输入字符串

您好我对运算符重载相对较新但我确实相信它是我在制作的几乎每个程序中都遇到的问题的答案我的目标是超载std cin gt gt int var因此它只能接受整数输入如果它检测到输入了除 int 之外的输入它会将用户放入循环中直到输
警告：ISO C90 禁止混合声明和代码 [-Wdeclaration-after-statement] [重复]

这个问题在这里已经有答案了我有这个c文件 include
有关如何根据给定条件找到标记给定数组的所有元素的最小步骤数的任何提示吗？

两个整数N lt 10 5 and K lt N给出其中N是数组的大小A and K是我们在过程中可以选择的连续子序列的长度每个元素A i lt 10 9 现在假设最初数组的所有元素都未标记在每一步中我们将选择任意长度的子序列K如果
有什么方法可以改变 TortoiseHg 中图表的绘制方式吗？

由于习惯了 ClearCase 绘制图表的方式我乍一看发现 Mercurial 和 TortoiseHg 的方式令人困惑 This http nvie com posts a successful git branching model
应用程序在 Eclipse 中运行速度更快

我在 eclipse 中有一个可运行的 java SE 应用程序我引导 JPA 在正常的 java 6 SE 环境中工作对数据库中不同表的每个请求不会超过 100 毫秒问题是当我导出可运行的 jar 并输入 java jar mya
如何用java实现搜索引擎项目

我想在搜索引擎上实现java项目有什么想法或者算法吗我可以通过什么来遵循并实现这一目标 Lucene Apache Lucene 是一个完全用 Java 编写的高性能功能齐全的文本搜索引擎库该技术适用于几乎所有需要全文搜索的应用程序
如何在 Android 的服务类中实现 BroadcastReceiver？

我需要在我创建的 Service 类中实现 BroadcastReceiver public class MyService extends Service 在本课程中我必须使用线程当用户按下按钮时睡眠来实现下载模拟MyActivity
平台调用 F# 回调函数

我在 Raspberry Pi 2 ARM 7 和单声道上使用 F 我目前正在尝试使用用 C 编写的 WiringPi 库我已经成功地使用 P Invoke 来使用一些函数现在我尝试使用中断参见http wiringpi com r
React.js：如何在单击时附加组件？

我是 React 新手我对一些基本的东西感到困惑我需要在 DOM 渲染后在单击事件上将组件附加到 DOM 我的初步尝试如下但没有成功但这是我想尝试的最好的事情提前为将 jQuery 与 React 混合而道歉 ParentCom
无法加载配置类

我正在关注this http www tutorialspoint com spring spring java based configuration htm关于如何使用 Spring 的教程并根据提供的示例我得到以下异常 Except
Yesod持久类型错误

我正在 Yesod 应用程序中尝试持久化我的模型文件包含 Job issuer MemberId addDate UTCTime lastDate UTCTime title Text description Text deriving
Xcode 5 中单元测试的使用

我正在编写我的第一个更大的 iOS 项目我想尽可能多地使用 Xcode 5 现在我想使用测试但我以前从未这样做过我的项目使用来Views和动态 TableViews 我怎样才能在代码中实现测试使其有意义请先观看 WWDC 13 会
适合约 250,000 张图像的最佳 Web 文件夹结构

我的网站将包含大约 200 000 张图像每张图像将被存储 3 次全尺寸缩略图更大缩略图全尺寸图像约为 50Kb 至 500Kb 普通技术 VPS 上的 Linux Apache MySQL PHP 存储这些内容以便通过浏览器快速
如何监视 JavaScript 中的递归函数

Note 我已经看到这个问题以不同的方式提出并参考不同的测试工具我认为清楚地描述问题和解决方案会很有用我的测试是使用编写的诗乃间谍 https sinonjs org 为了可读性并将使用运行Jest https jestjs io en
如何通过 TIdHTTP 下载大文件？

我使用此代码下载小文件 Var ms TMemoryStream begin ms TMemoryStream Create Idhttp1 get http mydomain com myfile zip ms ms SaveToFile
无法连接到 VS2012 中的 localDB –“建立与 SQL Server 的连接时发生网络相关或特定于实例的错误...”

这很奇怪因为我能够使用相同的连接字符串通过 SSMS 2008R2 连接到 localDB Data Source LocalDB v11 0 Integrated Security true Only C 代码无法连接我尝试增加登录时
创建流而无需从中创建物理文件

我需要创建一个包含服务器上存在的文档的 zip 文件我使用 Net Package 类来执行此操作并创建一个新的 Package 即 zip 文件我必须具有物理文件或流的路径我试图不创建一个实际的 zip 文件而是创建一个存在于内
makemessages 的 Unicode 问题 --all Django 1.6.2 Python 3.3

升级项目Python 2 7 gt 3 3 1 and 姜戈1 4 gt 1 6 2 更新代码后我们的应用程序再次运行 in py3 翻译正在从 mo files 唯一的问题是我们的旧 po文件不能与 django admin py mak
在 ASP.NET 5 中动态加载程序集

我曾经有一些代码可以扫描bin我的应用程序的目录中包含尚未加载到 AppDomain 中并加载它们的程序集它基本上看起来像 foreach var assemblyPath in Directory GetFiles path to bi
根据字符串中多个单词的精确匹配转换新列

我有一个数据框 df lt data frame Otherspp c suck SD BT SD RS RSS Dominantspp c OM OM RSS CH Commonspp c OM Rarespp c SD NP NP re

根据字符串中多个单词的精确匹配转换新列

根据字符串中多个单词的精确匹配转换新列 的相关文章

随机推荐

热门标签

根据字符串中多个单词的精确匹配转换新列的相关文章