使用 dplyr 过滤包含部分列字符串的行

2024-04-17

假设我有一个像这样的数据框

term     cnt
apple     10
apples     5
a apple on 3
blue pears 3
pears      1

如何过滤此列中所有部分找到的字符串，例如得到结果

term     cnt
apple     10
pears      1

不指示我要过滤哪些术语（苹果|梨），而是通过自引用方式（即，它确实针对整个列检查每个术语并删除部分匹配的术语）。标记的数量不受限制，字符串的一致性也不受限制（即“mapples”将与“apple”匹配）。这将导致基于 dplyr 的反向广义版本

d[grep("^apple$|^pears$", d$term), ]

此外，使用这种分离来获得累积总和会很有趣，例如

term     cnt
apple     18
pears      4

我无法让它与 contains() 或 grep() 一起使用。

Thanks

希望能得到完整的答案。不是很惯用（正如 Pythonista 的说法），但有人可以建议对此进行改进：

> ssss <- data.frame(c('apple','red apple','apples','pears','blue pears'),c(15,3,10,4,3))
> 
> names(ssss) <- c('Fruit','Count')
> 
> ssss
       Fruit Count
1      apple    15
2  red apple     3
3     apples    10
4      pears     4
5 blue pears     3
> 
> root_list <- as.vector(ssss$Fruit[unlist(lapply(ssss$Fruit,function(x){length(grep(x,ssss$Fruit))>1}))])
> 
> 
> ssss %>% filter(ssss$Fruit %in% root_list)
  Fruit Count
1 apple    15
2 pears     4
> 
> data <- data.frame(lapply(root_list, function(x){y <- stringr::str_extract(ssss$Fruit,x); ifelse(is.na(y),'',y)}))
> 
> cols <- colnames(data)
> 
> #data$x <- do.call(paste0, c(data[cols]))
> #for (co in cols) data[co] <- NULL
> 
> ssss$Fruit <- do.call(paste0, c(data[cols]))
> 
> ssss %>% group_by(Fruit) %>% summarise(val = sum(Count))
# A tibble: 2 x 2
  Fruit   val
  <chr> <dbl>
1 apple    28
2 pears     7
>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

filter

dplyr

summarize

使用 dplyr 过滤包含部分列字符串的行的相关文章

如何使用 sprintf 函数在字符中添加前导“0”而不是空格？

我正在尝试使用sprintf函数为字符添加前导 0 并使所有字符长度相同然而我得到的是领先空间 My code a lt c 12 123 1234 sprintf 04s a 1 12 123 1234 我试图得到什么 1 0012 0
matplotlib 中的 R 风格数据轴缓冲区

R 绘图自动设置 x 和 y 限制以在数据和轴之间留出一些空间我想知道 matplotlib 是否有办法自动执行相同的操作如果没有是否有一个好的公式或经验法则来说明 R 如何设置其轴限制在 matplotlib 中您可以通过
使用自定义渐变填充直方图箱

我想在 R 和 ggplot2 中创建一个直方图其中根据连续的 x 值填充箱大多数教程仅通过离散值或密度计数进行着色下列的这个例子 https stackoverflow com questions 40284227 how to
R闪亮主面板显示样式和字体

我正在学习闪亮的应用程序并且有一些关于调整布局的基本问题特别是样式和字体希望得到指点或明确的答案谢谢考虑一个基本的输入输出应用程序用户在 sidebarPanel 中输入数据然后在 mainPanel 中反应性地输出结果如何
如何使用 R 中的函数 sqlSave() 将数据附加到具有 IDENTITY 主键的 SQL Server 表？

我在SQL Server中创建了一个表如下所示 CREATE TABLE testPK ID INT NOT NULL IDENTITY 1 1 PRIMARY KEY NumVal NUMERIC 18 4 现在我想使用 RODBC 函
R data.table 连接不等式条件

我想使用 data table 包根据多个不等式条件对数据进行子集化 data table 手册中的示例展示了如何使用字符变量执行此操作但不显示数字不等式我还了解了如何使用子集函数来执行此操作但我真的很想利用 data table 二
在`rmarkdown`中，如何在句子中添加图标？

In rmarkdown 如何在句子中添加图标例如如下如何添加markdown icon单词 Markdown 和 is 之间有一个很好的 R 包可以轻松下载 RMarkdown 文档并将图标添加到其中 icons https gi
在 R 中导入 csv 文件时如何保留前导零？

当我写一个 csv来自 R 的文件其中我的组名称以前导零值开头前导零被保留但是当我导入 csv前导零被删除组名称被转换为整数当我导入一个组时如何保留组名称中的前导零 csvR 中的文件 Example df lt data fr
根据 row_number() 过滤 data.frame

更新自从提出这个问题以来 dplyr 已经更新现在按照 OP 的要求执行我正在尝试获取第二行到第七行data frame using dplyr 我正在这样做 require dplyr df lt data frame id 1 1
空间数据xyz到矩阵

我有一个大数据框 100 000 行其中包含 LON LAT VALUE 我想将其转换为矩阵 EPSG 中的坐标 3035 我使用以下命令尝试了 reshape2 包 acast df lon lat value var value 效果
R 中使用 `UseMethod()` 与 `inherits()` 来确定对象的类

如果我需要根据 R 对象的类以不同的方式处理它们我可以使用if and else在单个函数内 foo lt function x if inherits x list Foo the list else if inherits x num
通过 Shiny 中的串扰将 Plotly 与 DT 结合使用

我正在编写一个应用程序来将 csv 文件读取为闪亮的并将散点图与 DT 表链接起来我几乎遵循了 Plotly 网站上 DT 数据表上的示例 https plot ly r datatable https plot ly r datatab
R Leaflet Legend：colorBin-删除中断之间的小数

我正在使用 Leaflet 库在 R 中创建交互式 HTML 地图传说中采用的是colorBin用于创建将数据分为 6 个类别的方法使用min values and max values 我已经定义了美国社区调查收入数据的特定范围可能落
R data.table fwrite 到 fread 空间分隔符并清空

我在使用 fread 以作为分隔符和散布的空白值时遇到问题例如这个 dt lt data table 1 5 1 5 1 5 make a simple table dt 3 V2 NA add a blank in the midd
通过 R 中的数据子集执行计算

我想对数据框的 PERMNO 列中的每个公司编号进行计算其摘要可以在此处查看 gt summary companydataRETS PERMNO RET Min 10000 Min 0 971698 1st Qu 32716 1st Qu
如何将同一行中以逗号分隔的值拆分到R中的不同行

我有一些数据来自谷歌表格 https forms gle rGQQL3tvA1PrE4dD8我想拆分以逗号分隔的答案 and 复制参与者的 ID 数据如下 gt head data names Q2 Q3 Q4 1 PART 1 fruit
在 igraph 中为社区分配颜色

我在 igraph 中使用 fastgreedy community 检测算法在 R 中生成社区代码返回 12 个社区但是在绘图时很难识别它们因为它返回的图的颜色数量有限我怎样才能用十二种不同的颜色绘制这个图表 l2 lt layo
如何在 R 中将字符串解析为层次结构或树

有没有办法将表示组的字符串解析为 R 中的层次结构假设我的小组结构如下 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 3 1 1 3 1 1 1 3 2 1 1 3 3 1 2 1 2 1 1 2 1 1 1 2 1 2 1
手动设置scale_fill_distiller()的比例

我正在尝试制作一系列图表进行比较举例来说我想使用iris数据集来制作这样的图其中我已过滤以仅查看 setosa 物种 library ggplot2 library dplyr iris gt filter Species setos
R - 与 SpatialPolygonsDataFrame 对象相交的 SpatialLinesDataFrame 列表的嵌套循环

我有一系列需要完成的步骤SpatialLinesDataFrame 此处的线基于对象与多特征中各个特征的关系SpatialPolygonsDataFrame 多边形对象简而言之每个线列表元素源自单个面要素内部并且可能会也可能不会

随机推荐

HasThis 和 ExplicitThis 调用约定

我遇到HasThis and ExplicitThis调用约定 NET框架参考源 https referencesource microsoft com mscorlib system reflection callingconventio
当一个对象被分配给另一个对象时会发生什么

public class DrumKitTestDrive param args public static void main String args TODO Auto generated method stub Echo e1 new
Java 中枚举类型的强制初始化

我试图找到一种方法来强制 Java 加载初始化枚举类型嵌套在包含静态 Map 的类中这对我来说很重要因为枚举类型有一个填充所述映射的构造函数并且如果没有显式方法来初始化此枚举则映射将保持为空我尝试过使用Class forNam
Tensorflow：如何查看张量板中的检查点？

假设我有内容检查点 checkpoint model ckpt 240000 data 00000 of 00001 model ckpt 240000 index model ckpt 240000 meta 是否可以在张量板中查看检查点
将 webpack（环境）变量传递给 scss 文件

对 webpack 非常陌生我希望能够读取一个值在本例中具体是env from webpack config js in a sass文件这样我就可以根据环境有不同的CSS 例如 env 开发颜色绿色 env 生产颜色蓝色到
比较没有毫秒的日期时间

I need to compare dates in two separate list Each list is constructed of MyFile Objects That is a class that I created i
Spring Data 和具有分页功能的本机查询

在一个网络项目中使用最新的 spring data 1 10 2 和 MySQL 5 6 数据库我尝试使用带分页的本机查询但我遇到了org springframework data jpa repository query Inval
如何更改appBar后退按钮颜色

我不知道如何将应用程序栏的自动后退按钮更改为不同的颜色它在脚手架下我试图研究它但我无法理解它 return Scaffold appBar AppBar backgroundColor Colors white title Image
您上传的二进制文件无效。使用 SDK 的预发布测试版来构建应用程序

我在将新应用程序提交到应用程序商店时遇到问题 Itunes Connect 给我错误您上传的二进制文件无效 SDK 的预发布测试版用于构建该应用程序我没有更改任何内容我可以编译为临时证书并且工作正常我昨天上传了另一个应用程序效果也
如何用CSS取消选择？

我想从选择中取消选择 id 项目而不更改 HTML 或添加任何类名假设我想在 CSS 中模拟这个 Jquery 句子 img not thisone CSS 是否可以使用 CSS3 not 选择器它具有等效的jQuery 选择器 h
比较两个 Date 实例是否指同一天

我有两个 java util Date 的 Java 实例我必须查明它们是否指同一天我可以用困难的方法来做到这一点将日期分开并比较日期确保年份也匹配由于这是一个很常见的问题我希望有一个更简单的解决方案来解决这个问题 Thanks
处理innoDB死锁

我一直在得到一个Deadlock found when trying to get lock try restarting transaction我的 InnoDB 表上出现错误这是查询 UPDATE views SET visit cn
如何解决PHP扩展“0”必须加载的问题？

我正在尝试在我的服务器上安装 Magento 我做了一切正如文档中所写的我有以下错误必须加载 PHP 扩展 0 当我尝试在浏览器中的第二页上配置 Magento 时会发生这种情况你知道如何解决这个问题吗如果您安装的是 Magen
PHP 表单从 id 发送值而不是值

我通常在带有隐藏字段的表单中做类似的事情
如何查找总和位于给定值范围内的整数数组中的所有有序元素对

给定一个整数数组查找数组中总和位于给定范围 a b 内的所有有序元素对的数量这是一个 O n 2 的解决方案 counts all pairs in array such that the sum of pair lies in the
在 JavaScript 中使用 Rails 变量时转义引号？

我在尝试在 javascript 代码中使用 Rails 变量时遇到问题例如我可能定义一个 link to remote 带有参数 complete gt alert my var If my var I m testing 那么 ja
任务似乎自动开始

我正在移植一个加载时间很长的程序当我移植它时它根本没有得到改善因为缓慢是因为访问数据库服务器而不是次优代码我已将加载移动到一个单独的线程上Tasks库现在 UI 在加载时不会冻结但它确实让我对某些事情感到好奇 The Task
使用弹簧对安全休息控制器进行单元测试

我有一个使用 Spring Boot 编写的非常小的 REST 应用程序我想编写一个用于身份验证的单元测试但即使我将 MockWithUser 添加到测试中我也会收到 401 错误重要的文件是安全配置 Configuration
ptr_vector如何管理内存？

我目前正在使用 c 使用 opengl 进行较低级别的编码我来自一个沉重的 objc 背景所以我对内存管理有一些了解但我似乎无法理解 boost 库如何管理容器类型例如ptr vector 我认为我的问题与我不知道如何ptr vec
使用 dplyr 过滤包含部分列字符串的行

假设我有一个像这样的数据框 term cnt apple 10 apples 5 a apple on 3 blue pears 3 pears 1 如何过滤此列中所有部分找到的字符串例如得到结果 term cnt apple 10 pe

使用 dplyr 过滤包含部分列字符串的行

使用 dplyr 过滤包含部分列字符串的行 的相关文章

随机推荐

热门标签

使用 dplyr 过滤包含部分列字符串的行的相关文章