计算各自列中的关键字数量

2024-04-15

假设我有这样的数据：

df <-  read.table(text= "title     date    text
blablabla   22.07.2023  'blablablabla Blue blablabla'
blablabla   23.06.2023  'bala Blue blabla Blue Night Blue'
blablabla   23.08.2023  'bala Mountain blabla House Night Blue'", 
header = T, stringsAsFactor = F)

和一个向量words我考虑的关键词：

words <- c("House", "Mountain", "Blue", "Night")

我想要实现的是计算次数words发生在df$text but 计算每种类型的word分别在自己的专栏中。到目前为止我有这个代码：

llibrary(tidyverse)
df %>%
  # extract instances of keywords:
  mutate(
    keyword = str_extract_all(text, 
                              str_c("(?i)\\b(", str_c(words, collapse = "|"), ")\\b")
  )) %>%
  # turn into alternation pattern:
  mutate(keyword = lapply(keyword, function(x) str_c(x, collapse = "|"))) %>%
  # create row ID:
  mutate(row = row_number()) %>%
  # separate into rows splitting by `|`:
  separate_rows(keyword, sep = '\\|') %>% 
  # cast each keyword in its own row:
  pivot_wider(names_from = keyword, values_from = keyword, 
              values_fn = function(x) 1, values_fill = 0
              ) %>%
  select(-row)
# A tibble: 3 × 7
  title     date       text                                   Blue Night Mountain House
  <chr>     <chr>      <chr>                                 <dbl> <dbl>    <dbl> <dbl>
1 blablabla 22.07.2023 blablablabla Blue blablabla               1     0        0     0
2 blablabla 23.06.2023 bala Blue blabla Blue Night Blue          1     1        0     0
3 blablabla 23.08.2023 bala Mountain blabla House Night Blue     1     1        1     1

这不是我想要的，因为function(x) 1部分并不总结，而只是记录是否word存在或不存在。必须如何更改才能获得此输出：

# A tibble: 3 × 7
  title     date       text                                   Blue Night Mountain House
  <chr>     <chr>      <chr>                                 <dbl> <dbl>    <dbl> <dbl>
1 blablabla 22.07.2023 blablablabla Blue blablabla               1     0        0     0
2 blablabla 23.06.2023 bala Blue blabla Blue Night Blue          3     1        0     0
3 blablabla 23.08.2023 bala Mountain blabla House Night Blue     1     1        1     1

选择，split在空间上，设置factor级别，获取频率table:

cbind(df[ "text" ],
      t(sapply(strsplit(df$text, " ", fixed = TRUE), 
               function(i) table(factor(i, levels = words))))
      )
#                                    text House Mountain Blue Night
# 1           blablablabla Blue blablabla     0        0    1     0
# 2      bala Blue blabla Blue Night Blue     0        0    3     1
# 3 bala Mountain blabla House Night Blue     1        1    1     1

或者要修复您的解决方案，请使用length:

#...
pivot_wider(names_from = keyword, values_from = keyword, 
            values_fn = length, values_fill = 0)
#...

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dplyr

tidyr

计算各自列中的关键字数量的相关文章

在 Shiny 中叠加两个 ggplot

我有一个非常大的数据集我正在使用 ggplot 在 Shiny 上绘制它我有一个与 x 轴上的值相关联的滑块我想用它对选定的数据子集重新着色并让其余数据保持原样最简单的选择是重新创建整个绘图但由于它是一个大型数据集因此这是一个
stat_function 从函数生成平线

我有以下代码 library ggplot2 f lt function x if x gt 2 1 x 0 3 else 0 graph lt ggplot data frame x c 0 10 aes x graph lt graph
ggplot 图例标签内的希腊字母、符号和换行符

我在尝试着有换行符自动或强制对齐文本左对齐或左右对齐有希腊字母和百分号在 gglot 图例标签内我尝试了几种方法但我似乎无法将我读到的所有技巧结合起来我可以通过插入来换行 n进入标签但这似乎不适用于希腊字母不适用于图例
美人鱼图：调整图表周围的空白

我在用 Rstudio 编译的 Rmd 报告中使用了美人鱼图在 HTML PDF 输出中图表上方和下方有大量空白请参见下面的示例 Header Text r library DiagrammeR mermaid graph TD cl
R闪亮：使用闪亮的JS从数据表中获取信息

我想读出所有列名称以及它们在数据表中显示的顺序由于不同的原因我无法使用 stateSave 等选项我对 JS 没有什么把握但我确信用它可以完成所以我需要你帮助我我尝试过类似的代码片段 datatable data callbac
为每个因素级别添加日期时间序列

我有一个带有因子列的数据框 s lt data frame id 901 910 s id lt as factor s id 我有一个日期时间序列 library lubridate start lt now as difftime 2
改进R中从google获取股票新闻数据的功能

我已经编写了一个函数来从 Google 获取和解析给定股票代码的新闻数据但我确信有一些方法可以改进它对于初学者来说我的函数返回一个 GMT 时区的对象而不是用户当前的时区如果传递的数字大于 299 它就会失败可能是因为 goog
R data.table 多个条件连接

我设计了一种解决方案用于从两个单独数据表的多个列中查找值并添加基于新列的值计算多个条件比较代码如下它涉及在计算两个表中的值时使用 data table 和联接但是这些表没有联接在我正在比较的列上因此我怀疑我可能无法获得 da
R：ifelse 中的字符串列表

我正在寻找与 MySQL 中的 where var in 语句类似的东西我的代码如下 data lt data frame id 10001 10030 cc1 rep c a b c 10 attach data data new lt
如何读取 R 中的每个 .csv 文件并将其导出到单个大文件中

你好我有以下格式的数据 101 20130826T155649 3 1 round 0 10552 180 yellow 12002 1 round 1 19502 150 yellow 22452 1 round 2 28957 130
RStudio 不会通过 rPython 调用加载所有 Python 模块

我从 Bash 和 RStudio 中运行相同的脚本时出现一些意外行为请考虑以下事项我有一个文件夹 rpython 包含两个脚本 test1 R library rPython setwd rpython python load tes
zsh：未找到命令：使用 Big Sur Mac 的终端上的 R

我从官方 cran 网站安装了 R 我可以从 Rstudio 运行 R 但是当我尝试从终端使用 R 时我得到以下结果 base ege Eges MBP R zsh command not found R base ege Eges MB
在 R 中使用逻辑 grep 抓取文本

下午好谢谢你帮我解答这个问题我有兴趣抓取一组超过 5000 个 URL 的列表我使用 lapply 和 readLines 使用下面的示例代码提取这些网页的文本 multipleURL lt c http dailymed nlm n
通过 R 中的数据子集执行计算

我想对数据框的 PERMNO 列中的每个公司编号进行计算其摘要可以在此处查看 gt summary companydataRETS PERMNO RET Min 10000 Min 0 971698 1st Qu 32716 1st Qu
更改 pander 中的默认对齐方式 (pandoc.table)

我目前正在切换到pander对于我的大部分时间knitr markdown格式化因为它提供了如此出色的pandoc支持我不太满意的一件事是默认的居中对齐营销人员可能会喜欢它但对于技术报告来说这是一个可怕的事情使用的最佳选择Hmis
如何返回包含最大值标签的向量

我有一个 4 列数组我想获得一个向量其中每行包含包含该行最大值的列的标签我可以在循环中执行此操作但我想使用矩阵函数来提高速度我怎样才能在不编写自己的库函数的情况下做到这一点有一个函数可以做到这一点如果x是你的矩阵尝试max
如何绘制每条线之间具有特定距离的图形

实际上我尝试绘制一个图形但它将所有列线放在一起并显示因此它不具有代表性我尝试制作模拟数据并向您展示我如何绘制它并向您展示我想要的内容我不知道如何制作像下面所示的示例的数据但我在这里做了什么 set seed 1 M lt
R 编程常用工具

如果已经以不同的方式问过这个问题我深表歉意但我找不到任何达到我想要的东西我真的是从其他软件包 SPSS 开始接触 R 的当我了解真正可以做什么时我意识到我还需要其他工具这让我想到了我的问题您有哪些用于开发 R 代码的设置我
如何在 R 中绘制一列与其余列的关系图

我有一个数据集其中 1 是时间接下来的 14 个是幅度我想在一张图表上散布所有大小与时间的关系其中每个不同的列都是网格化的分层在另一个之上我想使用原始数据来制作这些图表并单独制作它们但只想执行此过程一次数据集A 唯一的自变
在 igraph 中为社区分配颜色

我在 igraph 中使用 fastgreedy community 检测算法在 R 中生成社区代码返回 12 个社区但是在绘图时很难识别它们因为它返回的图的颜色数量有限我怎样才能用十二种不同的颜色绘制这个图表 l2 lt layo

随机推荐

Angular：在/src/app/app-routing.module.ts中找不到路由声明

当我尝试为使用以下命令生成的组件添加自动路由时 ng generate module orders route orders module app module 我收到错误 Couldn t find a route declaration
HTML2Canvas 不渲染完整的 div，仅渲染屏幕上可见的内容

我正在尝试使用HTML2画布 https github com niklasvh html2canvas渲染 div 的内容这是代码 var htmlSource potenzial page 0 btn on click functio
Spring Cloud Stream动态通道

我正在使用 Spring Cloud Stream 想要以编程方式创建和绑定通道我的用例是在应用程序启动期间我收到要订阅的 Kafka 主题的动态列表如何为每个主题创建一个频道我最近遇到了类似的场景下面是我动态创建 Subscr
在 Python 中创建二维非矩形形状的三角形网格

假设我有一组点定义二维平面中非矩形形状的周长我需要一个函数来创建三角形网格划分在其中可以修改三角形单元的数量并返回每个单元的 x y 坐标谢谢你可能应该看看 dmsh https github com nschloe dmsh py
解析 JSON 帖子

我有以下代码 data Friend Friend friend name Text friend inTwitter Bool friend twitterName Maybe Text deriveJSON drop 6 Friend
XQuery 中有没有办法获取自某个纪元以来的当前时间（以毫秒为单位）？

XQuery提供各种date time功能类似于current dateTime 但是我似乎找不到一个能让我有时间的毫秒自纪元以来提取小时分钟和秒的函数似乎过于独立存在获取大纪元时间即unix时间或类似时间的正确方法是什么XQue
SwiftUI：如何更改 NavigationView 的色调（背景颜色）？

我有一个带有列表的导航视图如何更改导航视图的颜色还没有直接的 api要执行此操作但您可以查看调试视图层次结构您将看到它是一个简单的 UINavigationBar 并且所有旧解决方案也可以在这里工作还 struct Content
Laravel 4 级联软删除

是否有一种模块化方法可以在 L4 中执行级联软删除我的数据库已经设计为通过硬删除来执行此操作因为所有表都与另一个表相关但是我正在使用软删除并且真的不想让表超载delete 我的模型中的方法只是由于 A 模型的数量以及 B 必须
停止 Visual Studio 2013 中的“在文件中查找”搜索，该搜索将花费很长时间

我只是在整个解决方案中搜索了某个字符串该字符串显然存在于许多缩小的 JavaScript 文件中这会导致 Visual Studio 进程在查找结果窗口中输出这些缩小文件的内容时几乎挂起因为它们的大小高达几兆字节一旦这个过程开始
等待来自 setter 属性的异步函数

我需要从属性设置方法等待异步函数 public String testFunc get set Await Call to the async func
scala中定义函数，FunctionName和FunctionName(_)的区别

我尝试使用以下代码在 Scala 中定义递归函数 object Factorial val almostFactorial f Int gt Int gt n Int gt if n 0 1 else n f n 1 val factori
RAM 存储二进制数和汇编语言的冒泡排序

我必须使用 ARM v7 执行一个例程在 RAM 内存中存储 10 个二进制数然后使用冒泡排序对这些数字从高到低进行排序我应该如何开始 func bubbleSortAscendingU32 ldr r3 r0 4 mov r1 9
R 和 MATLAB 在机器学习方面有何优缺点？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我正在开始一些机器学习的研究似乎这两个经常在这个领域使用它们看起来非常相似那么如何决定最好使用哪一个呢我还想说 R 更好原因有很多我
Google 地图本机应用程序 - 地图链接

我想从我的移动网站在移动设备上打开本机谷歌地图应用程序目前我正在使用该网址http maps google com maps q The 20 Diner 2027 20Main 20 街 20The 20 Village 电子邮件受保护
适用于 iOS 的 Google 地图 SDK 要求 GoogleMaps.bundle 成为“复制捆绑包资源”下目标的一部分

当我为 iOS 构建 GoogleMaps SDK 时发生了这些错误 Terminating app due to uncaught exception GMSException reason Google Maps SDK for iO
按产品类型查询/过滤 woocommerce 产品

我添加了新的产品类型例如here https wordpress stackexchange com a 120220 66786 现在我想展示该产品类型这是我的查询 query args array post type gt prod
谷歌驱动器API搜索具有给定文件夹ID的所有子文件

这是我的文件夹在谷歌驱动器中的结构 Picture Date1 Pic1 png Pic2 png Date2 Pic3 png Pic4 png 现在我只有Picture文件夹 parentID文件夹的ID 现在我想获取 Pic1 图片
猫头鹰旋转木马外箭头导航

我正在尝试为投资组合网站实现带有延迟加载图像的 Owl Carousel 但在定位导航按钮时遇到问题理想情况下我想将它们添加到位于图像中间的轮播的外部我见过几个例子这些例子是可行的但就是无法理解有人可以帮忙吗我在这里添加了一个
阻止 CMD 始终以管理员权限打开

无论我如何打开它 cmd exe 总是以管理员权限打开没有的话怎么打开呢是否缺少某些注册表设置即使我直接从运行对话框打开它或双击 system32 文件夹它仍然会以管理员权限打开 Thanks Found out I was mis
计算各自列中的关键字数量

假设我有这样的数据 df lt read table text title date text blablabla 22 07 2023 blablablabla Blue blablabla blablabla 23 06 2023 ba

计算各自列中的关键字数量

计算各自列中的关键字数量 的相关文章

随机推荐

热门标签

计算各自列中的关键字数量的相关文章