如何从单词列表中查找 DF 中的匹配单词并在新列中返回匹配的单词[重复]

2024-03-07

我有一个包含 2 列的 DF，并且有一个单词列表。

list_of_words <- c("tiger","elephant","rabbit", "hen", "dog", "Lion", "camel", "horse")

df <- tibble::tibble(page=c(12,6,9,18,2,15,81,65),
               text=c("I have two pets: a dog and a hen",
                      "lion and Tiger are dangerous animals",
                      "I have tried to ride a horse",
                      "Why elephants are so big in size",
                      "dogs are very loyal pets",
                      "I saw a tiger in the zoo",
                      "the lion was eating a buffalo",
                      "parrot and crow are very clever birds"))

animals <- c("dog,hen", "lion,tiger", "horse", FALSE, "dog", "tiger", "lion", FALSE)

cbind(df, animals)
#>   page                                  text    animals
#> 1   12      I have two pets: a dog and a hen    dog,hen
#> 2    6  lion and Tiger are dangerous animals lion,tiger
#> 3    9          I have tried to ride a horse      horse
#> 4   18      Why elephants are so big in size      FALSE
#> 5    2              dogs are very loyal pets        dog
#> 6   15              I saw a tiger in the zoo      tiger
#> 7   81         the lion was eating a buffalo       lion
#> 8   65 parrot and crow are very clever birds      FALSE

我需要查明列表中的任何单词是否出现在 DF 的某一列中。如果是，则将单词返回到 DF 中的新列。这是单词列表 ->（老虎、大象、兔子、母鸡、狗、狮子、骆驼、马）。这就是我的 DF 的样子 https://i.stack.imgur.com/CIFWd.jpg 我想要这样的东西 https://i.stack.imgur.com/nUp9S.jpg

library(dplyr)

df %>% 
  rowwise() %>%
  mutate(animals = paste(list_of_words[unlist(
    lapply(list_of_words, function(x) grepl(x, text, ignore.case = T)))], collapse=",")) %>%
  data.frame()

输出是：

  page                                  text    animals
1   12                       pets: dog & hen    hen,dog
2    6 Lions and tigers are dangerous animal tiger,Lion
3    9          I have tried to ride a horse      horse
4   65   parrot & crow are very clever birds

样本数据：

df <- structure(list(page = c(12, 6, 9, 65), text = structure(c(4L, 
2L, 1L, 3L), .Label = c("I have tried to ride a horse", "Lions and tigers are dangerous animal", 
"parrot & crow are very clever birds", "pets: dog & hen"), class = "factor")), .Names = c("page", 
"text"), row.names = c(NA, -4L), class = "data.frame")

list_of_words <- c("tiger", "elephant", "rabbit", "hen", "dog", "Lion", "camel", "horse")

**Another approach:**

library(data.table)
setDT(df)[, animals := paste(list_of_words[unlist(lapply(list_of_words, function(x) grepl(x, text, ignore.case = T)))], collapse = ","), by = 1:nrow(df)]

#> df
#   page                                  text    animals
#1:   12                       pets: dog & hen    hen,dog
#2:    6 Lions and tigers are dangerous animal tiger,Lion
#3:    9          I have tried to ride a horse      horse
#4:   65   parrot & crow are very clever birds

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

textmining

如何从单词列表中查找 DF 中的匹配单词并在新列中返回匹配的单词[重复] 的相关文章

如何从 ISI Web of Knowledge 检索有关期刊的信息？

我正在从事一些预测文章引用计数的工作我遇到的问题是我需要 ISI Web of Knowledge 中有关期刊的信息他们逐年收集这些信息期刊影响因子特征因子但无法一次下载所有一年期期刊信息只有标记全部选项该选项始终标记列表
如何从 data.frame 中删除列？

不是你怎么但更多的是你怎么如果有人给你一个包含 200 列的文件并且你想将其减少到分析所需的少数列你会如何做呢一种解决方案是否比另一种解决方案更有优势假设我们有一个包含列 col1 col2 到 col200 的数据框如果
R 中的“右”滚动平均值和“左”滚动平均值是什么？

如果我想计算之前的n意味着年份滞后于当年我将如何实现这一点它像右滚动平均窗口一样简单吗或者它是一个左滚动平均窗口我不确定这里使用哪个窗口样本数据 set seed 1234 dat lt data frame year c
R 和系统调用

我过去曾使用 R 对命令行进行非常基本的调用例子可以找到here https stackoverflow com questions 3284301 command line in r code 这一次我希望模仿这段从 Windows
使用格式表过滤数据框

样本数据修改自formattablegithub 文档 df lt data frame id 1 10 name c Bob Ashley James David Jenny Hans Leo John Emily Lee age c
在 R 中使用 apply() 时出现未使用参数错误

当我尝试对日期列使用 apply 条件以返回一组系数时收到错误消息我有一个数据集为简单起见此处进行了修改但可重现 ADataset lt data table Epoch c 2007 11 15 2007 11 16 2007
基于两列对数据框中的行进行求和[重复]

这个问题在这里已经有答案了我想添加一列的值将它们按两列分组我找到了如何在一列上执行此操作但无法弄清楚如何在两列上执行此操作例如如果我有以下数据框 x c a a b b c c a a b b c c a a b b c c y
尝试使用 movie3d 制作 3D PCA 图（rgl）的电影

我已经使用 pca3d 包在 R 中制作了 rgl 3D PCA 图并且我正在尝试使用 movie3d 制作一个包含旋转图电影的 gif 文件 pca3d 包 makeMoviePCA 中有一个函数它将其参数传递给 movie3d 这是
将 Excel 数字日期重新格式化为 R 日期

希望将从 Excel 中提取的列重新格式化为包含数字 Excel 格式例如 40182 的数据框 as date 40182 origin 1899 12 30 format b Y Returns 1 2070 年 1 月 5 日我正
如何使用 R 更改 png 文件的大小

我正在绘制 png 文件并获取一张小图片你知道一些可以改变 png 图大小的简单代码吗我的地块太高太薄另外有没有办法改变情节的分辨率谢谢伊格尔 png png filename Rplot 03d png width 480 h
如何使用“downloadHandler”在闪亮的可反应内部创建下载按钮？

我创建downloadlinksa 的行内reactable 我这样做是为了DT datatable and a reactable reactable 我还创建了相应的output downloadHandler在 ids 上使用 app
ggplot2 geom_function 可以跨 arg 值进行分面吗？

我想通过分面 geom function 创建 ggplot2 图以便函数的参数在网格中变化例如像这样的东西 my function lt function x par if par 1 return sin x else return
为什么表达式“1”==1 的计算结果为 TRUE？ [复制]

这个问题在这里已经有答案了 1 是字符值其他1是数字甚至当我尝试在下面执行时它给了我 TRUE as character 0 as numeric 0 谁能帮助我理解为什么来自help 如果两个参数是不同类型的原子向量则其中一
将多个函数应用于一个向量

我正在寻找一种将多个函数应用于一个向量的选项我认为这对于逆应用函数来说是一种仁慈其中一个函数应用于许多向量或列有没有办法指定两个或多个函数例如 min 和 max 并将其应用于向量与 CathG的评论类似但没有get v lt
R：适合显示具有倾斜计数的数据的图

我有这样的数据 Name Count Object1 110 Object2 111 Object3 95 Object4 40 Object2000 1 因此只有前 3 个物体的计数较高其余 1996 个物体的数量少于 40 个其中
如何从数据框中按降序获取前n家公司

我正在尝试从数据框中获取排名前 n 的公司下面是我的代码 data Forbes2000 package HSAUR sort Forbes2000 profits decreasing TRUE 现在我想从这个排序向量中获取前 50 个
为什么在 R 中绘图时，hovertemplate 无法正确显示某些数据点

mydat2 lt data frame subject c math english chemistry score c 80 50 65 class c A B A count c 50 60 70 library plotly plo
了解日期并使用 R 中的 ggplot2 绘制直方图

主要问题当尝试使用 ggplot2 制作直方图时我无法理解为什么日期标签和中断的处理无法像我在 R 中预期的那样工作我在找我的约会频率的直方图刻度线位于匹配条下方的中心日期标签在 Y b format 适当的限制最小化网格空
rpy2 无法加载外部库

希望有人能帮忙解决这个问题 R版本 2 14 1rpy2版本 2 2 5蟒蛇版本 2 7 3 一直在尝试在 python 脚本中使用 rpy2 加载 R venneuler 包该包以 rJava 作为依赖项 venneuler 和 rJa
如何在 R 中创建“堆叠瀑布”图表？

I was able to find several packages to create a waterfall chart in R which look like this But I could not find a way to

随机推荐

如何在 AngularJS 中对隔离范围指令进行单元测试

在 AngularJS 中对隔离范围进行单元测试的好方法是什么 JSFiddle 显示单元测试 http jsfiddle net daniellmb b7BRR 指令片段 scope name myGreet link function
Solidity：在公共方法中返回数组

我正在尝试创建一个返回数组的公共函数这是错误返回参数类型映射 uint256 gt struct ItemList Item storage ref 不能隐式转换为预期类型第一个的类型返回变量 uint256 内存 pragma s
如何手动解码 JPEG 无损、非分层、一阶预测

我正在尝试仅使用 JavaScript 和 HTML5 自己创建 DICOM 查看器过去几天我一直在研究这个项目现在我成功解析了我需要的所有文本信息并且我还可以正确读取和显示未压缩的灰度和 RGB 图像现在我正在尝试显示所谓的 JP
活动和共享视图之间的动画：动画结束时出现故障/黑客行为？

因此我面临的问题是我在两个活动和两个共享视图之间执行的动画看起来不太好问题在于它的故障当从 Activity2 返回到 Activity1 时共享的 TextView 在动画结束时会闪烁在不到一秒的时间内显示 Activity2
如何从seaborn/matplotlib图中删除或隐藏x轴标签

我有一个箱线图需要删除 x 轴 user type 和 member gender 标签鉴于以下格式我该如何执行此操作 sb boxplot x user type y Seconds data df color default co
配置时未为参数“appIdName”提供值

我刚刚注册了 Apple 的 iOS 开发者计划帐户类型个人在 iPhone 4 设备上的 Xcode 管理器中我单击将设备添加到配置门户 gt Xcode 询问我的凭据 gt 我输入它们 gt 我看到没有为参数 appIdNa
Keras/Tensorflow Conv1D 预期输入形状

我想对 29 个特征输入数据如 29x1 形状应用一维卷积我告诉凯拉斯input shape 29 1 但我收到一个错误它期望输入具有 3 个维度但得到形状为 4000 29 的数组为什么 Keras 期望 3 维 Keras
特定 Windows 用户组的 Windows 身份验证

我创建了asp net网页我想在单击登录按钮时使用Windows用户名和密码登录我的asp页面我搜索了一些代码 http www codeproject com Articles 37558 Windows Authentication
安装 Ruby 2.0.0 时出现“无法加载此类文件 -- rubygems/defaults/operating_system”

我需要 Ruby 2 0 0 因此我求助于 RVM 来帮助管理我的 ruby 安装然而当我这样做时rvm install ruby 2 0 0 安装最终失败 rvm install ruby 2 0 0 Searching for bi
有没有一种方法可以在不读取 Linux 上的 proc/sys 文件的情况下获取电池信息（状态、插入等）？

我想在linux上用C获取有关电池的信息我don t想要阅读或解析any文件是否有任何与 acpi 内核或任何其他模块的低级接口来获取我想要的信息我已经在网上搜索过但每个问题都会得到答案 parse proc foo bar 我真的
如何通过 glm.mids 使用构造公式

处理大量变量并使用构造公式来处理它们通过paste0 使用传递给函数的变量我偶然发现了一个我无法弄清楚的问题错误用一个玩具示例最简单地解释 library mice imp2 mice nhanes So both these mo
Facebook .NET SDK：如何使用 ASP.NET MVC 2 进行身份验证

我正在尝试掌握 Facebook SDK 同时从 ASP NET 表单过渡到 MVC 最终所以请耐心等待我创建了两个控制器操作当用户单击表单上的 FB 登录按钮时将执行 FBLogon 然后他被重定向到 FB 登录页面然后他被发
配置深度溢出值 - Start-Job

我有一个递归函数执行了大约 750 次迭代 XML 文件并进行处理代码正在运行使用Start Job 下面的例子 job Start Job ScriptBlock function Test Function Param count
推送更新页面时自动编译的 ASP.NET 站点上出现随机 401 错误

我们有一个部署在多个 IIS 服务器上的 asp net 网站该网站是按需编译的而不是预编译的 Web 应用程序通常情况下部署进展顺利但时不时地我们会在其中一台服务器上的某个已部署页面上收到 401 错误除了通常是访问量较高的
在 Microsoft botframework 中回复“正在输入”消息

我正在 c net 和 LUIS 认知服务上使用 MicrofsoftBotFramework 开发聊天机器人我希望当用户输入时它应该在输入或机器人正在输入时回复 public async Task
大写连字符的名称

我在用WordUtils来自 apache commons 来正确规范人们的名字例如 AnGEl lEe gt Angel Lee 而且效果很好现在我提出的测试用例之一是连字符名称通常连字符的每个部分的第一个字母都大写所以我期望
如何在 Rmarkdown 中添加跨块的行号？

我想将代码行编号添加到 Rmarkdown 文件的 HTML 输出中我会对任何方法感到满意uniquely标识输出中的每一行代码例如在整个文档中递增的连续行号或者代码块由它们自己的索引标识并且在这些代码块中行号从 1 开始我一直
Kubectl 还记得我吗？

我已经在我的 kubernetes api 服务器上实现了基本身份验证现在我正在尝试配置我的 kube config以我可以简单运行的方式文件 kubectl get pods kubectl config set cluster dig
使用 Rack::Test 测试 AJAX POST - 如何传入数据？

我在用着机架测试 https github com brynary rack test测试我的应用程序并需要测试通过 AJAX 发布数据我的测试看起来像 describe POST user do include Rack Test M
如何从单词列表中查找 DF 中的匹配单词并在新列中返回匹配的单词[重复]

这个问题在这里已经有答案了我有一个包含 2 列的 DF 并且有一个单词列表 list of words lt c tiger elephant rabbit hen dog Lion camel horse df lt tibble ti

如何从单词列表中查找 DF 中的匹配单词并在新列中返回匹配的单词[重复]

如何从单词列表中查找 DF 中的匹配单词并在新列中返回匹配的单词[重复] 的相关文章

随机推荐

热门标签