如何获取一个单词并根据该单词在评论中的存在创建一个指示变量？

2023-12-20

我有一个单词向量和一个评论向量：

word.list <- c("very", "experience", "glad")

comments  <- c("very good experience. first time I have been and I would definitely come back.",
               "glad I scheduled an appointment.",
               "the staff have become more cordial.",
               "the experience i had was not good at all.",
               "i am very glad")

我想创建一个看起来像的数据框

df <- data.frame(comments = c("very good experience. first time I have been and I would definitely come back.",
               "glad I scheduled an appointment.",
               "the staff have become more cordial.",
               "the experience i had was not good at all.",
               "i am very glad"),
               very = c(1,0,0,0,1),
               glad = c(0,1,0,0,1),
               experience = c(1,0,0,1,0))

我有 12,000 多条评论和 20 个单词，我想用它来做这件事。我该如何有效地做到这一点？对于循环？还有其他方法吗？

一种方法是组合stringi and gdapTools包，即

library(stringi)
library(qdapTools)

mtabulate(stri_extract_all(comments, regex = paste(word.list, collapse = '|')))
#  experience glad very
#1          1    0    1
#2          0    1    0
#3          0    0    0
#4          1    0    0
#5          0    1    1

然后你可以使用cbind or data.frame绑定，

cbind(comments, mtabulate(stri_extract_all(comments, regex = paste(word.list, collapse = '|')))))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

regex

grepl

如何获取一个单词并根据该单词在评论中的存在创建一个指示变量？的相关文章

在r中拆分数据并将所有拆分文件保存在csv中

我有一个名为 data 的数据集 Model Garage City Honda C Chicago Maruti B Boston Porsche A New York Honda B Chicago Honda C New York 它
dplyr +“meta”-columns：当列包含要使用的其他列的名称而不是数据时

我想知道以下问题在 dplyr 中是否有一个优雅的解决方案要提供一个简单的可重现示例请考虑以下 data frame df lt data frame a 1 5 b 2 6 c 3 7 ref c a a b b c stringsA
从“class”名称中删除/替换不需要的前缀信息

我正进入状态style从后端它带有不需要的前缀我会替换没有前缀的相同内容正确的方法是什么这就是我得到的
R 中 nlme 包中的 gls 函数出错

我不断收到这样的错误 Error in coef lt corARMA tmp value c 18 3113452983211 1 56626248550284 Coefficient matrix not invertible 或者像这
R：如何将描述小时、分钟和秒的非直观字符串转换为可行的 POSIXct 格式以执行标准算术？

我在 R 中有一个数据集其值采用小时分钟和秒格式然而有些值只有小时和分钟有些值只有分钟和秒有些值只有分钟有些值只有秒它的格式也不是很有利样本数据如下 example lt as data frame c 22h28m 17
无效的命令名称“tk_chooseDirectory”错误

我使用 bioconductor 进行 WES 管道并使用 tk choose dir 选择用户存储输入文件的目录并将其存储以供进一步使用这里是命令行 library tcltk dataDir lt dirname tk choos
tidyverse 干扰 ggplot2 吗？无法访问map_data

在控制台中运行这些命令输出为 gt cty0 ggplot2 map data county gt library tidyverse Loading tidyverse ggplot2 Loading tidyverse tibble
如何使用正则表达式限制小数点之前/之后/小数点以及整体的位数？

我正在尝试检查数值是否具有特定数量的数字总共不应超过 19 位数字小数点前不能超过17位整数部分小数点后不得超过 4 位小数部分可以有小数点也可以没有前面可以有或或没有有效示例 1 1 0 0 1234567890123
R 带有列和行的分面 qqplots

我需要使用按行和列的构面创建 qqplot 我了解如何用列和行绘制分面图但我不确定如何设置我的数据最终我想按列和行对数据集进行分组然后按升序对建模结果和观察到结果进行排序同时添加带有行组的列和带有列组的列我一直在
关于子组的新列和另一列中的百分比范围

我有一个如下所示的示例 df df test lt data frame Group Name c Group1 Group2 Group1 Group2 Group2 Group2 Group1 Sub group name c A A
简单的 preg_replace 返回 null

为什么这个非常简单的 preg replace 返回 null preg replace s test test 这个想法是删除空格您忘记添加分隔符 preg replace s test test 而且最好使用 s 代替 s 在你的模式
将文件夹中的多个 csv 文件读取到 R 中的单个数据帧中[重复]

这个问题在这里已经有答案了我有一个包含 332 个 csv 文件的文件夹文件名称如下 001 csv 002 csv 003 csv 330 csv 331 csv 332 csv 所有文件都具有相同数量的变量和相同的格式我需要读取一
距数据帧中最近的非 NA 值的距离

我有以下数据帧 df 我想添加一列其中包含与每行最接近的非 NA 值的距离 df lt data frame x 1 20 df c 1 3 4 5 11 14 15 16 x lt NA 换句话说我正在寻找以下值 df distanc
在 R 中安全地计算算术表达式？

Edit 好吧由于似乎有很多混乱我将稍微简化一下问题您可以尝试回答下面的原始问题或者您可以解决此版本并忽略该行下面的所有内容我的目标是采用任意表达式并在极其受限的环境中对其进行评估该环境将仅包含具有以下类型值的变量数值向量接
配置 fix() 和 edit() 以从 R/RStudio 在 Notepad++ 中打开

当我在 RStudio 或 RGUI 中执行此操作时 fix SomeFunction 或使用edit 我可以在记事本中看到该函数的代码有什么方法可以更改此设置以便代码预览在 Notepad 中打开而不是在普通的旧记事本中打开同样
data.table 的包装函数

我有一个已经使用 data frame 上下文编写的项目为了缩短计算时间我尝试利用 data table 的速度我的方法是构造包装函数读取帧将它们转换为表进行计算然后转换回帧这是一个简单的例子 FastAgg lt func
根据 R 中的字符串模式选择行

假设我有以下数据 df lt data frame name c TO for Turnover for people HC people Hello world beenie man apple pears TO is number c
R正则表达式获取第二个下划线之前的所有文本

s lt 1 343 43Hello 2 323 14 fdh 99H 在 R 中我想使用正则表达式来获取第二个下划线之前的子字符串如何使用一个正则表达式来完成此操作另一种方法是用分割然后粘贴前两个一些东西 paste sapp
R 中的点图每行有多个值

我有以下 R 输入文件 car 1 car 2 car 3 car2 1 car2 2 car2 3 然后我使用以下命令来绘制图表 autos data 点图 autos data V2 autos data V1 但这将每个汽车和 ca
如何通过组度量的平均值在 df 内排列 dplyr:: 组？

借鉴吴卡拉的设计https stackoverflow com a 26555424 9350837 https stackoverflow com a 26555424 9350837答案我希望根据各个组汇总测量的平均值对分组 df 进

随机推荐

将 bsearch 与字符串数组一起使用时出现问题

我尝试在 C 中的字符串数组上使用 c 内置 bsearch 时遇到一些令人困惑的行为这是代码我知道您可以使用内置 strcmp 来搜索字符串数组但我将 myStrCmp 包含在内以用于调试目的因为我不知道它为什么不起作用 cons
当路径改变时，如何获取谷歌地图中的多边形对象？

我使用 API v3 在 Google 地图上动态创建了很多多边形我没有它们的全局数组我在创建后为每个事件分配事件因为我需要跟踪用户对它们所做的更改一切都很好除了一件事 path polygon getPath Note that
System.OutOfMemory 被抛出。如何找到罪魁祸首？

我正在使用 Visual C Express 2008 并且有一个在窗体上启动的应用程序但使用具有委托显示函数的线程来处理基本上所有的处理这样在处理任务时我的表单就不会锁定最近在经历多次重复过程后程序处理传入数据因此当数据进入
以运行时可选择的精度打印浮点数

这类似于这个问题 https stackoverflow com questions 10406493 ocaml printf sprintf但不完全相同我天真地尝试过这个 let s prec string of int prec f
10-15 分钟后浏览器崩溃

在我的应用程序中我显示 10 个图表图表来自dygraphs http dygraphs com 监控数据为了显示图表我通过每 5 秒向 4 个 servlet 发送 ajax 请求来从我的服务器获取数据 10 15 分钟后不知道
在asp.net gridview中将控件添加到分页器的上一个/下一个右侧

我试图在 asp net gridview 中的寻呼机的上一个下一个右侧添加一个按钮控件我尝试使用此网站上的示例但我需要保留上一个下一个并将按钮放在底部寻呼机行的右侧起初我得到了一个小的 5px 它显示在下一个单元格中然后经过
带有 MasterDetails 页面和导航的 Xamarin.forms

我有一个应用程序我希望有一个包含 2 个选项的母版页和每个详细信息页面的工具栏项目例如这里有一个设置页面作为我的详细信息页面其中有两个收费项目保存和取消这是用户必须输入必须保存的用户数据的形式因此单击保存工具栏项目时我想
我的函数应该返回指向 std::vector 的指针还是对 std::vector 的引用？

我有一个std map
Jenkins 构建循环列表

我正在尝试找出一种方法来获得一个参数列表并让 Jenkins 创建一个作业或为列表中的每个项目运行构建参数是一个目录所以我有一个目录列表我希望它能够为每个目录工作构建运行几个步骤所以基本上对于每个目录运行 git pull a
无法将 lambda 表达式转换为类型“string”，因为它不是委托类型

在我的控制器中我尝试使用包含 EF4 来选择相关实体但 lambda 表达式抛出以下错误我在实体类中定义了相关实体例如 public class CustomerSite public int CustomerSiteId get
当参数为 Object[] 类型时通过反射调用方法

我正在使用反射来调用方法在运行时动态构造的类 https stackoverflow com questions 9578490 where in the world is com ibm ws scripting admincommand
如何在 vuetify 的数据表中使用“自定义过滤器”属性？或如何创建自定义过滤器以按标头进行过滤？

截至发布日期我找不到任何在数据表中使用自定义过滤器道具的文档我只想创建一个自定义过滤器来按标题过滤我的数据表我有一个下拉列表当用户单击下拉列表的选项之一时它将过滤列表中的一个特定标题例子下拉选项食物类型水果肉类蔬菜
将浮点数转换为 NSDate

我想将 float 转换为 NSDate 我使用以下方法将 NSDate 转换为浮点数 Turn the date into Integers NSCalendar calendar NSCalendar alloc initWithCal
Windows 10 UAP 确定设备是否为 IoT（例如 Raspberry Pi 2）

我想知道如何确定该设备是否属于 IoT 系列在我的例子中是 Raspberry Pi 2 但我不需要知道它是否专门是 Raspberry 只是一个 IoT 设备我尝试了以下代码 if ApiInformation IsApiContra
如何在 Delphi 7 中禁用 CPU 窗口

在 Delphi 7 中单步执行程序时有时会弹出 CPU 窗口然后单步执行该指令我觉得这很烦人因为我只想执行 Pascal 代码有谁知道如何禁用这个CPU弹出窗口吗如果这个窗口永远不会显示我不会感到遗憾在 Delphi 5
音频标签 GUI 不可见

我已将音频标签包含在页面上
java.lang.NoClassDefFoundError：无法在 Jboss 5.0 EAP 上初始化类 org.apache.poi.POIXMLDocument

在 Jboss 5 0 EAP 中出现以下异常但在 JBoss 5 1 GA 中工作正常我们正在使用 POI 3 7 包含的罐子是 poi 3 7 jar poi ooxml schemas jar poi ooxml jar 堆栈跟踪
我可以使用 mysqldump 获取所有数据库*除了一个*的转储吗？

我目前正在使用 mySQLdump 来备份我的开发机器和服务器然而我刚刚启动了一个项目它有一个我并不真正需要备份的 HUUUUUGE 数据库将其添加到备份周期的其余部分将是一个大问题我目前正在这样做 c Program Files
红宝石颜色生成器

我需要为待办事项列表中的多个项目随机生成颜色比如接孩子放学取干洗衣服等等在红宝石中执行此操作并避免难以看到的颜色如灰色白色等的最佳方法是什么使用 RGB 您将很难避免灰色以及难以看到的颜色我猜是在白色背景上如果您需要它
如何获取一个单词并根据该单词在评论中的存在创建一个指示变量？

我有一个单词向量和一个评论向量 word list lt c very experience glad comments lt c very good experience first time I have been and I woul

如何获取一个单词并根据该单词在评论中的存在创建一个指示变量？

如何获取一个单词并根据该单词在评论中的存在创建一个指示变量？ 的相关文章

随机推荐

热门标签

如何获取一个单词并根据该单词在评论中的存在创建一个指示变量？的相关文章