R 使用 %in% 从字符向量中删除停用词

2023-11-27

我有一个包含字符串的数据框，我想从中删除停用词。我试图避免使用tm打包，因为它是一个大数据集并且tm似乎跑得有点慢。我正在使用tm stopword字典。

library(plyr)
library(tm)

stopWords <- stopwords("en")
class(stopWords)

df1 <- data.frame(id = seq(1,5,1), string1 = NA)
head(df1)
df1$string1[1] <- "This string is a string."
df1$string1[2] <- "This string is a slightly longer string."
df1$string1[3] <- "This string is an even longer string."
df1$string1[4] <- "This string is a slightly shorter string."
df1$string1[5] <- "This string is the longest string of all the other strings."

head(df1)
df1$string1 <- tolower(df1$string1)
str1 <-  strsplit(df1$string1[5], " ")

> !(str1 %in% stopWords)
[1] TRUE

这不是我要寻找的答案。我正在尝试获取不在其中的单词的向量或字符串stopWords向量。

我究竟做错了什么？

您没有正确访问列表，并且没有从结果中获取元素%in%（它给出了 TRUE/FALSE 的逻辑向量）。你应该做这样的事情：

unlist(str1)[!(unlist(str1) %in% stopWords)]

(or)

str1[[1]][!(str1[[1]] %in% stopWords)]

对于整体来说data.framedf1，你可以这样做：

'%nin%' <- Negate('%in%')
lapply(df1[,2], function(x) {
    t <- unlist(strsplit(x, " "))
    t[t %nin% stopWords]
})

# [[1]]
# [1] "string"  "string."
# 
# [[2]]
# [1] "string"   "slightly" "string." 
# 
# [[3]]
# [1] "string"  "string."
# 
# [[4]]
# [1] "string"   "slightly" "shorter"  "string." 
# 
# [[5]]
# [1] "string"   "string"   "strings."

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

NLP

subset

tm

stopwords

R 使用 %in% 从字符向量中删除停用词的相关文章

r : 直方图上的 ECDF

在 R 中与ecdf我可以绘制经验累积分布函数 plot ecdf mydata 与hist我可以绘制数据的直方图 hist mydata 如何在同一图中绘制直方图和 ecdf EDIT 我尝试做类似的东西 https mathemati
反转默认比例梯度ggplot2

我是新手我正在尝试设计热图这是我的代码 ggplot gd aes Qcountry Q6 1 Q6d order TRUE geom tile aes fill prob colour white theme minimal labs
在 mts 对象上使用 Apply 系列函数

在 mts 对象上使用 apply 或 sapply 会在发送到函数时删除其时间序列属性我应该如何在 mts 对象中的每个时间序列上应用相同的函数带有 ts 输入和 ts 输出并返回它最好是 mts 我的意思是除了使用 for 循环
从 R 主题模型中的 DocumentTermMatrix 中删除空文档？

我正在使用 R 中的 topicmodels 包进行主题建模我正在创建一个 Corpus 对象进行一些基本的预处理然后创建一个 DocumentTermMatrix corpus lt Corpus VectorSource vec
在 for 循环中绘制的多个 ggplot2 绘图的网格

作为一个新的 ggplot2 用户我对可能性的数量感到有点迷失并且很难在网上找到我认为简单问题的简单答案我想在同一张纸上显示 ggplot2 的多个图但知道这些图来自 for 循环以下示例无法编译仅用于说明 for i in c
R - 根据另一个数据框查找每组的重叠日期

我有一个数据框其中包含多个雨量计的降雨测量值如下例所示 gt rnfl ID date value 1 250 2000 03 01 5 37 2 250 2000 03 02 0 00 3 250 2000 03 03 2 94 4
如何判断某个软件包是否已经安装？

当我安装 yaml 包时如果之前已经安装过 RStudio 则会弹出一条烦人的错误消息如何判断该软件包是否已安装以便我可以在代码中决定是否安装该软件包该消息位于弹出窗口中内容如下此安装将更新的一个或多个软件包当前已加载在更新
R：在 Shiny 中，如何修复应用于“反应性”类对象的“xtable”没有适用的方法

我收到此错误 Error in UseMethod xtable no applicable method for xtable applied to an object of class reactive UI R library shi
在捕食者-被捕食者系统的生态建模中正确使用 deSolve

我有一个捕食者被捕食者模型其中包含指定的参数和初始值我在这里用两种方法求解微分方程 1 使用 for 循环 2 使用 deSolve 包我相信 for 循环是正确的并且应该给出如下图所示的输出 For loop attempt r
我可以调整scale_color_brewer的下限吗？

我已经订购了我想使用 color Brewer 的分类数据但我很难看到非常低的值有没有办法去掉这些较低的值或设置范围的下限 ggplot data frame x 1 6 y 10 15 w letters 1 6 aes x y co
当子集长度为零时，如何简洁地处理子集？

从向量中排除元素x x lt c 1 4 3 2 我们可以减去位置向量 excl lt c 2 3 x excl 1 1 2 这也是动态工作的 excl lt which x which max x gt quantile x 25 1 2
如何在 Shiny 中动态渲染的 textInput 添加样式元素

你好堆栈溢出在我最近提出的问题中我已经解决了一些与动态渲染 UI 元素相关的主要问题并在一些了不起的人的帮助下动态创建了观察者参见此处动态渲染的 UI 如何在第二次运行时删除旧的反应变量 https stackoverflow c
R 中带有边缘箱线图的直方图

如何使直方图中的 X 轴与边缘箱线图匹配 data lt rnorm 1000 nf lt layout mat matrix c 1 2 2 1 byrow TRUE height c 1 3 layout show nf par mar
如何在 R 中查找平衡面板数据（又名，如何查找面板中的哪些条目在给定窗口内完整）

我有来自 Compustat 的大量数据我向其中添加了一些手工收集的数据认真地从一堆旧书中手工收集但我不想手工收集整个面板只想随机选择一个子集为了找到更大的集合我从中随机选择我想从 Compustat 的平衡面板开始我看到p
无法在 Powershell 中运行 R.exe

我经常发现在命令行 Windows 上运行 R 更有用然而当我在 Powershell 中尝试时我往往会遇到问题但这可以通过第一次运行轻松克服cmd然后就可以了这是我执行此操作时遇到的错误R CMD BATCH Invoke Hi
for 循环与 cor.test 在许多类别上

我正在尝试在 R 中编写一个循环它将循环遍历 3 个不同的物种以计算两个连续变量 Redness 和 VarNormAbund 之间的相关性我的循环正在运行但 3 个物种中每一个的输出都是相同的这让我认为循环卡在第一个物种上 co
通过 RCpp 返回 NA

新手 RCpp 问题在这里 How can I make a NumericVector returnNA到R 例如假设我有一个 RCpp 代码它分配NA到向量的第一个元素 RCpp export NumericVector myFun
绘制带有颜色渐变的geom_segment线？（或者还有另一种方法来强调开始与结束吗？）

我的数据框中有大量行 100 000 的两组纬度和经度变量我正在尝试绘制一个连接这两组坐标的图即从纬度1 经度1 to 纬度2 经度2 使用 geom segment 使用非常低的 alpha 使线条透明因为线条太多我想强调这些线
通过 r 中的组变量进行汇总

我有一个数据框如下 head newStormObject FATALITIES INJURIES PROPVALDMG CROPVALDMG EVTYPE total 1 0 15 2 5e 05 0 TORNADO 15 2 0 0 2
R - 如何为数据范围内的缺失值绘制条形图零点？

假设我对 1 到 10 之间的整数的 200 个点有 10 个观察值 mysample sample rep seq 1 10 20 10 我想用条形图绘制它 barplot table mysample barplot https i s

随机推荐

VS 2008 Intellisense 缺失：组合键绑定到当前不可用的命令

Intellisense 已停止处理我的 aspx 文件并且我查看了解决该问题的其他问题但没有解决方案当我尝试格式化 aspx 文档 Ctrl K Ctrl D 时状态栏显示组合键已绑定到当前不可用的命令格式文档轮廓不再显示我
如何在保存记录之前清理数据（删除 html 标签）？

我想知道 Rails3 是否有一种简单的方法可以在将输入数据保存到数据库之前从输入数据中删除 html 标签现在数据已由 HAML 在视图级别进行清理 JS 没有被执行之类的东西但我想完全删除潜在的有害数据基本上我的问题是是否有
是否可以在 Gradle 中定义 Android 字符串数组资源？

在 Android 版 Gradle 中我试图生成与此字符串数组资源等效的内容
来自扫描仪的 Java 循环/用户输入

制作一个简单的篮球程序我询问主队名称本赛季有多少场比赛然后循环询问下一场球队比赛基本上当我启动 do while 循环时它效果很好除非用户输入例如俄亥俄州例如输出将从剩余 6 场比赛变为剩余 4 场比赛通常它会问
Pandas to_excel-如何让它更快

我有一个包含 12 000 行和 34 列的数据框 pandas 将其写入 Excel 大约需要 15 秒我读到了一些关于 to excel 函数的讨论使其更快的一种方法是添加 engine xlsxwriter 我使用以下代码 wri
Facebook 新 iOS7 应用程序中的 UIStatusBar

我有一个带有侧栏菜单的应用程序有点像 Facebook 侧栏菜单我正在使用这个名为SWRevealViewController而且效果很好现在自从 iOS7 发布以来我就是不知道如何调整我的状态和导航栏就像在 Facebook 应
jQuery 验证插件条件必填字段

我有一个问题jQuery 验证插件我有一套3单选按钮如果选择前两个中的任何一个则会在表单上向用户显示额外的选择输入如果选择第三个则不会发生任何情况我希望用户成为required如果他们从单选按钮集中选择选项 1 或 2 则可以从
如何使用 SBT 运行 JUnit 4.11 测试用例？

我有以下内容构建 sbt libraryDependencies com novocode junit interface 0 10 test libraryDependencies junit junit 4 11 test 我注意到ju
具有缩放属性的 ObjectAnimator 使 bg 变黑？

我使用 ObjectAnimator 来缩小relativelayout ObjectAnimator scaleDownX ObjectAnimator ofFloat view scaleX 0 5f ObjectAnimator sc
隐藏滚动条并溢出：启用滚动

我需要隐藏具有 Overflow scroll 的 div 上的滚动条启用后 div 将通过鼠标和键盘滚动但滚动条本身不会显示有没有办法用 css 来做到这一点或者 javascript 是可行的方法您可以使用纯 CSS 来做到这一
android:onClick 不适用于 ProGuard

从今天开始我的应用程序发生了一些奇怪的事情每次我单击设置了 android onClick 属性的按钮时我都会得到一个IllegalStateException 找不到方法我注意到只有当我在文件中启用 Proguard 时才会发生这
Python pandas 从长转向宽

我的数据目前采用长格式下面是一个示例 Stock Date Time Price Year AAA 2001 01 05 15 20 09 2 380 2001 AAA 2002 02 23 10 13 24 2 440 2002 AAA
支持通配符的 Python Windows 文件复制

我一直在这样做 result subprocess call copy 123 xml out folder y if result 0 do something else do something else 直到今天我开始研究 pywin
如何在 Java 中将数字格式化为固定长度、空格填充、千位分隔符、2 位小数

如何在Java中将数字格式化为固定长度在左侧字符串上填充空格并用空格作为千位分隔符保留小数点后两位假设是 14 个字符的字符串 I e Number 10 03 must be 10 03 and Number 1235353 9
R 脚本的 GUI 前端

我们有一组 R 脚本它们处理一些数据并产生一些结果我们希望使这些脚本可供不习惯 R 命令行的基本用户使用我们希望为他们提供一些漂亮的 GUI 这将允许轻松从 MS Excel Access 导入导出数据如果可能还支持复制粘贴
使用资产中的 Uri 或文件创建 MediaPlayer 时出错

我将song mp3复制到项目的资产目录中并编写了以下代码 private MediaPlayer mp Uri uri Uri parse file android asset song mp3 mp MediaPlayer create
具有应用内区域设置更改的 Android App Bundle

当我需要从应用程序本身内部更改应用程序区域设置即在应用程序内部进行语言更改设置时我遇到了 AAB 问题问题是 AAB 只为我提供了我的设备语言资源例如我的设备安装了英语和法语因此 AAb 只为我提供英语和法语的资源但从应用程
Java ScheduledExecutorService BAD 精度

您好我编写了一个简单的程序来测试 ScheduledExecutorService schedule 函数的精度该测试设置延迟并检查有效等待时间该测试在运行 Linux 3 8 x86 64 的 i7 机器上执行同时安装 OpenJ
如何使用Java解码html代码？ [复制]

这个问题在这里已经有答案了可能的重复 Java 如何像 HttpUtility HtmlDecode 一样解码 Java 中的 HTML 字符实体我需要提取段落例如title在 StackOverflow 中 html file 我可
R 使用 %in% 从字符向量中删除停用词

我有一个包含字符串的数据框我想从中删除停用词我试图避免使用tm打包因为它是一个大数据集并且tm似乎跑得有点慢我正在使用tm stopword字典 library plyr library tm stopWords lt stopwo

R 使用 %in% 从字符向量中删除停用词

R 使用 %in% 从字符向量中删除停用词 的相关文章

随机推荐

热门标签

R 使用 %in% 从字符向量中删除停用词的相关文章