R 使用 %in% 从字符向量中删除停用词

2023-11-27

我有一个包含字符串的数据框,我想从中删除停用词。我试图避免使用tm打包,因为它是一个大数据集并且tm似乎跑得有点慢。我正在使用tm stopword字典。

library(plyr)
library(tm)

stopWords <- stopwords("en")
class(stopWords)

df1 <- data.frame(id = seq(1,5,1), string1 = NA)
head(df1)
df1$string1[1] <- "This string is a string."
df1$string1[2] <- "This string is a slightly longer string."
df1$string1[3] <- "This string is an even longer string."
df1$string1[4] <- "This string is a slightly shorter string."
df1$string1[5] <- "This string is the longest string of all the other strings."

head(df1)
df1$string1 <- tolower(df1$string1)
str1 <-  strsplit(df1$string1[5], " ")

> !(str1 %in% stopWords)
[1] TRUE

这不是我要寻找的答案。我正在尝试获取不在其中的单词的向量或字符串stopWords向量。

我究竟做错了什么?


您没有正确访问列表,并且没有从结果中获取元素%in%(它给出了 TRUE/FALSE 的逻辑向量)。你应该做这样的事情:

unlist(str1)[!(unlist(str1) %in% stopWords)]

(or)

str1[[1]][!(str1[[1]] %in% stopWords)]

对于整体来说data.framedf1,你可以这样做:

'%nin%' <- Negate('%in%')
lapply(df1[,2], function(x) {
    t <- unlist(strsplit(x, " "))
    t[t %nin% stopWords]
})

# [[1]]
# [1] "string"  "string."
# 
# [[2]]
# [1] "string"   "slightly" "string." 
# 
# [[3]]
# [1] "string"  "string."
# 
# [[4]]
# [1] "string"   "slightly" "shorter"  "string." 
# 
# [[5]]
# [1] "string"   "string"   "strings."
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

R 使用 %in% 从字符向量中删除停用词 的相关文章

随机推荐

  • VS 2008 Intellisense 缺失:组合键绑定到当前不可用的命令

    Intellisense 已停止处理我的 aspx 文件 并且我查看了解决该问题的其他问题但没有解决方案 当我尝试格式化 aspx 文档 Ctrl K Ctrl D 时 状态栏显示 组合键已绑定到当前不可用的命令 格式文档 轮廓不再显示 我
  • 如何在保存记录之前清理数据(删除 html 标签)?

    我想知道 Rails3 是否有一种简单的方法可以在将输入数据保存到数据库之前从输入数据中删除 html 标签 现在 数据已由 HAML 在视图级别进行清理 JS 没有被执行之类的东西 但我想完全删除潜在的有害数据 基本上 我的问题是 是否有
  • 是否可以在 Gradle 中定义 Android 字符串数组资源?

    在 Android 版 Gradle 中 我试图生成与此字符串数组资源等效的内容
  • 来自扫描仪的 Java 循环/用户输入

    制作一个简单的篮球程序 我询问主队名称 本赛季有多少场比赛 然后循环询问下一场球队比赛 基本上 当我启动 do while 循环时 它效果很好 除非用户输入例如 俄亥俄州 例如 输出将从 剩余 6 场比赛 变为 剩余 4 场比赛 通常它会问
  • Pandas to_excel-如何让它更快

    我有一个包含 12 000 行和 34 列的数据框 pandas 将其写入 Excel 大约需要 15 秒 我读到了一些关于 to excel 函数的讨论 使其更快的一种方法是添加 engine xlsxwriter 我使用以下代码 wri
  • Facebook 新 iOS7 应用程序中的 UIStatusBar

    我有一个带有侧栏菜单的应用程序 有点像 Facebook 侧栏菜单 我正在使用这个名为SWRevealViewController而且效果很好 现在自从 iOS7 发布以来 我就是不知道如何调整我的状态和导航栏 就像在 Facebook 应
  • jQuery 验证插件条件必填字段

    我有一个问题jQuery 验证插件 我有一套3单选按钮 如果选择前两个中的任何一个 则会在表单上向用户显示额外的选择输入 如果选择第三个 则不会发生任何情况 我希望用户成为required如果他们从单选按钮集中选择选项 1 或 2 则可以从
  • 如何使用 SBT 运行 JUnit 4.11 测试用例?

    我有以下内容构建 sbt libraryDependencies com novocode junit interface 0 10 test libraryDependencies junit junit 4 11 test 我注意到ju
  • 具有缩放属性的 ObjectAnimator 使 bg 变黑?

    我使用 ObjectAnimator 来缩小relativelayout ObjectAnimator scaleDownX ObjectAnimator ofFloat view scaleX 0 5f ObjectAnimator sc
  • 隐藏滚动条并溢出:启用滚动

    我需要隐藏具有 Overflow scroll 的 div 上的滚动条启用后 div 将通过鼠标和键盘滚动 但滚动条本身不会显示 有没有办法用 css 来做到这一点 或者 javascript 是可行的方法 您可以使用纯 CSS 来做到这一
  • android:onClick 不适用于 ProGuard

    从今天开始 我的应用程序发生了一些奇怪的事情 每次我单击设置了 android onClick 属性的按钮时 我都会得到一个IllegalStateException 找不到方法 我注意到只有当我在文件中启用 Proguard 时才会发生这
  • Python pandas 从长转向宽

    我的数据目前采用长格式 下面是一个示例 Stock Date Time Price Year AAA 2001 01 05 15 20 09 2 380 2001 AAA 2002 02 23 10 13 24 2 440 2002 AAA
  • 支持通配符的 Python Windows 文件复制

    我一直在这样做 result subprocess call copy 123 xml out folder y if result 0 do something else do something else 直到今天我开始研究 pywin
  • 如何在 Java 中将数字格式化为固定长度、空格填充、千位分隔符、2 位小数

    如何在Java中将数字格式化为固定长度 在左侧字符串上填充空格 并用空格作为千 位分隔符 保留小数点后两位 假设是 14 个字符的字符串 I e Number 10 03 must be 10 03 and Number 1235353 9
  • R 脚本的 GUI 前端

    我们有一组 R 脚本 它们处理一些数据并产生一些结果 我们希望使这些脚本可供不习惯 R 命令行的基本用户使用 我们希望为他们提供一些漂亮的 GUI 这将允许 轻松从 MS Excel Access 导入 导出数据 如果可能 还支持复制 粘贴
  • 使用资产中的 Uri 或文件创建 MediaPlayer 时出错

    我将song mp3复制到项目的资产目录中并编写了以下代码 private MediaPlayer mp Uri uri Uri parse file android asset song mp3 mp MediaPlayer create
  • 具有应用内区域设置更改的 Android App Bundle

    当我需要从应用程序本身内部更改应用程序区域设置 即在应用程序内部进行语言更改设置 时 我遇到了 AAB 问题 问题是 AAB 只为我提供了我的设备语言资源 例如 我的设备安装了英语和法语 因此 AAb 只为我提供英语和法语的资源 但从应用程
  • Java ScheduledExecutorService BAD 精度

    您好 我编写了一个简单的程序来测试 ScheduledExecutorService schedule 函数的精度 该测试设置延迟并检查有效等待时间 该测试在运行 Linux 3 8 x86 64 的 i7 机器上执行 同时安装 OpenJ
  • 如何使用Java解码html代码? [复制]

    这个问题在这里已经有答案了 可能的重复 Java 如何像 HttpUtility HtmlDecode 一样解码 Java 中的 HTML 字符实体 我需要提取段落 例如title在 StackOverflow 中 html file 我可
  • R 使用 %in% 从字符向量中删除停用词

    我有一个包含字符串的数据框 我想从中删除停用词 我试图避免使用tm打包 因为它是一个大数据集并且tm似乎跑得有点慢 我正在使用tm stopword字典 library plyr library tm stopWords lt stopwo